扒网页~~~
来源:互联网 发布:成都魔方软件 编辑:程序博客网 时间:2024/06/11 19:37
目的:收集北京餐馆的信息,建立一个中文数据库用作以后的分析。
资源:众多专业网站,http://www.dianping.com/(大众点评网,Unicode(UTF8) 编码)
http://www.bjdianping.com/(北京点评网,Chinese Simplified(GB2312)编码)
http://lianmeng.fantong.com/(饭桶网,Unicode(UTF8) 编码)
方法:第一步:趴网页;
第二步:网页结构分析;
第三步:导入数据库。
这里介绍一下怎么扒网页的,后续步骤以后一一奉上。
不难,但有2个需要注意的地方:
1.一定记得设置等待时间,大部分网站服务器都有阻断过高频繁访问网站的功能,我的ip一段就被封了1个小时,这还算幸运的,要是因此公司对外访问被封,那就是千古罪人了,所以扒网页这种事不是你一个人的事,一定注意安全。解决办法:一是写多线程任务,让不同的机器去扒,这样依然可以很快(但其实还是担心它自己会不会被荡掉);二,加点等待时间,由于本人没有多台电脑也不好发动群众,就只有加等待时间了, System.Threading.
2. 之前不是直接用的DownloadFile(adress,filename)的方法,而是用的stream读网页再存本地的方法。这就涉及到用什么编码方式读取和保存的事了,UTF8一般是默认设置,不会有太大问题,像“北京点评网”的网页编码就很诡异,GB2312,C#中就没有 ,自己也不想再外部添加了。所以果断放弃了扒他的网页。
3. 有的网页加载方式不一样,如“饭桶网”餐馆介绍的网页,是先加载的框架结构,在加载的里面的店面信息(这点你可以通过F5刷新时明显看到),所以哪怕我另存为网页后也没有我需要的店面信息。所以果断放过这个网站。
后来找了很久,找到一个不错的网站,各方面都挺好的,做得很不错。
这里本人珍重申明,下载下来的网页,只用于研究所用,不做商业用途,实验结束后会全部删去,谢谢。如该网站有疑问,请联系我本人v-xyang@microsoft.com。
- 扒网页~~~
- 扒网页并且解析
- 扒网页内容
- python初学网页扒取
- python扒静态网页图片
- 手工扒网页模板简单流程
- TeleportUltra_1.65_PortableSoft离线浏览利器-扒网页神器
- java 网页爬虫(以扒取amazon网页信息为例)
- python如何利用cookies直接扒取用户登陆过后的网页
- 多校联合第三次题解(网页打不好开,扒下来看)
- 扒照片
- 扒新闻
- 扒扒我的微信朋友圈
- [C#]网络扒虫
- 扒网站神器
- 扒光TP
- wget扒站
- 扒旧乐趣
- 这半年比较忙,去UK3次,就为了交付项目并且协助测试。
- 调试程序,发现有内存泄漏
- A poll() example
- 如何选型AnyChat SDK/ RTX/华途bigant /V2 Flash/视高等一系类音视频产品
- linux字符界面和图形界面切换方法
- 扒网页~~~
- java 方法参数引用常见错误
- C专家编程 笔记
- sql基础
- 仅供参考视图
- 使用DHCP,为开发板自动分配IP地址
- 调用的方法addFrameScript可能未定义
- ASP.NET MVC – 关于Action返回结果类型的事儿(上)
- 桥接模式(Bridge)-将抽象部分与它的实现部分分离,使它们都可以独立地变化。