简单有效的防网络爬虫技巧?
来源:互联网 发布:淘宝引擎推广怎么操作 编辑:程序博客网 时间:2024/06/03 02:11
女友在51job上找工作,虽然51job已经有工作地点分类,却只分类到城市,但是因为家住浦东,所以,她希望只找在浦东的公司发布的职位,于是向我求救,希望我能帮她把查找结果中公司地点不在浦东的职位信息过滤掉。我一看要求,加上前不久刚写了blogbench——一个基于webbrowser控件的blog发布程序,觉得应该没什么太大的挑战吧~~
您应该也预料到了,实践的结果总会出人意料的,最后不得不佩服51job设计人员不知是有否有意为之的页面设计风格——每个网页中有两个<html></html>标签对,往往第一个</html>出现在真正的body内容被现示之前。
51job除了首页之外的网页,标签结构一般是这样的:
<html>
<head>
...
</head>
<body attributelist='...' onload='...'>
</html>
<html>
<body>
真正的显示内容
</body>
</html>
这个结构在被mshtml.HTMLDocument解析后,被存入变量的只会包含以下内容:
<html>
<head>
...
</head>
</html>
其余内容被忽略,但是,浏览器还是会显示其余内容的~~ 也因此,我用WebBrowser控件浏览其页面,却无论如何也跟踪不到它真正的现示内容。
试着在google和baidu搜索,"职位,51job,程序员",果然没有任何有效查询!
哎,糟蹋了自己在mm心中的“高手”形象,换得这一点点编程技巧,在此与大家共享,寥解心中闷气~~
您应该也预料到了,实践的结果总会出人意料的,最后不得不佩服51job设计人员不知是有否有意为之的页面设计风格——每个网页中有两个<html></html>标签对,往往第一个</html>出现在真正的body内容被现示之前。
51job除了首页之外的网页,标签结构一般是这样的:
<html>
<head>
...
</head>
<body attributelist='...' onload='...'>
</html>
<html>
<body>
真正的显示内容
</body>
</html>
这个结构在被mshtml.HTMLDocument解析后,被存入变量的只会包含以下内容:
<html>
<head>
...
</head>
</html>
其余内容被忽略,但是,浏览器还是会显示其余内容的~~ 也因此,我用WebBrowser控件浏览其页面,却无论如何也跟踪不到它真正的现示内容。
试着在google和baidu搜索,"职位,51job,程序员",果然没有任何有效查询!
哎,糟蹋了自己在mm心中的“高手”形象,换得这一点点编程技巧,在此与大家共享,寥解心中闷气~~
- 简单有效的防网络爬虫技巧?
- 网络爬虫技术的攻与防
- 简单的网络爬虫
- 我的简单网络爬虫
- 编写简单的网络爬虫
- [python]简单的网络爬虫
- 网络爬虫的简单实现
- 网络爬虫的简单例子
- 批处理的简单网络爬虫
- 基于网络爬虫的有效URL缓存(英文原文)
- 基于网络爬虫的有效URL缓存(中文译文)
- python写的简单有效的爬虫代码
- 网络爬虫(三) Java实现简单的网络爬虫
- 网络爬虫(四) Java实现简单的网络爬虫
- 防采集的有效方法
- 简单的scala实现的网络爬虫
- 简单的网络爬虫的python实现
- 一个简单的java网络爬虫(spider)
- .Net 集合类
- 基于Wiki的网络协作/知识积累试验平台概要设计(未完成v0.2.0204)
- 卡巴斯基2010 授权文件可以使用一年
- 51Job职位搜索助手(源码)
- 自制汉化工具 文件提取/导入/压缩工具
- 简单有效的防网络爬虫技巧?
- 基于Wiki的网络协作/知识积累试验平台
- 基于信用评价和知识共享为中心的网络协作模型设想(续1: 信用评价模块)
- 基于信用评价和知识共享为中心的网络协作模型设想
- 完成 BlogBenchV2 Beta,大家能帮忙做下测试吗?
- 急!有谁知道如何截获WebBrowser控件的 ie脚本错误提示 吗?
- .Net 环境下实现可变大小的无标题窗口拖动
- 读《Uml Toolkit》有感 -- 用例驱动的中小型系统设计过程
- 需求跟踪矩阵