程序博客网 > 淘宝引擎推广怎么操作

简单有效的防网络爬虫技巧？

来源：互联网发布：淘宝引擎推广怎么操作编辑：程序博客网时间：2024/06/03 02:11

女友在51job上找工作，虽然51job已经有工作地点分类，却只分类到城市，但是因为家住浦东，所以，她希望只找在浦东的公司发布的职位，于是向我求救，希望我能帮她把查找结果中公司地点不在浦东的职位信息过滤掉。我一看要求，加上前不久刚写了blogbench——一个基于webbrowser控件的blog发布程序，觉得应该没什么太大的挑战吧~~

您应该也预料到了，实践的结果总会出人意料的，最后不得不佩服51job设计人员不知是有否有意为之的页面设计风格——每个网页中有两个<html></html>标签对，往往第一个</html>出现在真正的body内容被现示之前。

51job除了首页之外的网页，标签结构一般是这样的：

<html>
<head>
...
</head>
<body attributelist='...' onload='...'>
</html>
<html>
<body>
真正的显示内容
</body>
</html>

这个结构在被mshtml.HTMLDocument解析后，被存入变量的只会包含以下内容：

<html>
<head>
...
</head>
</html>

其余内容被忽略，但是，浏览器还是会显示其余内容的~~ 也因此，我用WebBrowser控件浏览其页面，却无论如何也跟踪不到它真正的现示内容。

试着在google和baidu搜索，"职位，51job，程序员"，果然没有任何有效查询！

哎，糟蹋了自己在mm心中的“高手”形象，换得这一点点编程技巧，在此与大家共享，寥解心中闷气~~

淘宝引擎推广怎么操作

淘宝引擎推广怎么操作

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子比乐狗粮迈锐宝比k5 苏宁易购比京东便宜比卢普斯空腹血糖比餐后血糖高怎么办比丘比丘是什么意思丢比丢比丢图片比价器比价软件盒子比价网慢慢比价 ah股比价机票比价网猪粮比价租车比价金银比价澳币比价汽车比价网网购比价比价中心比价购物慢慢比价网盒子比价全网比价购物比价比价盒子比价比价海购比价扫码比价如何比价比价网站比价工具比价网购团购比价惠惠比价比价游全球比价比价app