垂直搜索引擎蜘蛛的基本解决方案(编程实例:所以推荐)
来源:互联网 发布:php is numeric 编辑:程序博客网 时间:2024/06/01 23:09
最初接触搜索引擎是2年前,一位北京的朋友(对我帮助很大)让我帮他设计了一只抓网页的蜘蛛。当时我头一次听说蜘蛛,半天没有回过神来,心想:蜘蛛?莫非是蜘蛛机器人?后来我还知道,蜘蛛也被人称为爬虫,正规的名称叫Spider。
第一次写蜘蛛的程序时,阅读了很多规范,同时找到了几个c#代码的(c#是朋友要求的语言)免费的Html解析的库(我记得有一个是解析SGML规范的)。可惜的是,国内的页面都是乱七八糟的,这2个库根本就是无能为力,连163的首页都无法正确解析。于是,我只好自己写了,代码不是很长(三五千行),构建dom树。(后来我把这个程序的结果发给百度,想找份工作,结果未见回音)当时遇到的主要问题有三:1)dom树的解析和容错;2)多线程下载和Url过滤;3)页面编码的分析。
当我离开学校,进入现在的公司的时候,是1年前的事情。进入的时候,我就想做点事情:构建一个垂直搜索引擎的完整解决方案。我没有想到这个事情是无法完成的,所以到目前为止,我也只是完成了一个十分局限的解决方案。
以上这篇文章我曾经转载过,现在作者似乎推出了完整的版本,由于文章太长,只好给个链接:
http://hi.baidu.com/algorithms/blog/item/1cce0a2a0b39793a5243c163.html
作者用编程实例说明了一下问题:值得一看。
1、垂直搜索引擎的定义
2、蜘蛛的主要任务
2.1 检索器
2.2 页面获取
2.3 页面解析
2.4 页面JS解析
3 信息抽取
3.1 列表页面的处理
3.2 详细页面的处理
- 垂直搜索引擎蜘蛛的基本解决方案(编程实例:所以推荐)
- 垂直搜索引擎蜘蛛的基本解决方案(cnweblog/风起云间)(好,很好)
- 搜索引擎蜘蛛的基本原理
- 搜索引擎蜘蛛的基本原理
- 国内七大垂直搜索引擎推荐
- 屏蔽搜索引擎蜘蛛的代码
- 垂直搜索引擎的选型
- 垂直搜索引擎的选型
- 五花八门的垂直搜索引擎
- 垂直搜索引擎的关键技术
- 搜索引擎的蜘蛛程序、目录索引工作原理
- 搜索引擎蜘蛛的功能与应用
- 搜索引擎的组成部分:蜘蛛、指数、界面
- GOOGLE搜索引擎蜘蛛的等级分析
- 锚文本,搜索引擎蜘蛛的最爱
- 搜索引擎爬虫蜘蛛的UserAgent收集
- 学会避免不必要的搜索引擎蜘蛛风险
- 搜索引擎爬虫蜘蛛的UserAgent收集
- Java学习方法漫谈(一)
- 四天oracle亚太地区体会
- C语言版的线性回归分析函数
- 获得当然前应用程序路径
- 使用Wireshark捕获数据帧和IP数据包教程
- 垂直搜索引擎蜘蛛的基本解决方案(编程实例:所以推荐)
- 世界上最远的距离
- 基于JDBC的数据库连接池技术研究与应用
- J2EE入门,myeclipse
- 新的办公用品
- 《长尾理论》
- 房子
- java生成缩略图代码
- 常用的JS代码