搜索引擎爬虫的基本需求和考核标准
来源:互联网 发布:南京泛成生物 知乎 编辑:程序博客网 时间:2024/06/09 14:21
需要包含以下基本功能:
(1)网站下载流速控制
国内国外的搜索爬虫,科研机构爬虫数量很多,不同的站点抗抓取能力大相径庭,对网站的下载做好控制,避免将网站抓死。
(2)网页抓全
将互联网网页抓全,是极大的挑战,暗网暂且不提,就是明网抓全也不是容易的事情,新站发现,sitemap协议等用站长主动提交的支持等等。
(3)网页抓新(更新及时性)
网页总在不断变化中,如何当网页变化后(更新,消亡)能够及时更新,实时性和死链率等是表征这方面工作的重要指标。
(4)网页重复抓取的避免
为了及时捕捉网页的更新,对同一个网址必须经常去抓取,同样网络是一个网状结构,同一个网址可能被多次引用,这些都导致重复抓取的可能性,如果避免网页抓重,同时控制合理的更新频率,是非常关键的。
(5)DNS自动解析
如果抓取每个网页都进行一次DNS解析,那成本就太大了,维护一个DNS自动解析系统,可以大大降低域名服务器的负担,且大大提高效率。
(6)镜像站点的识别
网页内容相同,但域名不同的情况比比皆是,其中镜像站点的识别尤为关键
(7)抓取的优先级调整
抓取队列总是满的,周而复始,但在抓取的时候会出现,重要的,紧急的,不重要的,不紧急的内容,如何处理好排队的关系尤为重要,是单独开辟绿色通道,还是将其排队号前提都是需要细心打磨的。
(8)抓取深度控制
链接展开的深度控制,避免出现单个站点过分抓取,而使得其他站点持续饥饿
(9)多爬虫的协作
爬虫间的通行量要尽可能少,爬虫出现故障后的自动恢复,抓取主机的异地化等等,据说百度在国外部署的爬虫来抓取国外的站点。
(10)网页下载的存储
网页下载后的本地存储,链接提取,锚文本,链接关系的存储等等。
(11)死链、跳转的识别和处理
在抓取网页失败后,判断是死链还是当机,错误下载的网址再次抓取的时间间隔的控制,redirect的网页收集等等。
考核标准
(1)总有效的网页数(单机)
(2)新站发现数(单机)
(3)无效抓取的网页数(单机)
(4)镜像站点数(单机)
(5)全网站点的基本信息(更新周期,死链率,错误率)
(6)重要网页的抓取及时性(随机抽取盲测)
(7)抓取稳定性,故障率等
- 搜索引擎爬虫的基本需求和考核标准
- 搜索引擎的机器爬虫的制作和一些基本要注意的事项
- 考核标准
- 搜索引擎的爬虫开发
- 搜索引擎爬虫的实现
- 考核和技术人员的职业规划
- 搜索引擎核心读书心得1:爬虫质量的3个标准
- 需求的标准
- 浏览网页访客和搜索引擎爬虫不同的Agent 内容
- 浏览网页访客和搜索引擎爬虫不同的Agent 内容
- 如何喂搜索引擎的爬虫
- 国内外搜索引擎的爬虫汇总
- 图表:构建成功率---SCM的考核标准之一
- 项目的人员考核和激励
- 基本的需求总结
- 爬虫技术和爬虫需求现状和展望
- 搜索引擎之爬虫定义和爬虫搜索网页策略
- 搜索引擎营销的五个基本要素和五项基本任务
- jquery AJAX的两注册方式
- jquery贪食蛇游戏
- FSO组件之文件夹操作
- ET199加密方案——文件MD5校验
- SQL 读取循环读取文件夹里面所有指定内容
- 搜索引擎爬虫的基本需求和考核标准
- 哈佛有一个著名的理论
- spring中的ref标签
- TCP/IP 详解 卷1:协议
- 标准C函数的一些字符串与整型、浮点型的转换
- Wince 系统内存
- 使用ASP更改 NTFS 分区中 文件夹的 读写等权限
- UNIX 高手的重大秘密
- SSH2+Crystal Report,重复行