Scrapy爬虫教程之URL解析与递归爬取
来源:互联网 发布:linux 查找文件夹大小 编辑:程序博客网 时间:2024/06/09 18:11
http://www.icodelogic.com/?p=459
前面介绍了Scrapy如何实现一个最简单的爬虫,但是这个Demo里只是对一个页面进行了抓取。在实际应用中,爬虫一个重要功能是”发现新页面”,然后递归的让爬取操作进行下去。
发现新页面的方法很简单,我们首先定义一个爬虫的入口URL地址,比如《Scrapy入门教程》中的start_urls,爬虫首先将这个页面的内容抓取之后,解析其内容,将所有的链接地址提取出来。这个提取的过程是很简单的,通过一个html解析库,将这样的节点内容提取出来,href参数的值就是一个新页面的URL。获取这个URL值之后,将其加入到任务队列中,爬虫不断的从队列中取URL即可。这样,只需要为爬虫定义一个入口的URL,那么爬虫就能够自动的爬取到指定网站的绝大多数页面。
当然,在具体的实现中,我们还需要对提取的URL做进一步处理:
1. 判断URL指向网站的域名,如果指向的是外部网站,那么可以将其丢弃
2. URL去重,可以将所有爬取过的URL存入数据库中,然后查询新提取的URL在数据库中是否存在,如果存在的话,当然就无需再去爬取了。
下面介绍一下如何在Scrapy中完成上述这样的功能。
我们只需要改写spider的那个py文件即可,修改parse()方法代码如下:
- Scrapy爬虫教程之URL解析与递归爬取
- Scrapy爬虫教程之URL解析与递归爬取
- scrapy爬虫第一阶段——爬取多级url
- Scrapy爬虫 (1)爬取菜鸟Git教程目录
- scrapy-redis实现爬虫分布式爬取分析与实现
- scrapy-redis实现爬虫分布式爬取分析与实现
- python爬虫scrapy之贷联盟黑名单爬取
- scrapy实现递归爬取
- scrapy爬虫爬取旅游问答网站,递归爬取下一页
- python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网
- python3 [爬虫入门实战]爬虫之scrapy爬取中华人民共和国民政部
- Python3[爬虫实战] 爬虫之scrapy爬取爱上程序网存MongoDB(android模块)
- python3 [爬虫入门实战]爬虫之scrapy安装与配置教程
- python3 [爬虫入门实战]爬虫之scrapy安装与配置教程
- Scrapy 爬虫框架爬取网页数据
- scrapy定制爬虫-爬取javascript内容
- 爬虫第五战 scrapy小说爬取
- scrapy框架爬虫定时爬取
- ASP三层架构中可能出现的问题总结
- 仿Lightinthebox模版快速修改教程
- Maven基本知识点总结
- Leetcode: Binary Tree Inorder Traversal
- pci 总结
- Scrapy爬虫教程之URL解析与递归爬取
- NGUI之多Camera响应事件
- vim load templates python
- Nginx.conf介绍
- 打开eclipse出现Incompatible JVM解决方法
- Swing界面刷新问题
- Jquery 常用方法经典总结
- 《深入浅出WPF》视频列表
- 孙多洋华科论道 答疑解惑中小企业融资难题