Scrapy爬虫教程之URL解析与递归爬取
来源:互联网 发布:淘宝水果店铺简介 编辑:程序博客网 时间:2024/06/02 11:02
前面介绍了Scrapy如何实现一个最简单的爬虫,但是这个Demo里只是对一个页面进行了抓取。在实际应用中,爬虫一个重要功能是”发现新页面”,然后递归的让爬取操作进行下去。
发现新页面的方法很简单,我们首先定义一个爬虫的入口URL地址,比如《Scrapy入门教程》中的start_urls,爬虫首先将这个页面的内容抓取之后,解析其内容,将所有的链接地址提取出来。这个提取的过程是很简单的,通过一个html解析库,将这样的节点内容提取出来,href参数的值就是一个新页面的URL。获取这个URL值之后,将其加入到任务队列中,爬虫不断的从队列中取URL即可。这样,只需要为爬虫定义一个入口的URL,那么爬虫就能够自动的爬取到指定网站的绝大多数页面。
当然,在具体的实现中,我们还需要对提取的URL做进一步处理:
1. 判断URL指向网站的域名,如果指向的是外部网站,那么可以将其丢弃
2. URL去重,可以将所有爬取过的URL存入数据库中,然后查询新提取的URL在数据库中是否存在,如果存在的话,当然就无需再去爬取了。
下面介绍一下如何在Scrapy中完成上述这样的功能。
我们只需要改写spider的那个py文件即可,修改parse()方法代码如下:
- Scrapy爬虫教程之URL解析与递归爬取
- Scrapy爬虫教程之URL解析与递归爬取
- scrapy爬虫第一阶段——爬取多级url
- Scrapy爬虫 (1)爬取菜鸟Git教程目录
- scrapy-redis实现爬虫分布式爬取分析与实现
- scrapy-redis实现爬虫分布式爬取分析与实现
- python爬虫scrapy之贷联盟黑名单爬取
- scrapy实现递归爬取
- scrapy爬虫爬取旅游问答网站,递归爬取下一页
- python3 [爬虫入门实战]爬虫之scrapy爬取中国医学人才网
- python3 [爬虫入门实战]爬虫之scrapy爬取中华人民共和国民政部
- Python3[爬虫实战] 爬虫之scrapy爬取爱上程序网存MongoDB(android模块)
- python3 [爬虫入门实战]爬虫之scrapy安装与配置教程
- python3 [爬虫入门实战]爬虫之scrapy安装与配置教程
- Scrapy 爬虫框架爬取网页数据
- scrapy定制爬虫-爬取javascript内容
- 爬虫第五战 scrapy小说爬取
- scrapy框架爬虫定时爬取
- 基于51单片机的NRF905收发程序
- 解决IE6下DIV无法实现1px高度问题
- file
- 计算机专业学生,在大学里学到什么是最重要的?
- Android私有文件资源文件的存取
- Scrapy爬虫教程之URL解析与递归爬取
- 可变参数
- 开源RTP库JRTPLIB 初学
- 分库分表的设计思路让大系统变简单
- 数据类型和Json格式
- listview中的字体设置为不同颜色
- 工作 心情2012年11月30日11:15:04
- Android开发之点9.png技术的使用
- fedora 64位 wine 安装恶心插曲