Scrapy爬虫入门
来源:互联网 发布:手机上搞怪的软件 编辑:程序博客网 时间:2024/06/09 19:03
背景
想要做一个垂直搜索的平台,初始的数据是王道,之后的数据来源希望依赖于“众包”。刚开始想使用Nutch,因为能与solr,lucene兼容。但是Nutch是个通用的爬虫,可能不适合我的需求。我的需求是定向抓取,也不包括链接分析,站点发现等。而且Nutch的源只提供1.6后的版本,体验了之后发现网上现有的许多资料不太适合。于是尝试使用Scrapy这个python写成的爬虫框架。他是一个事件驱动的网络框架,可以针对页面定制自己的爬虫需求,并且扩展和编写比较简单。
安装使用
Scrapy的安装需要关联不少python的类库。建议仔细参考文档的步骤。这里有两份Scrapy安装和Scrapy入门使用的文档,是官网文档的中文翻译。根据第一篇文档,安装好Python环境,Twisted,setuptool等内容后可以正常启动Scrapy。我自己使用的是Scrapy1.4版本,如果使用1.6版本的还需要自己安装libxslt。注意Python版本和各个库的版本兼容问题,只要完全按照文档里的顺序下去,就不会搞错。
我也尝试爬了下自己CSDN博客主页的url内容,使用起来比较简单,而且速度快。虽然是第一次使用python,在扩展爬虫类和添加规则的时候觉得并不困难。关键还是在对目标页面的结构分析,通过XPath的规则提取出需要的内容,以json的格式输出或者存在磁盘上。
这里有一篇简单分析Scrapy架构的文章。
总结
最后提供一篇Scrapy使用者的经验文章,在scrapy性能,缺点,增量爬取,高效存储方面都点到了些。等有更进阶的使用经验之后会再进行分享。
- Scrapy爬虫入门
- Scrapy爬虫框架入门
- 网页爬虫--scrapy入门
- 网页爬虫--scrapy入门
- Python Scrapy爬虫入门
- scrapy 爬虫入门
- scrapy爬虫入门
- scrapy爬虫框架入门实例
- scrapy 爬虫入门(1)
- scrapy爬虫框架入门实例
- 使用scrapy编写爬虫入门
- 网络爬虫Scrapy框架入门
- Python爬虫入门-scrapy爬取拉勾网
- scrapy爬虫框架入门实例
- 爬虫Scrapy-02入门程序
- Python 爬虫入门 1 了解爬虫Scrapy
- python爬虫框架Scrapy入门:安装
- scrapy 爬虫 环境搭建入门(一)
- 11个强大的Visual Studio调试小技巧
- 标签实现相册的不同显示
- GLUI配置
- 实现网页上的坐标查询
- linux线程模型
- Scrapy爬虫入门
- 【转】UNIX环境domain socket通信方式
- openssl 使用证书
- C#汉字判断的实现
- Zygote工作流程分析
- Java中十个常见的违规编码
- Jmeter性能测试(转)
- 【读书笔记】extern,const的基本用法
- action 的 method DMI 通配符