PY爬虫开发利器

来源:互联网 发布:多益网络工资怎么样 编辑:程序博客网 时间:2024/06/02 22:51

一.模块

爬虫的主要模块是三个:请求、解析、储存。这里介绍一下我们项目常用的模块。

1. 请求

requests(第三方模块):Requests: HTTP for Humans

对HTTP协议进行高度封装的库,比系统自带的urllib系列的库好用很多。2、3兼容的库。

更多介绍:xlzd.me/2015/12/11/requ


2. 解析:

bs4(即beautifulsoup,第三方模块):crummy.com/software/Bea

解析HTML的神器。比正则好用很多。2、3兼容的库。


3. 储存:

csv(系统模块):docs.python.org/2/libra

把数据写成csv格式。


pymongo(第三方模块):api.mongodb.com/python/

把数据写入MongoDB(mongodb.com/


MySQL-python(第三方模块):pypi.python.org/pypi/My


把数据写入MySQL里面。


4. 并发(主要是为了提高效率)

主要是三个:协程、线程、进程

(1)协程:gevent(第三方模块)gevent.org/


(2)线程:threading(系统模块)docs.python.org/2/libra


(3)进程:multiprocessing(系统模块)docs.python.org/2/libra



二.框架

0 0