Python爬虫抓取女演员图片
来源:互联网 发布:知乎你见过最阴暗的事 编辑:程序博客网 时间:2024/06/08 02:00
介绍利用Python爬虫抓取日本女演员照片。
遇到的最大问题就是该网站用了cloudflare以及其他的策略禁止爬虫爬取信息,导致urllib自带的urlretrieve函数无法使用,而其他部分都较为常规,故直接贴出代码。
import re import urllib2 def getHtml(url1): headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} request = urllib2.Request(url = url1,headers = headers) html = urllib2.urlopen(request).read() return html def getImg(html): headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} reg = r'<img src="(.*?)" title="">' imgre = re.compile(reg) imglist = re.findall(imgre,html) for imgurl in imglist: print imgurl name = re.findall(r'https://jp.netcdn.space/mono/actjpgs/(.*?).jpg',imgurl) print name namestr = "".join(name[0]) filename = namestr + '.jpg' picpath = 'D:\\ImageDownload\\%s' % (filename) print picpath timeout = 50 request = urllib2.Request(imgurl,None,headers) response = urllib2.urlopen(request,None,timeout) str = response.read() foo = open(picpath,"wb") foo.write(str) foo.close() start = int(1)end = int(2)for page in range(start,end): page = str(page) url = "https://avmo.pw/cn/actresses/page/"+page html = getHtml(url) getImg(html)print u""" --------------------------------------- name : avmo_img edition : 0.1 author : ultrakin time : 2016-09-27 --------------------------------------- """
程序抓取结果:
0 0
- Python爬虫抓取女演员图片
- python爬虫抓取图片
- python网络爬虫抓取图片
- Python爬虫抓取网页图片
- python 网络爬虫抓取图片
- python网络爬虫抓取图片
- python网络爬虫抓取图片
- python爬虫 抓取图片入门
- python 爬虫抓取页面图片
- python网络爬虫抓取图片
- Python 爬虫抓取图片(分页)
- Python爬虫抓取网页图片
- python爬虫(一)抓取 色影无忌图片
- 简单的python爬虫抓取图片实例
- python网络爬虫,抓取网页图片
- python 实现网站图片抓取小爬虫
- Python爬虫之抓取网络图片
- 用python爬虫抓取知乎图片
- 前端面试知识点--2
- C++设计模式之----单例模式
- php下载excel文件
- Laravel自定义分页样式
- operation in progress svn 页面卡住 解决办法
- Python爬虫抓取女演员图片
- 二叉树(一):二叉树的创建以及三种遍历方法的递归实现
- 电动汽车是未来
- 坚持#第50天~
- 用ds18b20测试温度并且显示在LCD1602上
- Day43、向下造型、继承方式和访问控制属性、子类的拷贝构造和拷贝赋值、多重继承
- eclipse导入java文件出现乱码问题
- IBM与中国银联合作开展区块链项目
- VS 自定义工程模板