爬虫实战(1):直播吧网站的赛程表
来源:互联网 发布:nba2k17周琦捏脸数据 编辑:程序博客网 时间:2024/06/02 13:06
网站地址:直播吧
本来是想写糗事百科的。。但是不知道为什么总是被禁止。。于是就换了个直播吧。
本来以为直播吧的很好写。但是发现直播吧的源代码写的很混乱。相同的比赛,有的是重点比赛,有的不是,因此格式不一样。。。还有的会混着图片。时间大部分都用来处理这方面了。最终想到了用split方法来处理掉中间这些混着的空格,图片和重点比赛标志 。
代码如下:
import urllibimport urllib2import reclass zbb: def __init__(self): self.url='http://www.zhibo8.cc/index.html' self.user_agent='Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:42.0) Gecko/20100101 Firefox/42.0' self.headers = {'User_Agent':self.user_agent} self.request=urllib2.Request(self.url,headers=self.headers) def run(self): try: response=urllib2.urlopen(self.request) content=response.read().decode('utf-8') patt=re.compile('<li label=".+?>(.+?)<a href') data=re.findall(patt,content) splits=re.compile('\s*?</b>\s*?<b>\s*|\s*?<b>\s*|\s*?</b>\s*|\s*?<img.+?>\s*|\s+') if data is not None: for x in data: y=re.split(splits,x) for i in range(len(y)): print y[i], print print 'DONE!' else: print 'Not found!' except urllib2.HTTPError, e: print e.code except urllib2.URLError, e: print e.reasonazzb=zbb()azzb.run()
1 0
- 爬虫实战(1):直播吧网站的赛程表
- 飘逸的python - 赛程表算法
- 飘逸的python - 赛程表算法
- python3 [爬虫入门实战]爬取熊猫直播用户信息
- 爬虫实战1—爬虫的基础技术
- 直播网站LiveTV Mining,爬虫抓取数据 python3+selenium+phantomjs
- 爬虫实战--爬取juubao购物券网站
- Java爬虫实战(一):抓取一个网站上的全部链接
- 爬虫实战----从免费IP代理网站获取连接率较好的可用IP
- Python爬虫系列(二)Quotes to Scrape(谚语网站的爬取实战)
- 基于 Vue 的直播播放器实战
- 基于 Vue 的直播播放器实战
- 关于直播网站的搭建--第一步:获取直播源
- 爬虫 斗鱼 直播
- 视频直播的购物平台,网站,app
- python3.x爬虫实战:阿里巴巴网站定向信息抓取
- 爬虫实战-获取wegene网站上SNP位点信息
- 爬虫实战-获取NCBI网站上SNP位点信息
- Jaccard系数
- sql 查询语法汇总(二)ExecuteReader、ExecuteNonQuery、ExecuteScalar、SqlDataReader、SqlDataAdapter
- CvArr、Mat、CvMat、IplImage、BYTE转换(总结而来)
- MySQL统计过去12个月的数据没有则为0
- iOS runtime 学习分享
- 爬虫实战(1):直播吧网站的赛程表
- Android 小球碰撞检测技术
- CCF 201503-2《数字排序》
- Error:Execution failed for task ':app:packageDebug'. > Duplicate files copied in APK META-INF/LICENS
- 今天开通了CSDN博客,原来的博客也即将搬家过来
- 属性选择器(通配符)
- iOS---tableView的一些内容
- Linux rpm 命令参数使用详解[介绍和应用]
- 17个提升iOS开发效率的必用工具