爬豆瓣高分榜
来源:互联网 发布:淘宝客服上哪儿应聘 编辑:程序博客网 时间:2024/06/10 02:38
网上看到有人用python做爬虫练习,自己也学着来个
(虽然很烂)
如果你很不幸的看到了,摊手...:
# -*- coding:utf-8 -*-# Author:Jacky Cheng'''爬取豆瓣高分榜 电影数据遇到的问题: 1、requests,get(url) 的返回对象必须 加上 .text 属性,否则 在使用BeautitulSoup时无论怎样 调整 解析器 都会报错。 2、解析器:html.parse lxml html5lib 无论哪一种并不能一定能解析成功,需多次尝试 3、find_all() 根据CSS 定位 标签 用 关键字"class_" , 以避免 与 python内置的class关键字冲突 4、附上 BeaufulSoup 官方文档地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/ '''import htmlimport requestsfrom bs4 import BeautifulSoupcontent = ''for i in range(11): try: url = 'https://www.douban.com/doulist/240962/?start={}'.format(i) response = requests.get(url).text bsObj = BeautifulSoup(response, 'html5lib') div_tags = bsObj.find_all('div', {'class':'bd doulist-subject'}) for div_tag in div_tags: move_name = div_tag.find('div', {'class':'title'}).find('a').get_text().strip() move_link = div_tag.find('div', class_='title').find('a')['href'].strip() actors = div_tag.find('div', class_='abstract').get_text().strip() rate = div_tag.find('div', class_='rating').find('span', class_='rating_nums').get_text().strip() rate_number = div_tag.find('div', class_='rating').find_all('span')[2].get_text().strip() content += move_name+';\n\t'+'评分:'+rate+'分'+';\n\t'+rate_number+';\n\t'+actors+';\n\t'\ +'豆瓣地址:'+move_link+'\n\n' print(type(content)) except: print("在{}发生了一个错误,请注意》》》》".format(url)) continuewith open('豆瓣高分榜.txt', 'w', encoding='utf-8') as f: f.write(content) f.close()print("恭喜 完成工作!")
阅读全文
0 0
- 爬豆瓣高分榜
- python爬豆瓣高分电影榜
- scrapy爬豆瓣电影
- 豆瓣
- python定时器爬取豆瓣音乐Top榜歌名
- python爬虫爬取豆瓣电影榜单
- python爬虫 登陆豆瓣 爬豆瓣电影短评
- 关于爬取豆瓣电影和豆瓣书本的图片
- <Python爬虫>爬取豆瓣图书/豆瓣电影系列
- 爬取豆瓣的电影
- python3 爬取豆瓣妹子
- pyspider 爬豆瓣电影信息
- python爬豆瓣电影Top250
- Python爬取豆瓣电影
- mathematica爬取豆瓣Top250
- 爬取豆瓣图片链接(Java)
- 爬取豆瓣电影数据
- python爬取豆瓣图书
- HTML学习笔记8 css初见-文本属性
- TCP/IP学习笔记(7)-广播和多播,IGMP协议
- 利用表单传递参数实例
- Java中的变量:全局变量与局部变量
- 网络判断
- 爬豆瓣高分榜
- 启动程序脚本,shell版本
- 构造方法和以为方法的重载
- IO流
- Jin(CMake方式)
- java学习随笔——queue
- Kotlin 在控制台下的编译和运行
- C++11初探:类型推导,auto和decltype
- 排序算法 -- 选择排序