BeautifulSoup及lxml使用小记
来源:互联网 发布:java线程安全的集合 编辑:程序博客网 时间:2024/06/02 17:19
- Bs4中常用findall与class_来寻找节点
book_cover=soup.find_all("div",class_='cover')
得到的结果是存在列表中的bs4 tree,仍旧可以用findall遍历
遇到有些只有标签的,没有任何属性的,想要的到标签中的内容,可以寻找兄弟节点
如find_next_siblings()找下一个兄弟节点
还有find_parent()找父节点
find_all_next()找到与当前元素靠近的所有对象。而find_next()找到离当前元素最接近的对象。
这些都与previous相对应
2.lxml中可以用cssselect和xpath寻找节点
books=html.cssselect('div.covera')
3. 获得属性的值:
两者都可以用get("属性名")的方法
也可以用soup.tagName['属性名']
4. 获得标签包含的文本:
定位到节点后使用 .text属性
5.注意区别find与findall,find找到的结果只有一个,以树结构返回,findall找到所有满足条件的,以列表形式返回
6.在抓取内容时,注意观察,有规律的话找到所有包含想要信息的树块,然后循环在一个树块中找
0 0
- BeautifulSoup及lxml使用小记
- Windows安装BeautifulSoup及使用
- python3.3 lxml+beautifulsoup 爬虫说明
- Scraper——BeautifulSoup and LXML
- BeautifulSoup和lxml的基本用法示例
- 使用beautifulsoup
- BeautifulSoup使用
- BeautifulSoup使用
- BeautifulSoup使用
- mac中安装python, pydev, beautifulsoup, lxml, scrapy
- mac中安装python, pydev, beautifulsoup, lxml, scrapy
- BeautifulSoup提示找不到lxml解析包的解决方法
- mac中安装python, pydev, beautifulsoup, lxml, scrapy
- Python requests+gevent+BeautifulSoup lxml 干点啥-加点速
- 安装lxml HTML 解析器,需要c语言库? BeautifulSoup
- centos下安装python的beautifulsoup、request、lxml插件
- lxml: Cannot import lxml.html.soupparser.fromstring, depends on outdated BeautifulSoup
- BeautifulSoup中各种html解析器的比较及使用
- 《Head first设计模式》学习笔记 – 单件模式
- php函数记录
- CYLTabBarController的使用
- r语言“无法分配...矢量”的问题
- Android5.0 WebView中Http和Https混合问题
- BeautifulSoup及lxml使用小记
- 【算法和数据结构】1.7--数据结构之二叉树(C++实现)
- ES6学习-块状作用域
- ASM简介
- 面试总结三
- Java 代码性能优化总结
- 用vc++实现IFS分形算法画一棵树
- IoT名企:物联网云服务龙头企业软硬实力兼备,机智云喜获高新技术企业认定
- Loadrunner关联函数 属性值用法