博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
day03 bs4解析库之遍历文档树
阅读量:4684 次
发布时间:2019-06-09

本文共 1024 字,大约阅读时间需要 3 分钟。

html_doc = """The Dormouse's story

$37

Once upon a time there were three little sisters; and their names wereElsie,Lacie andTillie;and they lived at the bottom of a well.

...

"""from bs4 import BeautifulSoupsoup = BeautifulSoup(html_doc, 'lxml')# print(soup)# print(type(soup))# 遍历文档树# 1、直接使用 *****print(soup.html)print(type(soup.html))print(soup.a)print(soup.p)# 2、获取标签的名称print(soup.a.name)# 3、获取标签的属性 *****print(soup.a.attrs) # 获取a标签中所有的属性print(soup.a.attrs['href'])# 4、获取标签的文本内容 *****print(soup.p.text) # $37# 5、嵌套选择print(soup.html.body.p)# 6、子节点、子孙节点print(soup.p.children) # 返回迭代器对象print(list(soup.p.children)) # [$37]# 7、父节点、祖先节点print(soup.b.parent)print(soup.b.parents)print(list(soup.b.parents))# 8、兄弟节点 (sibling: 兄弟姐妹)print(soup.a)# 获取下一个兄弟节点print(soup.a.next_sibling)# 获取下一个的所有兄弟节点,返回的是一个生成器print(soup.a.next_siblings)print(list(soup.a.next_siblings))# 获取上一个兄弟节点print(soup.a.previous_sibling)# 获取上一个的所有兄弟节点,返回的是一个生成器print(list(soup.a.previous_siblings))

 

转载于:https://www.cnblogs.com/zaccheo/p/11128561.html

你可能感兴趣的文章
关于用cin cin.get() getchar(), getline输入时的结束符问题
查看>>
blur和click冲突问题
查看>>
读取TXT并筛选数据写入新建TXT
查看>>
winform窗体(一)——基本属性
查看>>
时间模块,随机数模块,文件操作模块,sys模块
查看>>
light oj 1037 状压dp
查看>>
all,any函数
查看>>
深入了解正则表达式
查看>>
python模块整理3-random模块
查看>>
git 笔记
查看>>
最短路
查看>>
Java web项目使用webSocket
查看>>
CopyOnWriteArrayList 学习笔记
查看>>
转:手册网(程序员开发手册相关网站)
查看>>
转:微服务架构的理论基础 - 康威定律
查看>>
转: NetBean远程开发的格式与过程
查看>>
Eclipse c++代码提示,覆盖下面代码的问题。
查看>>
C#设计模式学习笔记-单例模式
查看>>
传智168期JavaEE就业班 day01-html
查看>>
添加工作日,排除时间段内节假日
查看>>