1.导入第三方库request和beautifulsoup4
2.之后
import requestsfrom bs4 import BeautifulSoup
3.使用requests中的get/post方法
r = requests.get(url)
4.之后需要重新定义网页的编码,否则可能会出现乱码
equests和beautifulsoup模块都会自行评测原网页的编码格式,所以存在评测错误的情况,所以可以在requests爬取之后Beautifulsoup调用之前对内容进行编码(设为网页本身的编码格式)即可
r.encoding = 'utf-8'
5.使用BeautifulSoup构造方法,得到一个对象
soup=BeautifulSoup(r.text,'html.parser')
6.使用prettify()是页面更美观的打印出来
print(soup.prettify())
7.
获取的是带有title标签的内容
print(soup.title)
8.获取网页title中的内容
1.print(soup.title.text)
·2.print(soup.title.string)
9.获取title标签的名称
print(soup.title.name)
10.获取父标签的名称
print(soup.title.parent.name)
11.获取p标签中的内容,默认只取第一个p标签中的内容
print(soup.p)
更多的方法请看官方文档