推荐专题：

700字范文 > python从文件中提取特定文本_使用Python从HTML文件中提取文本

python从文件中提取特定文本_使用Python从HTML文件中提取文本

时间：2019-10-28 17:23:17

相关推荐

python从文件中提取特定文本_使用Python从HTML文件中提取文本

我发现最好的一段代码用于提取文本，而不需要javascript或不需要的东西：import urllibfrom bs4 import BeautifulSoupurl = "http://news.bbc.co.uk/2/hi/health/2284783.stm"html = urllib.urlopen(url).read()soup = BeautifulSoup(html)# kill all script and style elementsfor script in soup(["script", "style"]):

script.extract() # rip it out# get texttext = soup.get_text()# break into lines and remove leading and trailing space on eachlines = (line.strip() for line in text.splitlines())# break multi-headlines into a line eachchunks = (phrase.strip() for line in lines for phrase in line.split(" "))# drop blank linestext = '\n'.join(chunk for chunk in chunks if chunk)print(text)

你只需先安装BeautifulSoup：pip install beautifulsoup4

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

python怎么读取pdf为文本_如何从pdf文件中提取特定文本python

2020-12-06

python提取文件指定列_如何从csv文件中提取特定列并使用python绘图

2019-11-21

python从csv提取需要的数据_使用Python从文本（CSV文件）中提取数据

2020-09-23

python抓取文本字段_使用Python提取文本中含有特定字符串的方法示例

2019-04-28

扩展阅读

: 使用Python和GloVe词嵌入模型提取新闻和文章的文本摘要

: 基于 Python 的自动文本提取：抽象法和生成法的比较

: 使用Python+百度OCR文字识别提取图片内容

: Python界面编程 PyQt5逐一突破之使用QLineEdit创建多模式文本框

: python中文件夹的操作

: python中文件夹的操作

最近发布

近距离接触笨狼妈妈：一篇700字的亲历记

2024-04-27

小学作文700字叙事

2024-04-27

春游烧烤作文700字

2024-04-27

深情记忆：以父爱为主题的700字作文范例

2024-04-27

心田上的那道风景700字

2022-07-12

以最喜欢的事作文700字

2024-04-27

推荐专题

检讨书700字七年级作文700字描写雨的作文700字关于母爱的作文700字作文我的烦恼700字妈妈我想对你说700字优秀作文初中700字开心的那一刻700字写动物的作文700字春景作文700字遇见作文700字中考作文700字我的老师700字作文父爱如山作文700字我的姐姐700字作文