推荐专题：

700字范文 > python爬取文本中的成语_python正则表达式抓取成语网站

python爬取文本中的成语_python正则表达式抓取成语网站

时间：2018-09-07 05:13:05

相关推荐

python爬取文本中的成语_python正则表达式抓取成语网站

#anthor jiqunpeng

#time 1124

import urllib

import re

def getHtml(url): #从URL中读取html内容

page = urllib.urlopen(url)

html = page.read()

page.close()

return html

def getDictionary(html): #匹配成语

reg = "(.*?)"

dicList = pile(reg).findall(html)

return dicList

def getItemSite():#手工把每个字母开头的页面数统计下来

itemSite = {}#申明为空字典

itemSite["A"] = 3

itemSite["B"] = 21

itemSite["C"] = 19

itemSite["D"] = 18

itemSite["E"] = 2

itemSite["F"] = 14

itemSite["G"] = 13

itemSite["H"] = 15

itemSite["J"] = 23

itemSite["K"] = 6

itemSite["L"] = 15

itemSite["M"] = 12

itemSite["N"] = 5

itemSite["O"] = 1

itemSite["P"] = 6

itemSite["Q"] = 16

itemSite["R"] = 8

itemSite["S"] = 26

itemSite["T"] = 12

itemSite["W"] = 13

itemSite["X"] = 16

itemSite["Y"] = 35

itemSite["A"] = 21

return itemSite

if __name__== "__main__":

dicFile = open("dic.txt","w+")#保存成语的文件

domainsite = "/list/"

itemSite = getItemSite()

for key,values in itemSite.items():

for index in range(1,values+1):

site = key +"_"+str(index)+".html"

dictionary = getDictionary(getHtml(domainsite+site))

for dic in dictionary:

dicFile.write(dic[2]+"@@CY\n")#标记为成语，分词时使用

print key+'字母成语抓取完毕'

dicFile.close()

print '全部成语抓取完毕'

把成语保存在了txt文本中，还添加了一个后缀标签。

最后注意，设计正则表达式时可能会出现明明认为是正确的，就是匹配不了，对空白字符要留意，比如说要解析：

网友评论

文明上网理性发言，请遵守新闻评论服务协议我要评论

立即提交

专题推荐独孤九贱-php全栈开发教程

全栈 100W+

主讲：Peter-Zhu 轻松幽默、简短易学，非常适合PHP学习入门

玉女心经-web前端开发教程

入门 50W+

主讲：灭绝师太由浅入深、明快简洁，非常适合前端学习入门

天龙八部-实战开发教程

实战 80W+

主讲：西门大官人思路清晰、严谨规范，适合有一定web编程基础学习

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。

相关阅读

python爬虫（一）：正则表达式爬取网页文本

2018-12-26

C#如何使用正则表达式抓取网站信息的代码案例

2020-04-11

python网址正则表达式_python正则表达式抓取图片地址为什么要这样写？

2020-07-21

python抓取网页电话号码_利用正则表达式编写python 爬虫抓取网页电话号码！...

2022-02-02

扩展阅读

: Python爬虫：掌握使用解析库re的正则表达式从入门到精通

: 爬虫要讲武德你却用正则一篇文章搞定正则表达式

: MySQL中正则表达式查询的SQL语句集锦

: php正则表达式检索文章中的图片路径的方法

: 如何精通正则表达式？在这本书里阿里架构师教你在看故事中掌握它

: SEO优化：搜索引擎抓取网页文章的方法用户粘性助力网站优化！

最近发布

近距离接触笨狼妈妈：一篇700字的亲历记

2024-04-27

小学作文700字叙事

2024-04-27

春游烧烤作文700字

2024-04-27

深情记忆：以父爱为主题的700字作文范例

2024-04-27

心田上的那道风景700字

2022-07-12

以最喜欢的事作文700字

2024-04-27

推荐专题

检讨书700字七年级作文700字描写雨的作文700字关于母爱的作文700字作文我的烦恼700字妈妈我想对你说700字优秀作文初中700字开心的那一刻700字写动物的作文700字春景作文700字遇见作文700字中考作文700字我的老师700字作文父爱如山作文700字我的姐姐700字作文