700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 从贴吧热门贴的源代码获取发帖人 发帖时间 发帖内容 并存入csv文件中

从贴吧热门贴的源代码获取发帖人 发帖时间 发帖内容 并存入csv文件中

时间:2021-05-07 03:52:59

相关推荐

从贴吧热门贴的源代码获取发帖人 发帖时间 发帖内容 并存入csv文件中

# -*- coding: utf-8 -*-import reimport csvname_list = []f = open("result.csv", "w+", encoding="utf-8")csv_writer = csv.writer(f)csv_writer.writerow(["用户名", "发帖时间", "发帖内容"])file = open("source.txt", "r") #源代码存储文件content = file.read()file.close()#匹配发帖人pattern1 = pile(r'''p_author_name.*?>(.*)''', re.M | re.I)pattern2 = pile(r"<img.*?/>")name = pattern1.findall(content)for str1 in name:str1 = re.sub(pattern2, "", str1)str1 = re.sub(r"</a>", "", str1)name_list.append(str1)#匹配发帖时间pattern3 = pile(r"\d{4}-\d{2}-\d{2} \d{2}:\d{2}")time_list = pattern3.findall(content)#匹配发帖内容pattern4 = pile(r'''post_content_\d{12}.*?>\s*(.*?<)''', re.M | re.I)info = pattern4.findall(content)info_list = []for str1 in info:str1 = re.sub(r"<", "", str1)info_list.append(str1)#zip()内置函数同时遍历三个列表for name, time, info in zip(name_list, time_list, info_list):csv_writer.writerow([name, time, info])

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。