文章目录
一、网络爬虫介绍二、示例演示1、爬取南阳理工学院ACM题目网站(1) 网页分析(2) 内容爬取2、爬取本校新闻网新闻通知(1) 网页分析(2)内容爬取三、总结四、参考链接一、网络爬虫介绍
随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,百度,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:
(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。
(2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
(3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。
(4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。
为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(generalpurpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
二、示例演示
1、爬取南阳理工学院ACM题目网站
爬取目标网址:/problemset.php-page=1.htm
学习示例代码,对关键代码语句写出详细注释,编程完成对南阳理工学院ACM题目网站 / 练习题目数据的抓取和保存
(1) 网页分析
打开待爬取的网页
发现改变页数仅需改变网址/problemset.php-page=n.htm中的变量n
查看页面源码
(2) 内容爬取
源码:
import requestsfrom bs4 import BeautifulSoupimport csvfrom tqdm import tqdm# 模拟浏览器访问Headers = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3741.400 QQBrowser/10.5.3863.400'# 表头csvHeaders = ['题号', '难度', '标题', '通过率', '通过数/总提交数']# 题目数据subjects = []# 爬取题目print('题目信息爬取中:\n')# tqdm作业:以进度条方式显示爬取进度# 爬取11页所有题目信息for pages in tqdm(range(1, 11 + 1)):# get请求第pages页r = requests.get(f'/problemset.php-page={pages}.htm', Headers)# 判断异常r.raise_for_status()# 设置编码r.encoding = 'utf-8'# 创建BeautifulSoup对象,用于解析该html页面数据soup = BeautifulSoup(r.text, 'lxml')# 获取所有td标签td = soup.find_all('td')# 存放某一个题目的所有信息subject = []# 遍历所有tdfor t in td:if t.string is not None:subject.append(t.string) # 获取td中的字符串if len(subject) == 5: # 每5个为一个题目的信息subjects.append(subject)subject = []# 存放题目with open('NYOJ_Subjects.csv', 'w', newline='') as file:fileWriter = csv.writer(file)fileWriter.writerow(csvHeaders) # 写入表头fileWriter.writerows(subjects) # 写入数据print('\n题目信息爬取完成!!!')
运行结果:
查看爬取文件
2、爬取本校新闻网新闻通知
爬取目标网址:http://news./info/1021/44550.htm
改写爬虫示例代码,将重庆交通大学新闻网站中近几年所有的信息通知(http://news./xxtz.htm) 的发布日期和标题全部爬取下来,并写到CSV电子表格中。
(1) 网页分析
打开待爬取的网页
http://news./xxtz/65.htm,第三页为http://news./xxtz/64.htm
(2)内容爬取
源代码:
import requestsfrom bs4 import BeautifulSoupimport csv# 获取每页内容def get_one_page(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36'}try:info_list_page = [] # 一页的所有信息resp = requests.get(url, headers=headers)resp.encoding = resp.status_codepage_text = resp.textsoup = BeautifulSoup(page_text, 'lxml')li_list = soup.select('.left-list > ul > li') # 找到所有li标签for li in li_list:divs = li.select('div')date = divs[0].string.strip()title = divs[1].a.stringinfo = [date, title]info_list_page.append(info)except Exception as e:print('爬取' + url + '错误')print(e)return Noneelse:resp.close()print('爬取' + url + '成功')return info_list_page# maindef main():# 爬取所有数据info_list_all = []base_url = 'http://news./xxtz/'for i in range(1, 67):if i == 1:url = 'http://news./xxtz.htm'else:url = base_url + str(67 - i) + '.htm'info_list_page = get_one_page(url)info_list_all += info_list_page# 存入数据with open('教务新闻.csv', 'w', newline='', encoding='utf-8') as file:fileWriter = csv.writer(file)fileWriter.writerow(['日期', '标题']) # 写入表头fileWriter.writerows(info_list_all) # 写入数据if __name__ == '__main__':main()
运行
查看爬取文件
爬取成功
三、总结
粗略地介绍了网络爬虫的原理,成功实现了对两个网站的爬虫。
四、参考链接
/ifubing/article/details/105153541
网络爬虫介绍