本文的例子使用requests下载豆瓣电影Top250排行榜页面的代码,然后使用lxml、XPath和正则表达式对HTML代码进行解析,最后将抓取到的信息保存到SQLite数据库中。
豆瓣电影Top250排行榜页面的URL如下。
/top250
页面效果如图1所示。
豆瓣电影Top250排行榜页面URL的规律与音乐排行榜相同,如第2页、第3页的URL如下:
时间:2020-02-27 18:15:48
本文的例子使用requests下载豆瓣电影Top250排行榜页面的代码,然后使用lxml、XPath和正则表达式对HTML代码进行解析,最后将抓取到的信息保存到SQLite数据库中。
豆瓣电影Top250排行榜页面的URL如下。
/top250
页面效果如图1所示。
豆瓣电影Top250排行榜页面URL的规律与音乐排行榜相同,如第2页、第3页的URL如下:
Python爬虫编程思想(103):项目实战--抓取QQ空间说说的内容
2020-10-26
Python爬虫编程思想(48):项目实战:抓取起点中文网的小说信息
2020-12-18
Python爬虫编程思想(114):项目实战--使用Splash Lua抓取京东搜索结果
2022-03-04