前言
最近发现一个十分有趣的网站(狗头保命),一些影视剧里让人血脉膨胀的镜头制作成的gif图片,满满的都是全是爱,作为一个合格的小爬虫,不把它都放进‘作业’文档里怎么行
爬取目标
网址:GIF出处
工具使用
开发工具:pycharm
开发环境:python3.7, Windows10
使用工具包:requests,lxml
重点内容学习
requests使用xpath解析数据获取gif数据项目思路解析
首先明确自己需要采集的目标数据网址
通过requests工具包发送网络请求
翻页通过改变url
/forum-38-{}.html
转换当前页面数据
通过xpath方式提取网页数据
提取的数据为a标签的值
我们需要的是动态图
gif在详情页面
url = /forum-38-{}.html.format(page)response = RequestTools(url).texthtml = etree.HTML(response)atarget = html.xpath(//div[@class="c cl"]/a/@href)for i in atarget:u