700字范文 > 怎么加载csv_python爬虫入门实战(四)！爬取动态加载的页面

怎么加载csv_python爬虫入门实战(四)！爬取动态加载的页面

时间：2020-01-10 22:40:43

今天的主题是爬取动态网页的经验分享，以cocos论坛为例子进行分享。(官方不会打我吧 )

配置环境

为什么选择cocos论坛呢？因为自己在浏览论坛时，发现标题内容会随着滚动条的位置而动态添加。

环境: python3 + requests 。还要引入几个系统库。参考如下：

以chrome浏览器为例，空白处右键->检查进入网页分析模式，选择 Network 中的XHR，滚动条往下滚，观察右侧加载了什么文件。

在网页分享模式下，点击刚才下载的文件，查看里面的内容，发现对一个地址使用了GET方法，并传入了页码的参数。

再看看返回的内容是一个json字符串。

这个 json字符串里就有我们想要内容。一起看下如何用requests 发送参数，并返回Json 结果。

只需要根据地址，传入一个 headers 告诉网页我们要接收json字符串。

json是一种数据存储格式，可以被多种语言解析，一般用于数据传输。

由前一张图，可以看到所有文章列表在topic_list的topics中，一起看看 python3 是怎么解析的。

其中的链接地址可以通过打开几个论坛内容找到规律，是由 slug 和 id 这两个字段拼接的。

最后使用多线程和 csv 存储结果。(不清楚的话可以看看之前的文章哦。python爬虫入门实战(三)不会正则怎么办？xpath分分钟搞定和 python爬虫入门实战(二)！快！快！快！让爬虫赢在起跑线！多线程)

最后，看看最终效果吧！

对于动态生成的内容，我们可以通过网页分享中下载的文件分析，并通过requests模块模拟headers 和发送参数方法获取数据。

这是我学到的新技能哦！如有错误或其他想法，欢迎留言！如果我又学到新的东西，会第一时间分享给大家哦！点个关注不迷路！

以上内容仅供个人学习使用，请勿用于商业用途。

我是白玉无冰，游戏开发小赤佬，也玩python和shell

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。