本文主要对爬取过程中所用到的知识做简单总结,最后有项目链接。
一、项目简介
本项目利用python的scrapy框架+selenium模拟登陆微博来爬取带有关键字的微博及微博下面的评论(1 、2级评论)。
当时自己比较关注“小凤雅事件”,而微博又是舆论的战场,就想爬取“小凤雅事件”的相关微博以及评论,看看大家的关注点在哪里,于是就行动起来了。
下面是对主要技术的介绍。
二、scrapy介绍
1、Scrapy 组件
组件Scrapy Engine
引擎负责控制数据流在系统中所有组件中流动,并在相应动作发生时触发事件。
调度器(Scheduler)
调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。
下载器(Downloader)
下载器负责获取页面数据并提供给引擎,而后提供给spider。
Spiders
Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。 每个spider负责处理一个特定(或一些)网站。Item PipelineItem Pipeline负责处理被spider提取出来的item。典型的处理有清理、 验证及持久化(例如存取到数据库中)。
下载器中间件(Downloader middlewares)
下载器中间件是在引擎及下载器之间的特定钩子(specific hook),处理Downloader传递给引擎的response。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。更多内容请看 下载器中间件(Downloader Middleware) 。
Spider中间件(Spider middlewares)
Spider中间件是在引擎及Spider之间的特定钩子(specific hook),处理spider的输入(response)和输出(items及requests)。 其提供了一个简便的机制,通过插入自定义代码来扩展Scrapy功能。更多内容请看 Spider中间件(Middleware) 。
2、数据流(Data flow)
Scrapy中的数据流由执行引擎控制,其过程如下:
1.引擎打开一个网站(open a domain),找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。
2.引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。
3.引擎向调度器请求下一个要爬取的URL。
4.调度器返回下一个要爬取的URL给引擎,引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。
5.一旦页面下载完毕,下载器生成一个该页面的Response,并将其通过下载中间件(返回(response)方向)发送给引擎。
6.引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。
7.Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。
8.引擎将(Spider返回的)爬取到的Item给Item Pipeline,将(Spider返回的)Request给调度器。
9.(从第2步)重复直到调度器中没有更多地request,引擎关闭该网站。
三、python的selenium模块
它是一个用于Web应用程序测试的工具,可直接运行在浏览器中。
支持浏览器IE/Mozilla Firefox,Safari,Google Chrome,Opera等浏览器。
主要功能:
(1)测试与浏览器的兼容性——测试你的应用程序看是否能够很好得工作在不同浏览器和操作系统之上。
(2)测试系统功能——创建回归测试检验软件功能和用户需求。
(3)支持自动录制动作和自动生成.Net、Java、Perl、Python等不同语言的测试脚本。
(4)爬虫,可以模拟人点击鼠标的过程,防止被发现是爬虫程序。缺点是速度较慢。
四、应对网站反爬策略的措施
1、模拟登陆
2、设置代理IP池
3、设置User-Agent池
4、设置等待时间
5、采用分布式爬取(本项目没用到)。
微博反爬做的很厉害,虽然用了一些措施,还是会被发现......爬一段时间,会自动跳转到微博评论比较少的页面,所以爬取的评论并不多。如果有大神有好的办法能够解决这个问题,希望能指导一下我这个小弱鸡,谢谢!!!!
emmmm,最后,附上项目链接。
转github/linlin0212/scrapy-selenium-SinaSpider