本例使用Selenium完成一个综合项目,该项目可以QQ空间说说的内容。首先需要分析一下QQ空间说说的HTML代码。
由于进入QQ空间需要登录,所以抓取QQ空间说说的内容需要如下2步:
模拟登录抓取QQ控件说说的内容
完整这个爬虫的关键点是模拟登录,现在通过下面URL进入QQ空间说说页面,请将qq换成自己的QQ号。
http://user./qq/311
不过如果事先没有登录,那么会显示登录页面。可以通过多种方式登录,例如,用QQ扫描二维码,账号密码登录等,现在切换到账号密码登录状态,如图1所示。