700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > python爬取论坛付费内容_【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

python爬取论坛付费内容_【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

时间:2023-11-14 00:08:26

相关推荐

python爬取论坛付费内容_【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

Discuz 论坛模块全部帖子和评论爬取

Discuz 是一款由PHP编写的开源论坛

image.png

要爬取的页面地址:

创建工程

scrapy startproject discuz

C:\Users\PeiJingbo\Desktop\discuz>scrapy startproject discuz

New Scrapy project discuz, using template directory c:\program files\python37\lib\site-packages\scrapy\templates\project, created in:

C:\Users\PeiJingbo\Desktop\discuz\discuz

You can start your first spider with:

cd discuz

scrapy genspider example

C:\Users\PeiJingbo\Desktop\discuz>

cd discuz

创建爬虫

scrapy genspider discuz_spider discuz,net

C:\Users\PeiJingbo\Desktop\discuz\discuz>scrapy genspider discuz_spider discuz,net

Created spider discuz_spider using template asic in module:

discuz.spiders.discuz_spider

打开工程

image.png

应该打开创建项目命令生成的那个目录 如果选择再下层目录 就不能导模块了

修改配置

settings,py

ROBOTSTXT_OBEY = False # 不遵循ROBOTS协议

DEFAULT_REQUEST_HEADERS = { # 设置默认请求头

Accept: ext/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8,

Accept-Language: en,

user-agent: Mozilla/

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。