关于JS逆向,相信这是很多小伙伴学习爬虫的一个门槛之一,如果你是初学者入门,开发一款爬虫,要以思路为主,代码是其次的
这里所说的思路指两个方面,一,分析观察目标站点思路,二,代码开发思路,二者缺一不可
我们来看一个需求
需求:根据用户输入任意商品或店铺名称,采集搜索结果,保存到excel表格中
是的,需求就是这么一句话,那么你能从这句话中,读到哪些有价值的信息呢?
在我看来如下:用户输入任意商品 采集搜索结果(提取哪些信息数据呢?<每一种类型的数据,我们用字段表示>)采集的数据存储到excel表格
开始分析目标站点
以该页面数据为例,搜索热卖
第一步:分析该页面的商品数据加载方式
抓包
分析
继续分析
深入分析
骨灰级分析
既然,我们已经定位到了想要的商品数据位置后,接下来观察该包请求的地址,以及请求参数
通过观察请求地址,看到参数部分有一个被处理过的特殊字符串,看着像加密?非也,这是被url编码处理过的数据,常见于对中文进行该处理转换,解决方式:通过urllib提供的quote方法即可,观察该包的请求参数位置,通过判断,调式,观察,得出加密参数sign
以上,是我们学习开发爬虫需要经常操作的分析一个流程,孰能生巧,爬虫本身就是一个靠经验吃饭的技术,经验越多,处理反爬的速度越快,开发爬虫就越快,记住一句话——人帅自有天帮
下一篇
Python爬虫入门之淘系JS逆向解析请求参数Sign加密(二)