700字范文 > 爬虫的css选择器和bs4一样吗 python爬虫有多少种方式？只会最简单的正则表达式还有

爬虫的css选择器和bs4一样吗 python爬虫有多少种方式？只会最简单的正则表达式还有

时间：2021-10-16 03:56:49

1.安装bs4，这里直接在cmd窗口输入命令“pip install bs4”就行，如下，很快就能安装完毕：

2.安装成功后，大家就可以进行测试了，为了更好地说明问题，这里假设爬取的数据如下，内容比较简单：

对应的网页源码结构如下：

根据网页结构，解析代码如下，这里偶是本地打开html文件，爬虫的话，直接使用requests请求对应的页面（requests.get(url)），解析的方式是一样的：

程序运行截图如下，已经成功获取到数据：

至此，大家就完成了利用BeautifulSoup来解析网页内容，整个过程不需要正则表达式。总的来说，这种方式很简单，对于常见的简单的页面来说，完全够用了（不过，正则表达式的使用范围比较广，建议还是认真学习一下），网上也有相关教程和资料，感兴趣的可以搜一下，希望以上分享的内容能对你有所帮助吧。

是爬虫工具箱，

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.你可能在寻找 Beautiful Soup3 的文档,Beautiful Soup 3 目前已经停止开发,官网推荐在现在的项目中使用Beautiful Soup 4。

WebMagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。

设计原理

webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

webmagic包含页面抽取功能，开发者可以使用css selector、xpath和正则表达式进行链接和内容的提取，支持多个选择器链式调用。

使用maven

webmagic使用maven管理依赖，在项目中添加对应的依赖即可使用webmagic：

WebMagic 使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的实现，请在项目中去掉此依赖。

项目结构

webmagic主要包括两个包：

webmagic-corewebmagic核心部分，只包含爬虫基本模块和基本抽取器。webmagic-core的目标是成为网页爬虫的一个教科书般的实现。

webmagic-extensionwebmagic的扩展模块，提供一些更方便的编写爬虫的工具。包括注解格式定义爬虫、JSON、分布式等支持。

webmagic还包含两个可用的扩展包，因为这两个包都依赖了比较重量级的工具，所以从主要包中抽离出来，这些包需要下载源码后自己编译。