700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > 156个Python网络爬虫资源 妈妈再也不用担心你找不到资源!

156个Python网络爬虫资源 妈妈再也不用担心你找不到资源!

时间:2020-07-12 08:38:30

相关推荐

156个Python网络爬虫资源 妈妈再也不用担心你找不到资源!

本列表包含Python网页抓取和数据处理相关的库。

网络相关

通用

urllib - 网络库(标准库)requests - 网络库grab - 网络库(基于pycurl)pycurl - 网络库 (与libcurl绑定)urllib3- 具有线程安全连接池、文件psot支持、高可用的Python HTTP库httplib2 - 网络库RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库MechanicalSoup) - 能完成自动网站交互的Python库mechanize - 有状态、可编程的网页浏览库。socket- 底层网络接口(标准库)Unirest for Python - 一套支持多种语言的轻量级HTTP库hyper - Python HTTP/2客户端PySocks - SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品

异步

treq - 基于twisted、与requests类似的APIaiohttp - asyncio的HTTP客户端/服务器 (PEP-3156)

【最新Python全套从入门到精通学习资源,文末免费领取!】

网络爬虫框架

全能型爬虫

grab - 网络爬虫框架(基于pycurl/multicurl)scrapy - 网络爬虫框架(基于twisted)pyspider - 一个强力的爬虫系统cola - 一个分布式爬虫框架

其他

portia - 基于Scrapy的可视化爬虫restkit - Python的HTTP资源库。允许影虎简单的访问HTTP资源并用来创建项目demiurge - 基于PyQuery的微型爬虫框架

HTML/XML解析

通用

lxml - 高效的HTML/XML处理库。支持XPATH,用C语言写成cssselect - 解析DOM树和css选择器pyquery - 解析DOM树和jQuery选择器BeautifulSoup - Python写成的低效HTML/XMl处理库html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范feedparser - 解析RSS/ATOM信息流MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具xmltodict - 让你处理XML如同处理JSON一样xhtml2pdf - HTML/CSS to PDF转化器untangle - 讲XML文档转化为Python项目以简化处理难度hodor - 支持lxml and cssselect的配置驱动包装工具

清理

Bleach - 清理HTML (需求html5lib)sanitize - 将混乱的数据世界恢复清楚

文本处理

解析及操作文本的库

通用

difflib - 差异化计算工具(Python标准库)Levenshtein - 快速计算编辑距离及字符串相似度fuzzywuzzy - 模糊字符串比匹配esmre - 正则表达式加速器.ftfy - 将Unicode文本自动整理减少碎片化

转换

unidecode - Unicode转化为ASCII文本

字符编码

uniout - 将转移字符串输出为可读形式chardet - Python 2/3兼容字符编码检测器xpinyin - 讲汉字转为拼音的库pangu.py - CJK及字母数字文本间距格式化

Slug化

awesome-slugify - 可保留Unicode的Python slugify库python-slugify - 讲Unicode转为ASCII的Python slugify库unicode-slugify - unicode slugs生成工具pytils - 处理俄语字符串的小工具(包含pytils.translit.slugify)

通用解析器

PLY - Python lex和yacc解析工具pyparsing - 用于生成解析器的通用框架

人名

python-nameparser - 姓名解析组件

电话号码

phonenumbers - 处理、格式化、存储、验证全球电话号码

用户代理字符串

python-user-agents - 浏览器用户代理解析器HTTP Agent Parser - Python HTTP代理解析器fake-useragent - 基于全球浏览器统计的Python用户代理欺骗器user_agent - 用户代理数据生成器

特殊格式处理

处理特编辑特殊字符格式的库

通用

tablib - 处理XLS, CSV, JSON, YAML等表格数据的库textract - 从任何文档中提取文本,支持Word, PowerPoint, PDF等messytables - 杂乱的表格数据解析rows - 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT – 即将支持更多)

Office

python-docx - 阅读,查询和修改Microsoft Word / docx文件xlwt / xlrd - 从Excel读取及写入数据和格式化信息XlsxWriter - 用于穿件Excel .xlsx文件的Python模块xlwings - 一个BSD许可的库,是Excel与Python互相调用更加简单openpyxl - 可读取、编辑Excel xlsx/xlsm/xltx/xltm文件的库Marmir - 提取Python数据结构并将其转化为表格的库

PDF

PDFMiner- 从PDF文档中提取信息的工具PyPDF2 - 一个分割、合并、转换PDF文件的库ReportLab - 可以快速创建大量PDF文档pdftables - 从PDF文件中精准提取表格

Markdown

Python-Markdown - 一个用Python实现的John Gruber的MarkdownMistune - 速度最快,功能全面的Markdown纯Python解析器markdown2 - 一个完全用Python实现的快速的Markdown

YAML

PyYAML - 一个Python的YAML解析器

CSS

cssutils- 一个Python的CSS库

ATOM/RSS

feedparser - 通用的feed解析器

SQL

sqlparse - 一个无验证的SQL语句分析器

HTTP

http-parser - C语言实现的HTTP请求/响应消息解析器

Microformats

opengraph - 一个用来解析Open Graph协议标签的Python模块

可移植的执行体

pefile - 一个多平台的用于解析和处理可移植执行体(即PE)文件的模块

PSD

psd-tools - 将Adobe Photoshop PSD(即PE)文件读取到Python数据结构

自然语言处理

自然语言处理库

NLTK - Python自然语言处理领先者Pattern- Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它TextBlob - 为深入处理自然语言的项目提供API,参考了NLTK及其他jieba - 中文分词SnowNLP - 汉字文本处理库loso - 中文分词库genius -基于条件随机域的中文分词langid.py - 独立的语言识别系统Korean - 韩文形态库pymorphy2 - 俄语形态分析器(词性标注+词形变化引擎)PyPLN - 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库langdetect - Python的谷歌语言检测库端口

浏览器自动化与仿真

浏览器

selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)Ghost.py - QtWebKit封装(需求PyQT)Spynner - 具备AJAX支持的程序化网页浏览模块Splinter - 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)

Headless工具

xvfbwrapper - 用于在X虚拟帧缓冲区(Xvfb)中运行显示的Python包装器

多进程并发

threading - Python标准库的多线程运行。因为python GIL限制,对于I/O密集型任务很有效,对于CPU绑定的任务没用multiprocessing - 多进程标准库celery - 基于分布式消息传递的异步任务队列/作业队列concurrent-futures - concurrent.futures模块提供用于异步执行callable的高级接口

异步

异步网络编程库

asyncio - 异步I/O,时间循环,协同程序和任务(Python 3.4以上版本的Python标准库)Twisted - 基于事件驱动的网络引擎框架Tornado - 一个Web框架及异步网络库pulsar - Python事件驱动的并发框架diesel - Python的基于Greenlet的I/O框架gevent - 一个基于协同程序的Python网络库,使用greenleteventlet - 有WSGI支持的异步框架Tomorrow - 异步代码的魔法

队列

celery - 基于分布式消息传递的异步任务队列/作业队列huey - 小型多线程任务队列mrq - Mr. Queue - 使用redis & Gevent 的Python分布式工作任务队列RQ - 基于Redis的轻量级任务队列管理器simpleq - 一个简单的,可无限扩展,基于Amazon SQS的队列python-gearman - Gearman的Python API

云计算

picloud - 在云端执行 - 在云端执行R, Python及matlab代码

电子邮件

电子邮件处理库

flanker - 电子邮件及MIME处理库Talon - Mailgun库用于提取消息的报价和签名

URL和网络地址操作

URL和网络地址操作库

URL

furl - 一个小的Python库,使得操纵URL简单化purl - 一个简单的不可改变的URL以及一个干净的用于调试和操作的APIurllib.parse - 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)tldextract - 使用公共后缀列表从URL的注册域和子域中准确分离TLD

网络地址

netaddr - 用于显示和操纵网络地址的Python库

网页内容提取

网页内容提取库

HTML页面的文本和元数据

newspaper - 用Python进行新闻提取、文章提取和内容策展html2text - 将HTML转为Markdown格式文本python-goose - HTML内容/文章提取器lassie - 人性化的网页内容检索工具micawber - 一个从网址中提取丰富内容的小型库sumy -一个自动汇总文本文件和HTML网页的模块Haul - 一个可扩展的图像爬虫python-readability - arc90 readability工具的快速Python接口scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器libextract - 从网站提取数据

视频

youtube-dl - 一个从YouTube下载视频的小型命令行工具you-get - Python3写成的YouTube/Youku/Niconico视频下载工具

Wiki

WikiTeam - 下载并保存wkiks的工具

WebSocket

用于WebSocket的库

Crossbar - 开源的应用消息传递路由器(Python实现的用于Autobahn的WebSocket和WAMP)AutobahnPython - 提供了WebSocket协议和WAMP协议的Python实现并且开源WebSocket-for-Python - Python 2和3以及PyPy的WebSocket客户端和服务器库

DNS解析

dnsyo - 在全球超过1500个的DNS服务器上检查你的DNSpycares - ic-ares的接口。c-ares是进行DNS请求和异步名称决议的C语言库

计算机视觉

OpenCV) - 开源计算机视觉库SimpleCV - 用于照相机、图像处理、特征提取、格式转换的简介,可读性强的接口(基于OpenCV)mahotas - 快速计算机图像处理算法(完全使用 C++ 实现),完全基于 numpy 的数组作为它的数据类型

代理服务器

shadowsocks - 一个快速隧道代理,可帮你穿透防火墙(支持TCP和UDP,TFO,多用户和平滑重启,目的IP黑名单)tproxy - tproxy是一个简单的TCP路由代理(第7层),基于Gevent,用Python进行配置

杂项

user_agent - 此模块用于生成随机,有效的Web导航器的配置和用户代理HTTP header

其他

awesome-pythonpycrumbspython-github-projectspython_referencepythonidae

Python技术资源分享

如果你对Python感兴趣,学好 Python 不论是就业、副业赚钱、还是提升学习、工作效率,都是非常不错的选择,但要有一个系统的学习规划。

小编是一名Python开发工程师,自己整理了一套【最新的Python系统学习教程】,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。

如果你是准备学习Python或者正在学习,下面这些你应该能用得上:

1、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

2、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

3、精品书籍

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

4、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

5、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

6、清华编程大佬出品《漫画看学Python》

用通俗易懂的漫画,来教你学习Python,让你更容易记住,并且不会枯燥乏味。

7、Python副业兼职与全职路线

这份完整版的Python全套学习资料已经上传至CSDN官方,朋友们如果需要可以点击下方链接扫描下方二v码都可以免费获取【保证100%免费】

最新全套【Python入门到进阶资料 & 实战源码 &安装工具】

以上全套资料已经为大家打包准备好了,希望对正在学习Python的你有所帮助!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。