Python
网络数据爬虫程序设计
Python
是一种广泛使用、
功能强大面向对象的程序设计语言
,
能够在短时间内简单有效地实现面向对象编程
,Python
语言飞速
发展
,
其简洁、
易学、
兼容性好等特点受到众人喜爱。
使用
Python
编写网络爬虫有其独特的优势。
(1)
语言简洁
,
使用方便。与其他经常使用英语关键字和一些
标点符号的语言相比
,
用
Python
书写的代码更容易阅读和理解
,
语法比较简单
,
其设计更简洁、方便、高效
,
也更容易为大众用户
所使用。
Python
易于配置的脚本特性
,
还使得它在处理字符方面
也非常灵活。此外
,
Python
通过强大的爬虫模块
,
对抓取网页本
身的接口操作和网页抓取后的处理都得心应手。
(2)
提供功能强大的爬虫框架
,
各种爬虫框架方便高效地下
载网页
,
这使得
Web
爬虫更高效地对数据进行爬取。
(3)
丰富的网络支持库及网页解析器
,
Python
拥有便捷的库
,
包括
Request
、
gevent
、
redis
、
jieba
、
lxml
、
Pillow
、
pyquery
、
NLTK
、
BeautifulSoup
等。
无论是最简单的爬虫程序还是复杂的爬虫系统
,
都可以利用它们轻松完成。
1
网络爬虫
1.1
定义
网络爬虫
,
主要用于收集互联网上的各种资源
,
它是搜索引擎
的重要组成部分
,
是一个可以自动提取互联网上特定页面内容的
程序
,
一段自动抓取互联网信息的程序称为爬虫
,
爬虫指的是: