700字范文,内容丰富有趣,生活中的好帮手!
700字范文 > Python程序设计思维练习---股票数据定向爬虫

Python程序设计思维练习---股票数据定向爬虫

时间:2022-02-03 06:16:21

相关推荐

Python程序设计思维练习---股票数据定向爬虫

本次练习是一个定向爬虫,爬取股票的相关数据,用到beautifulsoup,re,requests等库。爬前分析:先分析比较不同网站提供的股票数据,在这里比较的是新浪股票和百度股票。因为百度股票的相关数据直接在html页面中爬取相对方便,而新浪股票的数据是通过js来传递的,获取比较麻烦,所以选择百度股票作为数据来源。爬取流程:通过东方财富网得到上交所和深交所的所有股票代码,将股票代码依次导入百度股票的url中,即可访问各股的数据,再来分析百度股票的HTML页面爬取相关数据。工具环境:python3.6.5,pycharm,win10。

图片来自拍信

0.网页分析

想必大家应该不是第一次爬取数据了,对于F12开发者工具有了一定了解,所以这里就不再赘述了。对于数据来源,别执着于一个网站,可以多分析几个网站来选择相对爬取简单的网站来进行数据的爬取。

1.流程分析

东方财富网源代码

百度股票的URL:/stock/sh502036.html

分析可得:只需将东方财富网中的.html前的股票代码提取出来并加入到/stock/的后面,便可以得到所有股票源数据。

百度股票源代码数据部分

2.函数设定

依据流程设定函数

3.完整代码

import requestsfrom bs4 import BeautifulSoupimport tracebackimport redef getHTMLText(url, code="utf-8"):try:r = requests.get(url)r.raise_for_status()r.encoding = codereturn r.textexcept:return ""def getStockList(lst, stockURL):html = getHTMLText(stockURL, "GB2312")soup = BeautifulSoup(html, 'html.parser') a = soup.find_all('a')for i in a:try:href = i.attrs['href']lst.append(re.findall(r"[s][hz]\d{6}", href)[0]) # 匹配类似sh000001的股票代码except:continuedef getStockInfo(lst, stockURL, fpath):count = 0for stock in lst:url = stockURL + stock + ".html"html = getHTMLText(url)try:if html=="":continueinfoDict = {}soup = BeautifulSoup(html, 'html.parser')stockInfo = soup.find('div',attrs={'class':'stock-bets'})name = stockInfo.find_all(attrs={'class':'bets-name'})[0]infoDict.update({'股票名称': name.text.split()[0]})keyList = stockInfo.find_all('dt')valueList = stockInfo.find_all('dd')for i in range(len(keyList)):key = keyList[i].textval = valueList[i].textinfoDict[key] = valwith open(fpath, 'a', encoding='utf-8') as f:f.write( str(infoDict) + '\n' )count = count + 1print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="") # \r:能让输出比例时不自动换行except:count = count + 1print("\r当前进度: {:.2f}%".format(count*100/len(lst)),end="")continuedef main():stock_list_url = '/stocklist.html'stock_info_url = '/stock/'output_file = 'D:/BaiduStockInfo.txt'slist=[]getStockList(slist, stock_list_url)getStockInfo(slist, stock_info_url, output_file)main()

运行

本练习来自中国大学MOOC

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。