本文的文字及圖片過濾網路,可以學習,交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理,
以下文章來源于青燈編程,作者:清風

Python GUI編程:高清電影在線觀看平臺制作,全網電影免費看
https://www.bilibili.com/video/BV1tz4y1o7Yc/
讓你感受一下什么是一秒鐘下載兩千條資料,,
基本開發環境
- Python 3.6
- 皮查姆
相關模塊的使用
import csv import time import requests import concurrent.futures
目標網頁分析
一共214頁的資料,每頁資料20條,總計是4280,
:開發者工具,點擊第二頁,在XHR里面會出現資料,,
這是鏈接的引數,其中的pn對應就是頁碼,選擇的第二頁所以pn:2
如果細心的話,可以發現回傳的資料并非是一個json資料,
這樣的資料提取肯定是轉換成json資料才好提取,這有兩個方法:
方法一:
把引數中的< cb:jQuery1124036392017581464287_1608882113715 >去掉,不打算進去,就可以直接以response.json()的形式輸出,
import requests url = 'http://49.push2.eastmoney.com/api/qt/clist/get' params = { # 'cb': 'jQuery1124036392017581464287_1608882113715', 'pn': '2', 'pz': '20', 'po': '1', 'np': '1', 'ut': 'bd1d9ddb04089700cf9c27f6f7426281', 'fltt': '2', 'invt': '2', 'fid': 'f3', 'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23', 'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152', '_': '1608882115527', } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, params=params, headers=headers) html_data = response.json() stock_data = html_data['data']['diff']
方法二:
1,正常引數,請求網頁回傳資料response.txt
2,用正則匹配 jQuery1124036392017581464287_1608882113715(,*?) 匹配中間的資料
3,通過匯入json模塊,串聯轉json資料json.loads
import pprint import re import requests import json url = 'http://49.push2.eastmoney.com/api/qt/clist/get' params = { 'cb': 'jQuery1124036392017581464287_1608882113715', 'pn': '2', 'pz': '20', 'po': '1', 'np': '1', 'ut': 'bd1d9ddb04089700cf9c27f6f7426281', 'fltt': '2', 'invt': '2', 'fid': 'f3', 'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23', 'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152', '_': '1608882115527', } headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, params=params, headers=headers) result = re.findall('jQuery1124036392017581464287_1608882113715\((.*?)\);', response.text)[0] html_data = json.loads(result) stock_data = html_data['data']['diff'] pprint.pprint(stock_data)
對于這個網站,以上兩種方法都是可以的,但是一般建議使用第二種方式,因為第一種方式畢竟是投機取巧,
取值之后是一個串列的資料,通過用于回圈遍歷即可,獲取每一支股票的相關資料了,通過鍵值對取值獲取相對應的資料即可,
for i in stock_data: dit = { '代碼': i['f12'], '名稱': i['f14'], '最新價': i['f2'], '漲跌幅': str(i['f3']) + '%', '漲跌額': i['f4'], '成交量(手)': i['f5'], '成交額': i['f6'], '振幅': str(i['f7']) + '%', '最高': i['f15'], '最低': i['f16'], '今開': i['f17'], '昨收': i['f18'], '量比': i['f10'], '換手率': str(i['f8']) + '%', '市盈率(動態)': i['f9'], '市凈率': i['f23'], }
保存資料通過csv模塊保存就可以了,
使用多執行緒爬取速度有多快?
給五個執行緒時的速度:
if __name__ == '__main__': start_time = time.time() executor = concurrent.futures.ThreadPoolExecutor(max_workers=5) for page in range(1, 215): url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076' executor.submit(main, url) executor.shutdown()
總耗時:3.685572624206543
總計資料:4279條資料
所以平均每秒鐘爬取1161條資料,
當我給10個執行緒時的速度:
if __name__ == '__main__': start_time = time.time() executor = concurrent.futures.ThreadPoolExecutor(max_workers=10) for page in range(1, 215): url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076' executor.submit(main, url) executor.shutdown()
總耗時:1.7553794384002686
總計資料:4279條資料
所以平均每秒鐘爬取2437條資料,
當我給20個執行緒時的速度:
,
,
,
,
,
,
,
,
,
,
給不了,電腦頂不住,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/240777.html
標籤:其他
上一篇:Spring-前言序
下一篇:SpringBoot-初體驗
