本文的文字及圖片過濾網路，可以學習，交流使用，不具有任何商業用途，如有問題請及時聯系我們以作處理，

以下文章來源于青燈編程，作者：清風

Python GUI編程：高清電影在線觀看平臺制作，全網電影免費看

https://www.bilibili.com/video/BV1tz4y1o7Yc/

讓你感受一下什么是一秒鐘下載兩千條資料，，

基本開發環境

Python 3.6
皮查姆

目標網頁分析

一共214頁的資料，每頁資料20條，總計是4280，

：開發者工具，點擊第二頁，在XHR里面會出現資料，，

這是鏈接的引數，其中的pn對應就是頁碼，選擇的第二頁所以pn：2

如果細心的話，可以發現回傳的資料并非是一個json資料，

這樣的資料提取肯定是轉換成json資料才好提取，這有兩個方法：

方法一：

把引數中的< cb：jQuery1124036392017581464287_1608882113715 >去掉，不打算進去，就可以直接以response.json（）的形式輸出，

import requests


url = 'http://49.push2.eastmoney.com/api/qt/clist/get'


params = {
    # 'cb': 'jQuery1124036392017581464287_1608882113715',
    'pn': '2',
    'pz': '20',
    'po': '1',
    'np': '1',
    'ut': 'bd1d9ddb04089700cf9c27f6f7426281',
    'fltt': '2',
    'invt': '2',
    'fid': 'f3',
    'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23',
    'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152',
    '_': '1608882115527',
}


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
html_data = response.json()
stock_data = html_data['data']['diff']

方法二：

1，正常引數，請求網頁回傳資料response.txt

2，用正則匹配 jQuery1124036392017581464287_1608882113715（，*？）匹配中間的資料

3，通過匯入json模塊，串聯轉json資料json.loads

import pprint
import re
import requests
import json
url = 'http://49.push2.eastmoney.com/api/qt/clist/get'


params = {
    'cb': 'jQuery1124036392017581464287_1608882113715',
    'pn': '2',
    'pz': '20',
    'po': '1',
    'np': '1',
    'ut': 'bd1d9ddb04089700cf9c27f6f7426281',
    'fltt': '2',
    'invt': '2',
    'fid': 'f3',
    'fs': 'm:0 t:6,m:0 t:13,m:0 t:80,m:1 t:2,m:1 t:23',
    'fields': 'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152',
    '_': '1608882115527',
}


headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
result = re.findall('jQuery1124036392017581464287_1608882113715\((.*?)\);', response.text)[0]
html_data = json.loads(result)
stock_data = html_data['data']['diff']
pprint.pprint(stock_data)

對于這個網站，以上兩種方法都是可以的，但是一般建議使用第二種方式，因為第一種方式畢竟是投機取巧，

取值之后是一個串列的資料，通過用于回圈遍歷即可，獲取每一支股票的相關資料了，通過鍵值對取值獲取相對應的資料即可，

for i in stock_data:
    dit = {
        '代碼': i['f12'],
        '名稱': i['f14'],
        '最新價': i['f2'],
        '漲跌幅': str(i['f3']) + '%',
        '漲跌額': i['f4'],
        '成交量(手)': i['f5'],
        '成交額': i['f6'],
        '振幅': str(i['f7']) + '%',
        '最高': i['f15'],
        '最低': i['f16'],
        '今開': i['f17'],
        '昨收': i['f18'],
        '量比': i['f10'],
        '換手率': str(i['f8']) + '%',
        '市盈率(動態)': i['f9'],
        '市凈率': i['f23'],
    }

保存資料通過csv模塊保存就可以了，

使用多執行緒爬取速度有多快？

給五個執行緒時的速度：

if __name__ == '__main__':
    start_time = time.time()
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=5)
    for page in range(1, 215):
        url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076'
        executor.submit(main, url)
    executor.shutdown()

總耗時：3.685572624206543

總計資料：4279條資料

所以平均每秒鐘爬取1161條資料，

當我給10個執行緒時的速度：

if __name__ == '__main__':
    start_time = time.time()
    executor = concurrent.futures.ThreadPoolExecutor(max_workers=10)
    for page in range(1, 215):
        url = f'http://49.push2.eastmoney.com/api/qt/clist/get?pn={page}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&fid=f3&fs=m:0+t:6,m:0+t:13,m:0+t:80,m:1+t:2,m:1+t:23&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1608882114076'
        executor.submit(main, url)
    executor.shutdown()