爬蟲實戰教程
- 授人以魚不如授人以漁
- 開始實戰
- 準備作業
- 撰寫代碼
- 抓取二維碼下載鏈接
- 撰寫代碼
- 登陸抓包準備
- 棘手的可變加密引數
- 第一個引數
- 撰寫代碼
- 第二個引數 1.獲取
- 撰寫代碼
- 第二個引數hash33加密
- 全部代碼
授人以魚不如授人以漁
爬蟲教程千千萬,總覺得市面的教程很少教到精髓,
這一期做一個本地掃碼登陸獲取Session的爬蟲,
開始實戰
準備作業
我們的目標是能夠將QQ音樂的掃碼登陸在本地執行,
也就是保存登陸二維碼到本地,彈出二維碼,若登陸成功后洗掉二維碼,保留登陸資訊,
我們首先寫出顯示二維碼函式、洗掉二維碼函式、保存二維碼函式,
撰寫代碼
import sys
import os
import subprocess
'''用于在不同OS顯示驗證碼'''
def showImage(img_path):
try:
if sys.platform.find('darwin') >= 0: subprocess.call(['open', img_path])
elif sys.platform.find('linux') >= 0: subprocess.call(['xdg-open', img_path])
else: os.startfile(img_path)
except:
from PIL import Image
img = Image.open(img_path)
img.show()
img.close()
'''驗證碼驗證完畢后關閉驗證碼并移除'''
def removeImage(img_path):
if sys.platform.find('darwin') >= 0:
os.system("osascript -e 'quit app \"Preview\"'")
os.remove(img_path)
'''保存驗證碼影像'''
def saveImage(img, img_path):
if os.path.isfile(img_path):
os.remove(img_path)
fp = open(img_path, 'wb')
fp.write(img)
fp.close()
抓取二維碼下載鏈接
進入QQ空間后打開F12開發者工具,將登陸按鈕點開彈出登陸框,

我們首先先獲取我們的圖片資訊,點開Img選項里面往下拉,找到二維碼的網頁鏈接,

點開Headers查看獲取該圖片需要什么鏈接:
- 首先是個GET請求(Request Method中查看)
- 其次URL為
https://ssl.ptlogin2.qq.com/ptqrshow(問號前的網址為根部URL,問號后為引數)

再看看該二維碼網站需要的引數:
- appid: 716027609
- e: 2
- l: M
- s: 3
- d: 72
- v: 4
- t: 0.07644951044008197
- daid: 383
- pt_3rd_aid: 100497308
為了保證每次使用的正確性,我們進行多次重繪查看,
- appid: 716027609
- e: 2
- l: M
- s: 3
- d: 72
- v: 4
- t: 0.7970151752745949
- daid: 383
- pt_3rd_aid: 100497308
我們發現變化的引數只有一個 t 引數,研究研究 t 引數能不能正常訪問,
打開postman工具,新建一個requests查詢將url和params給進去發現正常獲得二維碼,

那我們暫且認為 t 引數并不是一個加密引數,姑且當 在0到1之間的亂數 帶入,
t 引數轉變 Python 語法為random.random()
撰寫代碼
## 偽代碼
self.cur_path = os.getcwd()
params = {
'appid': '716027609',
'e': '2',
'l': 'M',
's': '3',
'd': '72',
'v': '4',
't': str(random.random()),
'daid': '383',
'pt_3rd_aid': '100497308',
}
response = self.session.get(self.ptqrshow_url, params=params)
saveImage(response.content, os.path.join(self.cur_path, 'qrcode.jpg'))
showImage(os.path.join(self.cur_path, 'qrcode.jpg'))
登陸抓包準備
為了防止包過多,我們將曾經抓到的包清除掉并點回ALL界面,

點擊登陸跳轉,但此時我們需要查看資料包的狀態,因為你登陸之后會出現302跳轉現象,如果不截止抓包的話跳轉后資料包將會清空,
我們首先要了解標紅的兩個按鈕作用
- 左上角按鈕能夠控制瀏覽器的抓包狀態,如果將它點為灰色的話,瀏覽器將停止抓包固定住抓包的數量和位置并不會清空,
- 其次按鈕為改變瀏覽器的運行速率,如果出現網速過快現象使得抓包來不及按,我們可以將前后端發送速率改為緩慢3G網速,這樣就能輕松點到截止抓包了,(手速慢才會用這個,比如我)

我們攔截到這些登陸包,一個個尋找登陸所需要的主要包,
關于登陸包只有一個URL為https://ssl.ptlogin2.qq.com/ptqrlogin
引數為: - u1: https://graph.qq.com/oauth2.0/login_jump
- ptqrtoken: 1506487176
- ptredirect: 0
- h: 1
- t: 1
- g: 1
- from_ui: 1
- ptlang: 2052
- action: 1-0-1607136616096
- js_ver: 20102616
- js_type: 1
- login_sig:
- pt_uistyle: 40
- aid: 716027609
- daid: 383
- pt_3rd_aid: 100497308
繼續多次訪問,我們發現ptqrtoken、action、login_sig是可變的,
根據長度與16開頭的字串可變,盲猜action變數第三位為時間戳的倍數,
隨意打開一個時間戳網址丟入該變數引數,發現擴大了一千倍,
action變數用Python撰寫為'action': '0-0-%s' % int(time.time() * 1000)
棘手的可變加密引數
第一個引數
我們正常打開該開發者視窗,準備查找加密引數位置,

點擊Initiator 表盤,在這里我們能夠找到每個引數來源,直接點入第一個loadScript之中,

我們發現我們獲得了一串未格式化Javascript代碼,
隨意打開一個在線格式化的網站,將全部代碼格式化之后在線查詢一下加密引數在這里是經歷了什么加密,
params.ptqrtoken=$.str.hash33($.cookie.get("qrsig"))
pt.ptui.login_sig=pt.ptui.login_sig||$.cookie.get("pt_login_sig");
我們獲得了這倆加密引數的來源,看來都是關于cookie的加密,
ptqrtoken引數需要獲取cookie中的qrsig鍵的值資訊后經過hash33加密處理,login_sig引數需要獲取cookie中的pt_login_sig鍵的值資訊即可,
既然找到加密的位置了,那我們就開始尋找cookie了,
出現這兩個引數的可能地方并不多,我們不需要每個回傳結果都需要看,
- 一個是點擊登陸按鈕出現彈窗那一刻有可能出現該引數,
- 一個是彈出二維碼或QQ登陸資訊時有可能出現該引數,
重新重繪后找到彈出登陸框的回傳資訊,
是個GET請求,URL為https://xui.ptlogin2.qq.com/cgi-bin/xlogin

引數為:
- appid: 716027609
- daid: 383
- style: 33
- login_text: 授權并登錄
- hide_title_bar: 1
- hide_border: 1
- target: self
- s_url: https://graph.qq.com/oauth2.0/login_jump
- pt_3rd_aid: 100497308
- pt_feedback_link: https://support.qq.com/products/77942?customInfo=.appid100497308
為了保險,多次重繪查看是否含有另外的加密引數,
幸好幸好,都是正常死引數,好的直接訪問,
撰寫代碼
session = requests.Session()
params = {
'appid': '716027609',
'daid': '383',
'style': '33',
'login_text': '授權并登錄',
'hide_title_bar': '1',
'hide_border': '1',
'target': 'self',
's_url': 'https://graph.qq.com/oauth2.0/login_jump',
'pt_3rd_aid': '100497308',
'pt_feedback_link': 'https://support.qq.com/products/77942?customInfo=.appid100497308',
}
response = session.get('https://xui.ptlogin2.qq.com/cgi-bin/xlogin?', params=params)
cookie = session.cookies
print(cookie)
### 為了好看在這里我給全都拆開看了,
# -> <RequestsCookieJar[
# -> <Cookie pt_clientip=1c1e24098914080000b07d1bd433ca8b619275ff for .ptlogin2.qq.com/>,
# -> <Cookie pt_guid_sig=f1d1eef00c25d5c6c6d8e2e991cb8b4f64bf619e97d242388d48887e4f0f93bf for .ptlogin2.qq.com/>,
# -> <Cookie pt_local_token=49508773 for .ptlogin2.qq.com/>,
# -> <Cookie pt_login_sig=BHH8t2gdwTlUjkRWg9xJ*vKp2v2-okQSrOV1q1QEyg*Z2uAbsqi18eiy*af*rvsb for .ptlogin2.qq.com/>,
# -> <Cookie pt_serverip=8b6a647434394161 for .ptlogin2.qq.com/>,
# -> <Cookie uikey=577ec007b515f37b7134decd61590dac2f03d036848870f20fe81c87cf7d7a95 for .ptlogin2.qq.com/>]>
運行之后,我們發現了pt_login_sig引數,直接字典拿到這個引數命名變數保存起來,
第二個引數 1.獲取
既然第一個引數在登陸框內,那么盲猜第二個引數應該就是在二維碼中保存著了,
剛才已經拿到了二維碼的代碼撰寫,話不多說直接拿cookie
撰寫代碼
session = requests.Session()
params = {
'appid': '716027609',
'e': '2',
'l': 'M',
's': '3',
'd': '72',
'v': '4',
't': str(random.random()),
'daid': '383',
'pt_3rd_aid': '100497308',
}
response = session.get('https://ssl.ptlogin2.qq.com/ptqrshow?', params=params)
cookie = session.cookies
print(cookie)
# -> <RequestsCookieJar[
# -> <Cookie qrsig=4tlVhzwYo0FHzGeuen5Y-h5reR5cO*HjDyRQXcPedS*7MmOIYRENCN*BwY9JY1dD for .ptlogin2.qq.com/>]>
就一個真好,正好是我們想要的qrsig,使用字典get提取該鍵的值資訊,這個就這么簡單的拿到了,
第二個引數hash33加密
我們拿到的這個加密引數并不是可以直接給入代碼中的,我們還得獲得該hash33加密的東西才可以,
點擊Search后搜索hash33查詢,只有一個資訊點進去查找該代碼,

hash33加密演算法Javascript版:
hash33: function hash33(str) {
var hash = 0;
for (var i = 0, length = str.length; i < length; ++i) {
hash += (hash << 5) + str.charCodeAt(i)
}
return hash & 2147483647
}
撰寫為Python程式:
'''qrsig轉ptqrtoken, hash33函式'''
def __decryptQrsig(self, qrsig):
e = 0
for c in qrsig:
e += (e << 5) + ord(c)
return 2147483647 & e
在此,所有的加密均獲取,訪問登陸URL即可獲取session資訊,
全部代碼
import os,sys,time
import subprocess
import random
import re
import requests
def showImage(img_path):
try:
if sys.platform.find('darwin') >= 0: subprocess.call(['open', img_path])
elif sys.platform.find('linux') >= 0: subprocess.call(['xdg-open', img_path])
else: os.startfile(img_path)
except:
from PIL import Image
img = Image.open(img_path)
img.show()
img.close()
def removeImage(img_path):
if sys.platform.find('darwin') >= 0:
os.system("osascript -e 'quit app \"Preview\"'")
os.remove(img_path)
def saveImage(img, img_path):
if os.path.isfile(img_path):
os.remove(img_path)
fp = open(img_path, 'wb')
fp.write(img)
fp.close()
class qqmusicScanqr():
is_callable = True
def __init__(self, **kwargs):
for key, value in kwargs.items(): setattr(self, key, value)
self.info = 'login in qqmusic in scanqr mode'
self.cur_path = os.getcwd()
self.session = requests.Session()
self.__initialize()
'''登錄函式'''
def login(self, username='', password='', crack_captcha_func=None, **kwargs):
# 設定代理
self.session.proxies.update(kwargs.get('proxies', {}))
# 獲得pt_login_sig
params = {
'appid': '716027609',
'daid': '383',
'style': '33',
'login_text': '授權并登錄',
'hide_title_bar': '1',
'hide_border': '1',
'target': 'self',
's_url': 'https://graph.qq.com/oauth2.0/login_jump',
'pt_3rd_aid': '100497308',
'pt_feedback_link': 'https://support.qq.com/products/77942?customInfo=.appid100497308',
}
response = self.session.get(self.xlogin_url, params=params)
pt_login_sig = self.session.cookies.get('pt_login_sig')
# 獲取二維碼
params = {
'appid': '716027609',
'e': '2',
'l': 'M',
's': '3',
'd': '72',
'v': '4',
't': str(random.random()),
'daid': '383',
'pt_3rd_aid': '100497308',
}
response = self.session.get(self.ptqrshow_url, params=params)
saveImage(response.content, os.path.join(self.cur_path, 'qrcode.jpg'))
showImage(os.path.join(self.cur_path, 'qrcode.jpg'))
qrsig = self.session.cookies.get('qrsig')
ptqrtoken = self.__decryptQrsig(qrsig)
# 檢測二維碼狀態
while True:
params = {
'u1': 'https://graph.qq.com/oauth2.0/login_jump',
'ptqrtoken': ptqrtoken,
'ptredirect': '0',
'h': '1',
't': '1',
'g': '1',
'from_ui': '1',
'ptlang': '2052',
'action': '0-0-%s' % int(time.time() * 1000),
'js_ver': '20102616',
'js_type': '1',
'login_sig': pt_login_sig,
'pt_uistyle': '40',
'aid': '716027609',
'daid': '383',
'pt_3rd_aid': '100497308',
'has_onekey': '1',
}
response = self.session.get(self.ptqrlogin_url, params=params)
print(response.text)
if '二維碼未失效' in response.text or '二維碼認證中' in response.text:pass
elif '二維碼已經失效' in response.text:
raise RuntimeError('Fail to login, qrcode has expired')
else:break
time.sleep(0.5)
removeImage(os.path.join(self.cur_path, 'qrcode.jpg'))
# 登錄成功
qq_number = re.findall(r'&uin=(.+?)&service', response.text)[0]
url_refresh = re.findall(r"'(https:.*?)'", response.text)[0]
response = self.session.get(url_refresh, allow_redirects=False, verify=False)
print('賬號「%s」登陸成功' % qq_number)
return self.session
'''qrsig轉ptqrtoken, hash33函式'''
def __decryptQrsig(self, qrsig):
e = 0
for c in qrsig:
e += (e << 5) + ord(c)
return 2147483647 & e
'''初始化'''
def __initialize(self):
self.headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',
}
self.ptqrshow_url = 'https://ssl.ptlogin2.qq.com/ptqrshow?'
self.xlogin_url = 'https://xui.ptlogin2.qq.com/cgi-bin/xlogin?'
self.ptqrlogin_url = 'https://ssl.ptlogin2.qq.com/ptqrlogin?'
self.session.headers.update(self.headers)
qq_login = qqmusicScanqr()
session = qq_login.login()
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/230733.html
標籤:python
