
文章目錄
- 系列簡介
- 分析網頁
- 代碼實作
- 拓展延伸
系列簡介
將我的“爬蟲百戰穿山甲”團隊平時做的專案放到這個專欄里吧,
僅供學習研究使用,如有侵權,私信我洗掉,不得轉載
本系列不多廢話,小白入門爬蟲可以先看一下我的另一個專欄:點擊進入:精寫15篇,帶你入門Python爬蟲
里面有十一篇教程,帶四個專案,
分析網頁
點此藍字打開:有道翻譯
直奔主題:

直接打開網路傳輸板塊,選擇“XHR”,
輸入測驗單詞,比如說:hello,發現兩個包,但是不知道有什么不一樣的,就拿一個就好了:

拿下那個網址:https://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule,這個網頁打開是被鎖的,
根據前輩的經驗,把translate后面的_o去掉,
去掉之后,會發現打開的頁面依舊還是有道,這是什么原因呢?我們再看一下:

感受到了嗎?這是一個post請求的包,
我們直接打開這個網址,沒有進行post提交,自然是沒有反應的,
既然如此,那我們就找form data吧,看看要提交什么資料上去:

判斷一下,這個 i 就是待查詢的資料,from 是 i 的語言,to 是目標語言,默認是英語,至于有道上有多少中語種支持,它們的代號分別是什么,自行想辦法,(不要設自動檢測就行,)
剩下那些,salt時間戳,我講過的,上面推薦的那個專欄里面也會有,
sign,md5的碼,事實證明要不要自己寫都行,大不了就直接去復制一個,
時間戳也是,無所謂的,
講解到此,上代碼:
代碼實作
import urllib.request
import requests
import urllib.parse
import json
import time # 做時間戳的
import random # 為做時間戳提供隨機值
import hashlib # md5所用
content = input('請輸入需要翻譯的內容:')
from_s = input("請輸入待翻譯的語種,中文請輸入ZH,英文請輸入EN:")
to_s = input("請輸入目標語種,中文請輸入ZH,英文請輸入EN:")
url = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule'
data = {}
u = 'fanyideskweb'
d = content
f = str(int(time.time() * 1000) + random.randint(1, 10))
c = 'rY0D^0\'nM0}g5Mm1z%1G4'
sign = hashlib.md5((u + d + f + c).encode('utf-8')).hexdigest()
data['i'] = content
data['from'] = from_s
data['to'] = to_s
data['smartresult'] = 'dict'
data['client'] = 'fanyideskweb'
data['salt'] = f
data['sign'] = sign
data['doctype'] = 'json'
data['version'] = '2.1'
data['keyfrom'] = 'fanyi.web'
data['action'] = 'FY_BY_CL1CKBUTTON'
data['typoResult'] = 'true'
data = urllib.parse.urlencode(data).encode('utf-8')
res = requests.post(url,data=data)
request = urllib.request.Request(url=url, data=data, method='POST')
response = urllib.request.urlopen(request)
pre_js = response.read().decode('utf-8')
a = pre_js.split('[[')
b = a[1].split(']]')
c = b[0]
j = json.loads(c)
print(j['tgt'])
拓展延伸
有興趣的小伙伴可以多開發幾種其他的語種,都是支持的,就是語種代號我沒去弄,
可以做成一個語種下拉框,就好,
事了拂塵去,深藏功與名,

轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/275511.html
標籤:其他
