如題,誰幫忙寫一段爬蟲,是不是很難?我是外行,自學爬蟲只學了個皮毛,爬不到百度知道上的帖子。
先謝謝高手啦
uj5u.com熱心網友回復:
代碼如下所示:要先有requests庫import requests
keyword="精益生產"
try:
kv={'wd':'keyword'}
r=requests.get("http://www.baidu.com/s",params=kv)
print(r.request.url)
r.raise_for_status()
print(len(r.text))
except:
print("爬取失敗")
上面是爬取百度的關鍵字精益生產,百度知道上的基本同理,將url改回來就行了
uj5u.com熱心網友回復:
試了一下,不行。輸出如下:
https://wappass.baidu.com/static/captcha/tuxing.html?&ak=c27bbc89afca0463650ac9bde68ebe06&backurl=https%3A%2F%2Fwww.baidu.com%2Fs%3Fwd%3Dkeyword&logid=11094304378531508214&signature=968c037e092dda5b1c1b4fe6554c81bc×tamp=1575735550
1519
Process finished with exit code 0
打開這個鏈接,要驗證一個圖片,手動驗證后,打開是這樣的:

我是想把搜到的帖子保存下來,請大俠幫忙,非常感謝。
uj5u.com熱心網友回復:
人家寫了一個例子,Keyword是你的“精益生產”。這個沒你想的那么簡單,給你一個代碼你就能用。第一,你想要什么?你用百度搜索了關鍵詞,你要這些鏈接,還是詳細頁內容,最后要保存成什么,心里有個樣子。
第二,操作都哪些?請求連接,是否會有動態加載,是否需要翻頁,是否需要進入詳細頁,詳細頁內容格式是否統一,等等。
第三,用到哪些技術?用簡單的requests庫能否滿足要求,如何翻頁,如何進入詳細頁,如何定位節點采集內容。保存資料形式,資料庫,檔案,還是物件?等等
如果自己解決不了,不如外包出去
uj5u.com熱心網友回復:
感謝回復。
我想把搜到的帖子保存到檔案中。
想請大家幫忙,把主要的部分幫忙寫一下,比如,把搜索的“百度知道”里的“精益生產”的第一頁的帖子,幫忙保存到檔案中。
如果不太難,就麻煩大俠幫忙一下,確實難的話就再另想辦法
我不是專業做這個,是做一個報告需要這類資料,謝謝
uj5u.com熱心網友回復:
或者是哪個博客中的例子中核心代碼相似,指點一下也好。謝謝大俠轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/119308.html
上一篇:匯編語言,急
