如何用python爬取百度知道上關鍵詞“精益生產”的搜索結果的帖子-有解無憂

如題，誰幫忙寫一段爬蟲，是不是很難？我是外行，自學爬蟲只學了個皮毛，爬不到百度知道上的帖子。
先謝謝高手啦

uj5u.com熱心網友回復：

代碼如下所示：要先有requests庫
import requests
keyword="精益生產"
try:
    kv={'wd':'keyword'}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失敗")

上面是爬取百度的關鍵字精益生產，百度知道上的基本同理，將url改回來就行了

uj5u.com熱心網友回復：

試了一下，不行。
輸出如下：

https://wappass.baidu.com/static/captcha/tuxing.html?&ak=c27bbc89afca0463650ac9bde68ebe06&backurl=https%3A%2F%2Fwww.baidu.com%2Fs%3Fwd%3Dkeyword&logid=11094304378531508214&signature=968c037e092dda5b1c1b4fe6554c81bc&timestamp=1575735550

1519



Process finished with exit code 0

打開這個鏈接，要驗證一個圖片，手動驗證后，打開是這樣的：

我是想把搜到的帖子保存下來，請大俠幫忙，非常感謝。

uj5u.com熱心網友回復：

人家寫了一個例子，Keyword是你的“精益生產”。這個沒你想的那么簡單，給你一個代碼你就能用。
第一，你想要什么？你用百度搜索了關鍵詞，你要這些鏈接，還是詳細頁內容，最后要保存成什么，心里有個樣子。
第二，操作都哪些？請求連接，是否會有動態加載，是否需要翻頁，是否需要進入詳細頁，詳細頁內容格式是否統一，等等。
第三，用到哪些技術？用簡單的requests庫能否滿足要求，如何翻頁，如何進入詳細頁，如何定位節點采集內容。保存資料形式，資料庫，檔案，還是物件？等等
如果自己解決不了，不如外包出去

uj5u.com熱心網友回復：

參考 3 樓肆水崬流的回復:

人家寫了一個例子，Keyword是你的“精益生產”。這個沒你想的那么簡單，給你一個代碼你就能用。
第一，你想要什么？你用百度搜索了關鍵詞，你要這些鏈接，還是詳細頁內容，最后要保存成什么，心里有個樣子。
第二，操作都哪些？請求連接，是否會有動態加載，是否需要翻頁，是否需要進入詳細頁，詳細頁內容格式是否統一，等等。
第三，用到哪些技術？用簡單的requests庫能否滿足要求，如何翻頁，如何進入詳細頁，如何定位節點采集內容。保存資料形式，資料庫，檔案，還是物件？等等
如果自己解決不了，不如外包出去

感謝回復。
我想把搜到的帖子保存到檔案中。

想請大家幫忙，把主要的部分幫忙寫一下，比如，把搜索的“百度知道”里的“精益生產”的第一頁的帖子，幫忙保存到檔案中。
如果不太難，就麻煩大俠幫忙一下，確實難的話就再另想辦法
我不是專業做這個，是做一個報告需要這類資料，謝謝

uj5u.com熱心網友回復：

或者是哪個博客中的例子中核心代碼相似，指點一下也好。謝謝大俠

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/119308.html

標籤：腳本語言(Perl/Python)

上一篇：匯編語言，急

下一篇：python如何統計random輸出的結果