在查詢的程序中,我發現URL構成大致為:https://{0}.http://zu.ke.com/zufang/pg{1}
并且每一個房源有唯一房源編號,構成具體頁面鏈接可進行訪問。
所以我設定MySQL兩列:1.自增ID做主鍵,2.房源編號唯一
但是在爬取程序中,通過改變pg的頁數,得到的房源編號重復比例極大,一頁30條,大致100頁,最終結果只有三百多條(一開始以為代碼沒寫對,后來我用單執行緒檢查了回圈數,回傳是否有問題,用print發現不同頁面很多回傳的ID都是重復的)
后來我以為是推薦系統的問題,然后登錄,寫入cookie,得到的結果大致還是這樣。
如何解決這種問題,感謝。
uj5u.com熱心網友回復:
爬取程序不要涉及復雜操作,所以獲取頁面的html之后,直接將html存盤下來,然后獲取下一頁的html。節省時間,最大化利用網路。另外開一個程式從html中過濾資料,這個時候就可以操作去重。所有復雜操作由這個程式進行。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/257913.html
上一篇:大佬幫忙看看為啥代碼運行后是這樣的,感激(??ω??)?
下一篇:求華為HCIP的最新題庫!!!
