我正在嘗試抓取一個 covid-19 統計網站,該網站有一堆鏈接到有關不同國家統計資料的頁面。這些鏈接都有一個類名,可以使用 css 選擇器 ('mt_a') 輕松訪問它們。國家之間沒有連續性,因此如果您在其中一個國家/地區的網頁上,則沒有前往下一個國家/地區的鏈接。我是一個完全的scrapy初學者,如果我的目標是抓取根頁面上列出的所有(200 ish)鏈接以獲得相同的幾條資訊,我不確定我應該怎么做。任何關于我應該嘗試做什么的指導將不勝感激。
我試圖抓取的鏈接:https : //www.worldometers.info/coronavirus/ (向下滾動查看國家鏈接)
uj5u.com熱心網友回復:
我要做的是創建兩個蜘蛛。一個人會決議主頁并提取錨標簽內指向國家頁面href的所有特定鏈接,即href="country/us/",然后從這些相對鏈接創建完整的url,這樣你就可以得到一個合適的url,比如https://www.worldometers.info/coronavirus/country/us/。
然后第二個蜘蛛獲得所有國家/地區網址的串列,然后繼續抓取所有單獨的頁面并從中提取資訊。
例如,您從第一個蜘蛛獲得 url 串列:
urls = ['https://www.worldometers.info/coronavirus/country/us/',
'https://www.worldometers.info/coronavirus/country/russia/']
然后在第二個蜘蛛中,您將該串列賦予start_urls屬性。
uj5u.com熱心網友回復:
我認為其他人已經回答了這個問題,但這里是Link extractors的頁面。
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/409295.html
標籤:
