我制作了一個 Scrapy 代碼,其中有 4 個爬蟲從 4 個不同的電子商務網站中抓取。對于每個爬蟲,我想從每個網站輸出5 個價格最低的產品,并將它們匯出到一個 CSV 檔案中。
現在,我的主要代碼如下所示:
process = CrawlerProcess()
process.crawl(Crawler1)
process.crawl(Crawler2)
process.crawl(Crawler3)
process.crawl(Crawler4)
process.start()
我希望每個爬蟲都回傳一個字典串列,以便我可以使用for回圈遍歷它并比較價格。
我需要使用 Scrapy Pipeline 來做到這一點嗎?我怎樣才能讓 Scrapy 回傳一個被抓取的專案串列(在字典中),而不是僅僅將它們作為檔案匯出?
uj5u.com熱心網友回復:
這是另一個帖子中一些蜘蛛的示例,我將蜘蛛名稱傳遞給函式,但您可以根據需要對其進行調整:
from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings
from scrapy.signalmanager import dispatcher
from scrapy import signals
def spider_output(spider):
output = []
def get_output(item):
output.append(item)
dispatcher.connect(get_output, signal=signals.item_scraped)
settings = get_project_settings()
settings['USER_AGENT'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
process = CrawlerProcess(settings)
process.crawl(spider)
process.start()
return output
if __name__ == "__main__":
spider = 'vdsc'
print(spider_output(spider))
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/377770.html
