分布式爬蟲-有解無憂

一、簡介

什么是分布式爬蟲？
分布式爬蟲就是把一個爬蟲任務放到多臺機器上去運行，提高爬取效率
但是每臺機器運行同一套代碼，都在各自的任務和去重佇列，等于各爬各的，最終爬的資料是相同的
因此需要提供一個公共的去重佇列和公共的任務佇列，多臺機器都在共用的佇列中去調度和去重，然后分別爬取

原來scrapy的Scheduler維護的是本機的任務佇列（存放Request物件及其回呼函式等資訊）+本機的去重佇列（存放訪問過的url地址）

實作分布式的關鍵就是三點：
1、共享佇列
2、重寫Scheduler(調度器)，讓其無論去重還是任務都訪問共享佇列
3、為Scheduler定制去重規則(利用redis的集合型別)
以上三點便是scrapy-redis組件的核心功能

二、scrapy-redis實作分布式爬蟲

1 scrapy-redis架構

scrapy-redis整體運行流程如下：核心就是把Scheduler(調度器)放到redis當中去

原始碼位置

2 scrapy-redis共享佇列

3 使用scrapy-redis組件

1 pip3 install scrapy-redis 安裝

2 原來繼承Spider，現在繼承RedisSpider
原始碼spiders.py中，RedisSpider(RedisMixin, Spider)類，繼承了原來的Spider，并繼承了擴展類RedisMixin

3 不能寫start_urls = ['https:/www.cnblogs.com/']  
需要寫redis_key = 'myspider:start_urls'  統一管理起始的爬取地址，redis的name對應的是一個串列
放一個起始url，啟動爬蟲后，回傳來的url也是丟到這個串列中，每臺機器都是從這個串列中取地址爬取，共享一個佇列

class ChoutiSpider(RedisSpider):
    name = 'cnblog'
    allowed_domains = ['cnblogs.com']
    redis_key = 'myspider:start_urls'

4 setting中配置

redis連接

# redis的連接, 默認配置本地+6379
REDIS_HOST = 'localhost'     # 主機名
REDIS_PORT = 6379            # 埠
REDIS_USER =                 # 用戶名
REDIS_PASSWORD =             # 密碼
REDIS_URL = 'redis://user:pass@hostname:port'       # 支持直接鏈接
REDIS_PARAMS  = {}                                  # Redis連接引數
REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient' # 指定連接Redis的Python模塊
REDIS_ENCODING = "utf-8"                            # redis編碼型別 
REDIS_ITEMS_KEY = '%(spider)s:items'                # 將item持久化到redis時，指定的name
REDIS_ITEMS_SERIALIZER = 'json.dumps'               # 將item持久化到redis時，指定序列化函式

重點配置

1、DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"   # 使用scrapy-redis的去重
   原始碼dupefilter.py中，RFPDupeFilter類重寫了request_seen()方法
    def request_seen(self, request):
        fp = self.request_fingerprint(request)
        # self.server是redis連接，sadd表示向集合中add資料
        added = self.server.sadd(self.key, fp)
        return added == 0


2、SCHEDULER = "scrapy_redis.scheduler.Scheduler"    # 使用scrapy-redis的Scheduler， 分布式爬蟲的配置

3、持久化配置，配了都走公共的，存在redis中，如果不配，各自存各自的庫，當然Mysql也是共用的一個庫
ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 299} 

原始碼pipelines.py中，RedisPipeline類,_process_item()方法，就是把item物件轉成pickle，再存入redis
    def _process_item(self, item, spider):
        key = self.item_key(item, spider)
        data = https://www.cnblogs.com/cqzlei/archive/2022/09/27/self.serialize(item)
        self.server.rpush(key, data)
        return item

其他配置

# 調度器將不重復的任務用pickle序列化后放入共享任務佇列，默認使用優先級佇列，其他PriorityQueue（有序集合），FifoQueue（串列）、LifoQueue（串列）               
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue' 

# 對保存到redis中的request物件進行序列化，默認使用pickle
SCHEDULER_SERIALIZER = "scrapy_redis.picklecompat"   

# 調度器中請求任務序列化后存放在redis中的name             
SCHEDULER_QUEUE_KEY = '%(spider)s:requests' 

# 去重佇列(用的指紋去重，放在集合中)，在redis中保存時對應的name                        
SCHEDULER_DUPEFILTER_KEY = '%(spider)s:dupefilter'

# 去調度器中獲取資料時，如果為空，最多等待時間（最后沒資料，未獲取到），如果沒有則立刻回傳會造成慷訓圈次數過多，cpu占用率飆升                                
SCHEDULER_IDLE_BEFORE_CLOSE = 10           

# 是否在關閉時候保留原來的調度器和去重記錄，True=保留，False=清空                     
SCHEDULER_PERSIST = True       

# 是否在開始之前清空 調度器和去重記錄，True=清空，False=不清空                                     
SCHEDULER_FLUSH_ON_START = False

5 啟動scrapy-redis

分布式爬蟲部署在三臺機器上，等于每臺機器啟一個爬蟲行程，跟在一臺機器上啟動3個行程本質上一樣的
1 行程啟動爬蟲,啟動后要等待從redis中拿出起始url
scrapy crawl cnblog_redis

現在要讓爬蟲運行起來，需要去redis中以myspider:start_urls為key，插入一個起始地址
cmd命令視窗輸入：
2 redis-cil  # 啟動redis
3 lpush myspider:start_urls https://www.cnblogs.com/   # 插入起始地址

···

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/509671.html

標籤：其他

上一篇：翻了ConcurrentHashMap1.7 和1.8的原始碼，我總結了它們的主要區別。

下一篇：密碼學奇妙之旅、03 HMAC單向散列訊息認證碼、Golang代碼