scrapy配置引數(settings.py)-有解無憂

匯入配置

如何優雅的匯入scrapy中settings.py的配置引數呢？總不能用from scrapy import settings吧，或者from scrapy.settings import XXX吧，這看起來一點逼格都沒有，

scrapy提供了匯入設定的方法：from_crawler

@classmethod
def from_crawler(cls, crawler):
  server = crawler.settings.get('SERVER')
  # FIXME: for now, stats are only supported from this constructor
  return cls(server)

接著，只要在__init__接收這些引數就可以了，

def __init__(self, server):
	self.server = server

而在一些官方的組件的原始碼中會這樣使用，不過這看起來有點多此一舉

@classmethod
def from_settings(cls, settings):
	server = settings.get('SERVER')
	return cls(server)

@classmethod
def from_crawler(cls, crawler):
  # FIXME: for now, stats are only supported from this constructor
  return cls.from_settings(crawler.settings)

另外，并不是所有的類都可以使用這個類方法，只有像插件,中間件,信號管理器和專案管道等這些組件才能使用這個類方法來匯入配置，如果是自己寫的spider或者自定義檔案并沒有，需要使用如下方法匯入：

from scrapy.utils.project import get_project_settings
settings = get_project_settings()

這里的settings就是包含settings.py的所有配置的字典了，

主要配置引數

scrapy中的有很多配置，說一下比較常用的幾個：

CONCURRENT_ITEMS：專案管道最大并發數
CONCURRENT_REQUESTS： scrapy下載器最大并發數
DOWNLOAD_DELAY：訪問同一個網站的間隔時間，單位秒，一般默認為0.5*DOWNLOAD_DELAY到1.5 *DOWNLOAD_DELAY之間的隨機值，也可以設定為固定值，由RANDOMIZE_DOWNLOAD_DELAY指定是否固定，默認True隨機，這里的同一個網站可以是域名也可以是IP，由CONCURRENT_REQUESTS_PER_IP的值決定，
CONCURRENT_REQUESTS_PER_DOMAIN：對單個域名的最大并發
CONCURRENT_REQUESTS_PER_IP：對單個IP的最大并發，如果值不為0，則CONCURRENT_REQUESTS_PER_DOMAIN引數被忽略，而且DOWNLOAD_DELAY這個引數的同一網站指的是IP
DEFAULT_ITEM_CLASS：執行scrapy shell 命令的默認item類，默認scrapy.item.Item
DEPTH_LIMIT：爬取的最大深度
DEPTH_PRIORITY：正值為廣度優先(BFO)，負值為深度優先(DFO)，計算公式：request.priority = request.priority - ( depth * DEPTH_PRIORITY )
COOKIES_ENABLED：是否啟用cookie中間件，也就是自動cookie管理
COOKIES_DEBUG：將請求cookie和回應包含Set-Cookie的寫入日志
DOWNLOADER_MIDDLEWARE：下載器中間件和優先級的字典
DEFAULT_REQUEST_HEADERS：用于Scrapy HTTP請求的默認標頭
DUPEFILTER_CLASS：去重的類，可以改成使用布隆過濾器，而不使用默認的
LOG_ENABLED：是否啟用日志
LOG_FILE：日志檔案路徑，默認為None
LOG_FORMAT：日志格式化運算式
LOG_DATEFORMAT：LOG_FORMAT中的時間格式化運算式
LOG_LEVEL：最低日志級別，默認DEBUG，可用：CRITICAL, ERROR, WARNING, INFO, DEBUG
LOG_STDOUT：是否將所有標準輸出（和錯誤）將被重定向到日志，例如print也會被記錄在日志
LOG_SHORT_NAMES：如果為True，則日志將僅包含根路徑;如果設定為False，則顯示負責日志輸出的組件
LOGSTATS_INTERVAL：每次統計記錄列印輸出之間的間隔
MEMDEBUG_ENABLED：是否啟用記憶體除錯
REDIRECT_MAX_TIMES：定義可以重定向請求的最長時間
REDIRECT_PRIORITY_ADJUST：調整重定向請求的優先級，為正值時優先級高
RETRY_PRIORITY_ADJUST：調整重試請求的優先級
ROBOTSTXT_OBEY：是否遵循robot協議
SCRAPER_SLOT_MAX_ACTIVE_SIZE：正在處理回應資料的軟限制（以位元組為單位），如果所有正在處理的回應的大小總和高于此值，Scrapy不會處理新的請求，
SPIDER_MIDDLEWARES：蜘蛛中間件
USER_AGENT：默認使用的User-Agent

我也是新手，并沒有系統性的使用scrapy，只是用來練習過一些小專案，所以如果有錯誤還請指出，

面對這么多的設定總不能用一次就查一次吧，所以我們需要修改scrapy startproject命令默認創建的模板檔案中的settings.py的內容，將以上的注釋和引數都保存在這個檔案中，每當我們創建一個新的工程，我們只需要看一下settings.py中哪個引數需要更改就行了，模板檔案在Anaconda\Lib\site-packages\scrapy\templates\project\module(如果是anaconda的話)

settings.py中大部分配置的注釋：

# 專案名稱
BOT_NAME = '$project_name'

SPIDER_MODULES = ['$project_name.spiders']
NEWSPIDER_MODULE = '$project_name.spiders'

# 在專案處理器（也稱為“ 專案管道”）中并行處理的最大并發專案數（每個回應），默認100，
#CONCURRENT_ITEMS = 100

# Scrapy下載器將執行的并發（即，并發）請求的最大數量，默認16
CONCURRENT_REQUESTS = 8

# 從同一網站下載連續頁面之前，下載程式應等待的時間（以秒為單位），
# 這可以用來限制爬網速度，以避免對服務器造成太大的沖擊，支持小數，
# 默認情況下，Scrapy不會在請求之間等待固定的時間，而是使用0.5 * DOWNLOAD_DELAY和1.5 * DOWNLOAD_DELAY之間的隨機間隔，
#DOWNLOAD_DELAY = 0

# 將對任何單個域執行的并發（即，并發）請求的最大數量，默認8
#CONCURRENT_REQUESTS_PER_DOMAIN = 16

# 將對任何單個IP執行的并發（即，并發）請求的最大數量，默認0，
# 如果非0，CONCURRENT_REQUESTS_PER_DOMAIN這個引數會被忽略，即按IP不按域名，DOWNLOAD_DELAY也是按IP
#CONCURRENT_REQUESTS_PER_IP = 16

# 將用于實體化Scrapy shell中的專案的默認類
#DEFAULT_ITEM_CLASS = 'scrapy.item.Item'

# 對于任何站點，將允許爬網的最大深度，如果為零，則不施加限制
#DEPTH_LIMIT = 0

# 根據DEPTH_PRIORITY的值取決于深度優先或廣度優先，即正值為廣度優先(BFO)，負值為深度優先(DFO)
# 計算公式：request.priority = request.priority - ( depth * DEPTH_PRIORITY )
#DEPTH_PRIORITY = 0

# 是否啟用cookie
COOKIES_ENABLED = False

# 如果啟用，Scrapy將記錄請求中發送的所有cookie（即Cookie 標頭）和回應中接收的所有cookie（即Set-Cookie標頭）
#COOKIES_DEBUG = False

# 是否收集詳細的深度統計資訊，如果啟用此功能，則在統計資訊中收集每個深度的請求數
#DEPTH_STATS_VERBOSE = False

# 是否啟用DNS記憶體快取
#DNSCACHE_ENABLED = True

# DNS記憶體快取大小
#DNSCACHE_SIZE = 10000

# 處理DNS查詢的超時時間（以秒為單位），支持浮動
#DNS_TIMEOUT = 60

# 用于爬網的下載器
#DOWNLOADER = 'scrapy.core.downloader.Downloader'

# Disable Telnet Console (enabled by default)
#TELNETCONSOLE_ENABLED = False

# 包含您的專案中啟用的下載器中間件及其命令的字典
#DOWNLOADER_MIDDLEWARE = {}

# 用于Scrapy HTTP請求的默認標頭，它們被填充在 DefaultHeadersMiddleware
DEFAULT_REQUEST_HEADERS = {
}

# Scrapy中默認啟用的下載程式中間件的字典，低值更接近引擎，高值更接近下載器，
# 不要試圖修改此設定，請修改DOWNLOADER_MIDDLEWARE
#DOWNLOADER_MIDDLEWARES_BASE = {
#     'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
#     'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
#     'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
#     'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
#     'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
#     'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
#     'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
#     'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
#     'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
#     'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
#     'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
#     'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
#     'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
#     'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,
# }

# 是否啟用下載器統計資訊收集
#DOWNLOADER_STATS = True

# 包含在專案中啟用的請求下載處理程式的字典
#DOWNLOAD_HANDLERS = {}

# 包含請求下載處理程式的默認字典
# 如果要禁用FTP處理程式，請設定DOWNLOAD_HANDLERS = {'ftp': None}
#DOWNLOAD_HANDLERS_BASE = {
#     'file': 'scrapy.core.downloader.handlers.file.FileDownloadHandler',
#     'http': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
#     'https': 'scrapy.core.downloader.handlers.http.HTTPDownloadHandler',
#     's3': 'scrapy.core.downloader.handlers.s3.S3DownloadHandler',
#     'ftp': 'scrapy.core.downloader.handlers.ftp.FTPDownloadHandler',
# }

# 下載程式的超時時間（以秒為單位）
#DOWNLOAD_TIMEOUT = 180

# 載程式將下載的最大回應大小（以位元組為單位,默認1024MB），為0則不限制
#DOWNLOAD_MAXSIZE = 1073741824

# 下載程式將開始警告的回應大小（以位元組為單位，默認32MB）
#DOWNLOAD_WARNSIZE = 33554432

# 宣告的Content-Length與服務器發送的內容不匹配，是否觸發例外ResponseFailed([_DataLoss]) 
# 如果為False，可以在爬蟲檔案中判斷并處理 if 'dataloss' in response.flags: 
#DOWNLOAD_FAIL_ON_DATALOSS = True

# 用于檢測和過濾重復請求的類
#DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'

# 默認情況下，RFPDupeFilter僅記錄第一個重復的請求，設定DUPEFILTER_DEBUG為True它將記錄所有重復的請求，
#DUPEFILTER_DEBUG = False

# 包含您的專案中啟用的擴展及其順序的字典
#EXTENSIONS = {}

# 包含默認情況下在Scrapy中可用的擴展程式及其順序的字典
#EXTENSIONS_BASE = {
#     'scrapy.extensions.corestats.CoreStats': 0,
#     'scrapy.extensions.telnet.TelnetConsole': 0,
#     'scrapy.extensions.memusage.MemoryUsage': 0,
#     'scrapy.extensions.memdebug.MemoryDebugger': 0,
#     'scrapy.extensions.closespider.CloseSpider': 0,
#     'scrapy.extensions.feedexport.FeedExporter': 0,
#     'scrapy.extensions.logstats.LogStats': 0,
#     'scrapy.extensions.spiderstate.SpiderState': 0,
#     'scrapy.extensions.throttle.AutoThrottle': 0,
# }

# 包含要使用的專案管道及其順序的字典，值是任意的，但是習慣上將它們定義在0-1000范圍內，低值優先于高值
#ITEM_PIPELINES = {}

# 是否啟用日志記錄
#LOG_ENABLED = True

# 用于日志記錄的編碼
#LOG_ENCODING = 'utf-8'

# 用于記錄輸出的檔案名
#LOG_FILE = None

# 用于格式化日志訊息的字串
#LOG_FORMAT = '%(asctime)s [%(name)s] %(levelname)s: %(message)s'

# 用于格式化日期/時間的字串，用于改變LOG_FORMAT 中的asctime占位符
#LOG_DATEFORMAT = '%Y-%m-%d %H:%M:%S'

# 用于格式化不同操作的日志訊息的類
#LOG_FORMATTER = "scrapy.logformatter.LogFormatter"

# 最低記錄級別, 可用：CRITICAL, ERROR, WARNING, INFO, DEBUG
#LOG_LEVEL = 'DEBUG'

# 如果為True，所有標準輸出（和錯誤）將被重定向到日志，例如print也會被記錄在日志
#LOG_STDOUT = False

# 如果為True，則日志將僅包含根路徑;如果設定為False，則顯示負責日志輸出的組件
#LOG_SHORT_NAMES = False

# 每次統計記錄列印輸出之間的間隔（以秒為單位）
#LOGSTATS_INTERVAL = 60.0

# 是否啟用記憶體除錯
#MEMDEBUG_ENABLED = False

# 啟用記憶體除錯后，如果此設定不為空，則會將記憶體報告發送到指定的郵箱地址，否則該報告將被寫入日志，
# 例如：MEMDEBUG_NOTIFY = ['[email protected]']
#MEMDEBUG_NOTIFY = []

# 是否啟用記憶體使用擴展，此擴展跟蹤該行程使用的峰值記憶體（將其寫入統計資訊），
# 當超過記憶體限制時，它還可以選擇關閉Scrapy行程，并在發生這種情況時通過電子郵件通知
#MEMUSAGE_ENABLED = True

# 關閉Scrapy之前允許的最大記憶體量
#MEMUSAGE_LIMIT_MB = 0

#MEMUSAGE_CHECK_INTERVAL_SECONDS = 60.0

# 電子郵件串列，用于通知是否已達到記憶體限制
#MEMUSAGE_NOTIFY_MAIL = False

# 發送警告電子郵件通知最大記憶體之前允許的最大記憶體量（以兆位元組為單位），如果為零，則不會發出警告
#MEMUSAGE_WARNING_MB = 0

# 使用genspider命令創建爬蟲的模板
#NEWSPIDER_MODULE = ""

# 如果啟用，Scrapy將在從同一網站獲取請求的同時等待隨機的時間（介于0.5 * DOWNLOAD_DELAY和1.5 *之間DOWNLOAD_DELAY）
#RANDOMIZE_DOWNLOAD_DELAY = True

# Twisted Reactor執行緒池大小的最大限制，這是各種Scrapy組件使用的通用多用途執行緒池，
# 執行緒DNS決議器，BlockingFeedStorage，S3FilesStore僅舉幾例，
# 如果遇到阻塞IO不足的問題，請增加此值，
#REACTOR_THREADPOOL_MAXSIZE = 10

# 定義可以重定向請求的最長時間，超過此最大值后，將按原樣回傳請求的回應
#REDIRECT_MAX_TIMES = 20

# 調整重定向請求的優先級，為正則優先級高
#REDIRECT_PRIORITY_ADJUST = 2

# 調整重試請求的優先級
#RETRY_PRIORITY_ADJUST = -1

# 是否遵循robot協議
ROBOTSTXT_OBEY = False

# 用于決議robots.txt檔案的決議器后端
#ROBOTSTXT_PARSER = 'scrapy.robotstxt.ProtegoRobotParser'

#ROBOTSTXT_USER_AGENT = None

# 用于爬網的調度程式
#SCHEDULER = 'scrapy.core.scheduler.Scheduler'

# 設定為True將記錄有關請求調度程式的除錯資訊
#SCHEDULER_DEBUG = False

# 調度程式將使用的磁盤佇列的型別，其他可用型別：scrapy.squeues.PickleFifoDiskQueue，
# scrapy.squeues.MarshalFifoDiskQueue， scrapy.squeues.MarshalLifoDiskQueue
#SCHEDULER_DISK_QUEUE = 'scrapy.squeues.PickleLifoDiskQueue'

# 調度程式使用的記憶體佇列的型別，其他可用型別： scrapy.squeues.FifoMemoryQueue
#SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.LifoMemoryQueue'

# 調度程式使用的優先級佇列的型別，另一種可用的型別是 scrapy.pqueues.DownloaderAwarePriorityQueue
#SCHEDULER_PRIORITY_QUEUE = 'scrapy.pqueues.ScrapyPriorityQueue'

# 正在處理回應資料的軟限制（以位元組為單位），
# 如果所有正在處理的回應的大小總和高于此值，Scrapy不會處理新的請求
#SCRAPER_SLOT_MAX_ACTIVE_SIZE  = 5_000_000

# 包含您的專案中啟用的蜘蛛合約的字典，用于測驗蜘蛛
#SPIDER_CONTRACTS = {}

# 包含Scrapy合同中默認啟用的Scrapy合同的字典
#SPIDER_CONTRACTS_BASE  = {
#     'scrapy.contracts.default.UrlContract' : 1,
#     'scrapy.contracts.default.ReturnsContract': 2,
#     'scrapy.contracts.default.ScrapesContract': 3,
# }

# 將用于加載蜘蛛的類
#SPIDER_LOADER_CLASS = 'scrapy.spiderloader.SpiderLoader'

# 包含您的專案中啟用的蜘蛛中間件及其命令的字典
#SPIDER_MIDDLEWARES = {}

#SPIDER_MIDDLEWARES_BASE = {
#     'scrapy.spidermiddlewares.httperror.HttpErrorMiddleware': 50,
#     'scrapy.spidermiddlewares.offsite.OffsiteMiddleware': 500,
#     'scrapy.spidermiddlewares.referer.RefererMiddleware': 700,
#     'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware': 800,
#     'scrapy.spidermiddlewares.depth.DepthMiddleware': 900,
# }

# Scrapy將在其中尋找蜘蛛的模板串列
#SPIDER_MODULES  = {}

# 用于收集統計資訊的類
#STATS_CLASS = 'scrapy.statscollectors.MemoryStatsCollector'

# 蜘蛛完成后，將Scrapy統計資訊轉儲到Scrapy日志中
#STATS_DUMP = True

# 蜘蛛抓取完畢后發送Scrapy統計資訊的郵箱串列
#STATSMAILER_RCPTS = []

# 指定是否 將啟用telnet控制臺
#TELNETCONSOLE_ENABLED = True

# 用于telnet控制臺的埠范圍，如果設定為None或0，則使用動態分配的埠
#TELNETCONSOLE_PORT = [6023, 6073]

# 使用startproject命令創建新專案和使用 genspider命令創建新的Spider時要在其中查找模板的目錄
#TEMPLATES_DIR = "templates"

# 允許抓取的URL的最大URL長度
#URLLENGTH_LIMIT = 2083

# 爬網時使用的默認User-Agent
#USER_AGENT = "Scrapy/VERSION (+https://scrapy.org)"

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/145093.html

標籤：Python

上一篇：PC微信機器人成品(使用的騰訊AI)

下一篇：pyqt5入門練習-掃描條形碼(一)