Python爬蟲、資料分析、網站開發等案例教程視頻免費在線觀看
https://space.bilibili.com/523606542
Python學習交流群:1039649593
Spider類定義了如何爬取某個(或某些)網站,包括了爬取的動作(例如:是否跟進鏈接)以及如何從網頁的內容中提取結構化資料(爬取item),換句話說,Spider就是您定義爬取的動作及分析某個網頁(或者是有些網頁)的地方,
對spider來說,爬取的回圈類似下文:
- 以初始的URL初始化Request,并設定回呼函式,當該request下載完畢并回傳時,將生成response,并作為引數傳給該回呼函式,
spider中初始的request是通過呼叫start_requests()來獲取的,start_requests()讀取start_urls中的URL,并以parse為回呼函式生成Request, - 在回呼函式內分析回傳的(網頁)內容,回傳ltem物件或者Request或者一個包括二者的可迭代容器,回傳的Request物件之后會經過Scrapy處理,下載相應的內容,并呼叫設定的callback函式(函式可相同),
- 在回呼函式內,您可以使用選擇器(Selectors)(您也可以使用BeautifulSoup, Ixml或者您想用的任何決議器)來分析網頁內容,并根據分析的資料生成item,
- 最后,由spider回傳的item將被存到資料庫(由某些ltem Pipeline處理)或使用Feed exports存入到檔案中,
雖然該回圈對任何型別的spider都(多少)適用,但Scrapy仍然為了不同的需求提供了多種默認spider,之后將討論這些spider,
Spider
scrapy.spider.Spider是最簡單的spider,每個其他的spider必須繼承自該類(包括Scrapy自帶的其他spider以及您自己撰寫的spider),其僅僅請求給定的start_urls / start_requests,并根據回傳的結果(resulting responses)呼叫spider的 parse方法,
name
定義spider名字的字串(string),spider的名字定義了Scrapy如何定位(并初始化) spider,所以其必須是唯一的,不過您可以生成多個相同的spider實體(instance),這沒有任何限制,name是spider最重要的屬性,而且是必須的,
如果該spider爬取單個網站(single domain),一個常見的做法是以該網站(domain)(加或不加后綴)來命名spider,例如,如果spider爬取 mywebsite.com,該spider通常會被命名為mywebsite,
allowed_domains
可選,包含了spider允許爬取的域名(domain)串列(list),當OffsiteMiddleware啟用時,域名不在串列中的URL不會被跟進,
start_urls
URL串列,當沒有制定特定的URL時,spider將從該串列中開始進行爬取,因此,第一個被獲取到的頁面的URL將是該串列之一,后續的URL將會從獲取到的資料中提取,
start_requests()
該方法必須回傳一個可迭代物件(iterable),該物件包含了spider用于爬取的第一個Request,
當spider啟動爬取并且未制定URL時,該方法被呼叫,當指定了URL時,make_requests_from_url()將被呼叫來創建Request物件,該方法僅僅會被Scrapy呼叫一次,因此您可以將其實作為生成器,
該方法的默認實作是使用start_urls的url生成Request,
如果您想要修改最初爬取某個網站的Request物件,您可以重寫(override)該方法,例如,如果您需要在啟動時以POST登錄某個網站,你可以這么寫:
def start_requests(self) : return [scrapy.FormRequest("http : / /ww. example.com/login", formdata={ 'user' : 'john', ' pass ' : 'secret'}, ca77back=se1f.1ogged_in)] def logged_in(self,response) : ## here you would extract links to follow and return Requests for ## each of them,with another ca77back pass
parse
當response沒有指定回呼函式時,該方法是Scrapy處理下載的response的默認方法,
parse負責處理response并回傳處理的資料以及(/或)跟進的URL,Spider對其他的Request的回呼函式也有相同的要求,
該方法及其他的Request回呼函式必須回傳一個包含Request 及(或) ltem的可迭代的物件,
引數: response-用于分析的response
啟動方式
start_urls
start_urls是一個串列
start_requests
使用start_requests()重寫start_ur1s,要使用Request()方法自己發送請求:
def start_requests(se7f): """重寫start_urls 規則""" yield scrapy.Request(ur1='http://quotes.toscrape.com/page/1/'cal1back=self.parse)
scrapy.Request
scrapy.Request是一個請求物件,創建時必須制定回呼函式,
資料保存
可以使用-o將資料保存為常見的格式(根據后綴名保存)
支持的格式有下面幾種:
- json
- jsonlines
- jl
- csv
- xml
- marshal
- pickle
使用方式:
scrapy crawl quotes2 -o a.json
案例: Spider樣例
##一*- coding: utf-8 -*- import scrapy clTass Quotes2spider(scrapy.spider): name = 'quotes2' a7lowed_domains = [ 'toscrape.com ' ] start_urls = [ ' http: //quotes.toscrape.com/ page/2/ '] def parse(self,response): quotes = response.css('.quote ' ) for quote in quotes: text = quote.css( '.text: : text ' ).extract_first() auth = quote.css( '.author : :text ').extract_first() tages = quote.css('.tags a: :text' ).extract() yield dict(text=text , auth=auth, tages=tages)
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/288432.html
標籤:Python
