
Scrapy簡介
Scrapy是用純Python實作一個為了爬取網站資料、提取結構性資料而撰寫的應用框架,用途非常廣泛,
框架的力量,用戶只需要定制開發幾個模塊就可以輕松的實作一個爬蟲,用來抓取網頁內容以及各種圖片,非常之方便,另外要注意:光理論是不夠的,這里順便送大家一套2020最新python入門到高級專案實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,還可以跟老司機交流討教!
Scrapy 使用了 Twisted['tw?st?d](其主要對手是Tornado)異步網路框架來處理網路通訊,可以加快我們的下載速度,不用自己去實作異步框架,并且包含了各種中間件介面,可以靈活的完成各種需求,
Scrapy架構

Scrapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊,信號、資料傳遞等,
Scheduler(調度器): 它負責接受引擎發送過來的Request請求,并按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎,
Downloader(下載器):負責下載Scrapy Engine(引擎)發送的所有Requests請求,并將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理,
Spider(爬蟲):它負責處理所有Responses,從中分析提取資料,獲取Item欄位需要的資料,并將需要跟進的URL提交給引擎,再次進入Scheduler(調度器),
Item Pipeline(管道):它負責處理Spider中獲取到的Item,并進行進行后期處理(詳細分析、過濾、存盤等)的地方,
Downloader Middlewares(下載中間件):你可以當作是一個可以自定義擴展下載功能的組件,
Spider Middlewares(Spider中間件):你可以理解為是一個可以自定擴展和操作引擎和Spider中間通信的功能組件(比如進入Spider的Responses;和從Spider出去的Requests)
白話講解Scrapy運作流程
代碼寫好,程式開始運行...
1.引擎:Hi!Spider, 你要處理哪一個網站?
2.Spider:老大要我處理xxxx.com,
3.引擎:你把第一個需要處理的URL給我吧,
4.Spider:給你,第一個URL是xxxxxxx.com,
5.引擎:Hi!調度器,我這有request請求你幫我排序入隊一下,
6.調度器:好的,正在處理你等一下,
7.引擎:Hi!調度器,把你處理好的request請求給我,
8.調度器:給你,這是我處理好的request
9.引擎:Hi!下載器,你按照老大的下載中間件的設定幫我下載一下這個request請求
10.下載器:好的!給你,這是下載好的東西,(如果失敗:sorry,這個request下載失敗了,然后引擎告訴調度器,這個request下載失敗了,你記錄一下,我們待會兒再下載)
11.引擎:Hi!Spider,這是下載好的東西,并且已經按照老大的下載中間件處理過了,你自己處理一下(注意!這兒responses默認是交給def parse()這個函式處理的)
12.Spider:(處理完畢資料之后對于需要跟進的URL),Hi!引擎,我這里有兩個結果,這個是我需要跟進的URL,還有這個是我獲取到的Item資料,
13.引擎:Hi !管道 我這兒有個item你幫我處理一下!調度器!這是需要跟進URL你幫我處理下,然后從第四步開始回圈,直到獲取完老大需要全部資訊,
14.管道``調度器:好的,現在就做!
相關推薦:《Python相關教程》
制作Scrapy爬蟲步驟
1.新建專案
scrapy startproject mySpider

scrapy.cfg :專案的組態檔 mySpider/ :專案的Python模塊,將會從這里參考代碼 mySpider/items.py :專案的目標檔案 mySpider/pipelines.py :專案的管道檔案 mySpider/settings.py :專案的設定檔案 mySpider/spiders/ :存盤爬蟲代碼目錄
2.明確目標(mySpider/items.py)
想要爬取哪些資訊,在Item里面定義結構化資料欄位,保存爬取到的資料,
3.制作爬蟲(spiders/xxxxSpider.py)
import scrapy class ItcastSpider(scrapy.Spider): name = "itcast" allowed_domains = ["itcast.cn"] start_urls = ( 'http://www.itcast.cn/', ) def parse(self, response): pass
name = "" :這個爬蟲的識別名稱,必須是唯一的,在不同的爬蟲必須定義不同的名字,
allow_domains = [] 是搜索的域名范圍,也就是爬蟲的約束區域,規定爬蟲只爬取這個域名下的網頁,不存在的URL會被忽略,
start_urls = () :爬取的URL元祖/串列,爬蟲從這里開始抓取資料,所以,第一次下載的資料將會從這些urls開始,其他子URL將會從這些起始URL中繼承性生成,
parse(self, response) :決議的方法,每個初始URL完成下載后將被呼叫,呼叫的時候傳入從每一個URL傳回的Response物件來作為唯一引數,主要作用如下:
4.保存資料(pipelines.py)
在管道檔案里面設定保存資料的方法,可以保存到本地或資料庫,
溫馨提醒
第一次運行scrapy專案的時候,出現-->"DLL load failed" 錯誤提示,需要安裝pypiwin32模塊,
簡單入門的實體
(1)items.py
想要爬取的資訊
# -*- coding: utf-8 -*- import scrapy class ItcastItem(scrapy.Item): name = scrapy.Field() title = scrapy.Field() info = scrapy.Field()
(2)itcastspider.py
寫爬蟲程式
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import scrapy
from mySpider.items import ItcastItem
# 創建一個爬蟲類
class ItcastSpider(scrapy.Spider):
# 爬蟲名
name = "itcast"
# 允許爬蟲作用的范圍
allowd_domains = ["http://www.itcast.cn/"]
# 爬蟲起始的url
start_urls = [
"http://www.itcast.cn/channel/teacher.shtml#",
]
def parse(self, response):
teacher_list = response.xpath('//div[@]')
# 所有老師資訊的串列集合
teacherItem = []
# 遍歷根節點集合
for each in teacher_list:
# Item物件用來保存資料的
item = ItcastItem()
# name, extract() 將匹配出來的結果轉換為Unicode字串
# 不加extract() 結果為xpath匹配物件
name = each.xpath('./h3/text()').extract()
# title
title = each.xpath('./h4/text()').extract()
# info
info = each.xpath('./p/text()').extract()
item['name'] = name[0].encode("gbk")
item['title'] = title[0].encode("gbk")
item['info'] = info[0].encode("gbk")
teacherItem.append(item)
return teacherItem
輸入命令:scrapy crawl itcast -o itcast.csv 保存為 ".csv"的格式
最后注意:光理論是不夠的,這里順便送大家一套2020最新python入門到高級專案實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,還可以跟老司機交流討教!
本文的文字及圖片來源于網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/146297.html
標籤:Python
