scrapy框架–基礎加實體

為了提取網站資料，提取結構型資料而撰寫的應用框架，使用twisted高效異步網路框架來處理網路通信，
Twisted 是用python實作的基于事件驅動的網路引擎框架
誕生于2000年初，網路游戲開發者發現無論用什么語言都有可兼容擴展性及跨平臺的網路庫，支持常見的傳輸和應用層協議，兼容這些協議Ssl /tls、tcp udp http imap……
和Python一樣具有內置電池,所支持的協議都帶有客戶端和服務器端實作（client-sever）

- scrapy框架--基礎加實體
一、結構
- 1.結構組成
- 2.爬取程序
二、創建專案
- 1.下載依賴
- 2.基本命令
- 3.基本配置更改
- - 1）關閉遵循機器人”君子協定“
  - 2）配置隨機請求頭
  - 3）設定爬蟲的間隔時間，并關掉COOKIES
三、專案實體-爬取豆瓣電影排排行榜
- 1.網站截圖
- 2.items
- 3.selenium前情提要
- 4.下載中間件
- 5.爬蟲檔案
- 6.pipeline 添加MySQL

一、結構

1.結構組成

在這里插入圖片描述
1.engine(引擎)：負責控制資料流在系統中所有組件中的流動，
觸發其他幾個中間件，相當于整個爬蟲調度中心，
2.scheduler(調度器)：接收引擎發來的requests請求,并加入佇列，初始爬取url和網頁中的待爬取url放入調度器等待被爬取，它會自動去重，
3.downloader(下載器)：負責接受調度器的url，向服務器發送請求得到回應后將下載的網頁內容提供給引擎和spider（爬蟲），
4spider(爬蟲) ：分析response詳細決議，
5.管道：項負責資料的清洗、驗證、過濾、去重和存盤等后期處理，可同時連接十多個資料庫，處理爬蟲爬取出的item（封裝過后的資料），
下載中間件：引擎和下載器中間 l類似鉤子函式，在特定情況下觸發中間件，不能隨意定義中間件，可以修改
爬蟲中間件：引擎和下爬蟲中間

2.爬取程序

Scrapy引擎發送請求，調度器把初始URL交給下載器，下載器向服務器發送服務請求，得到回應后將下載的網頁內容交與蜘蛛來處理，蜘蛛會對網頁進行詳細的決議，蜘蛛分析的結果有兩種：一種是得到新的URL，之后再次請求調度器，開始進行新一輪的爬取，另一種是得到所需的資料，之后會轉交給專案管道繼續處理，最后由Pipeline輸出到檔案中，或者存入資料庫等，

二、創建專案

1.下載依賴

pip install wheel 二進制安裝包
pip install scrapy

2.基本命令

scrapy startproject    專案名字  （創建專案） 
cd 專案名字      （進入專案）
scrapy genspider 爬蟲名 網址 （創建爬蟲）
list 查看多少爬蟲
進入指定爬蟲進行爬蟲
Cd spider路徑 Vim 爬蟲檔案
scrapy crawl 爬蟲名字 (分布式多執行緒) 如加名字：通用、 聚焦協程行爬蟲

3.基本配置更改

1）關閉遵循機器人”君子協定“

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

2）配置隨機請求頭

修改下載中間件類：

import random
import time
from time import sleep
from scrapy.http import HtmlResponse
'''
這個類主要用于產生隨機UserAgent
'''
#創建一個隨機請求頭
class RandomUserAgent(object):
    #實體化一個USER_AGENTS
    def __init__(self,agents):
        self.agents = agents
    @classmethod
    def from_crawler(cls,crawler):
        return cls(crawler.settings.getlist('USER_AGENTS'))
    #添加隨機請求頭
    def process_request(self,request,spider):
        request.headers['User-Agent'] = random.choice(self.agents)

setting.py組態檔中定義多個請求頭，并修改中間件類名（改成自己剛剛定義的隨機請求頭類）：

DOWNLOADER_MIDDLEWARES = {
   'boss.middlewares.RandomUserAgent': 543,
}
#定義多個請求頭
USER_AGENTS = {
    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)","Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)","Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)","Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)","Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)","Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)","Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6","Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1","Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0","Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5","Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.8) Gecko Fedora/1.9.0.8-1.fc10 Kazehakase/0.5.6","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20","Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; fr) Presto/2.9.168 Version/11.52","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.11 TaoBrowser/2.0 Safari/536.11","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; LBBROWSER)","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400)","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)","Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)","Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1","Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5","Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre","Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11","Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36",
}

3）設定爬蟲的間隔時間，并關掉COOKIES

DOWNLOAD_DELAY = 2
COOKIES_ENABLED = False

三、專案實體-爬取豆瓣電影排排行榜

1.網站截圖

在這里插入圖片描述
所需資訊都在一個div中，這里只爬取排行名次(rank)為例

2.items

import scrapy
class BossItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    movie_name = scrapy.Field()  # 電影名

3.selenium前情提要

selenium 需要瀏覽器驅動支持
安裝：
pip install selenium
簡介：
selenium最初是一個自動化測驗工具，而python爬蟲中使用它主要是為了解決requests無法執行javaScript代碼的問題，
（1）selenium可以驅動瀏覽器自動執行自定義好的邏輯代碼，也就是可以通過代碼完全模擬成人類使用瀏覽器自動訪問目標站點并操作
（2）selenium可以完全模擬瀏覽器的操作，比如跳轉、輸入、點擊、下拉等...進而拿到網頁渲染之后的結果，可支持多種瀏覽器

版本對應表：https://blog.csdn.net/huilan_same/article/details/51896672
        新:https://blog.csdn.net/weixin_45532870/article/details/108589098
        下載地址 https://chromedriver.storage.googleapis.com/index.html
        下載完畢放到對應的python的安裝目錄下的Scripts中
匯入方式：
        from selenium import webdriver

創建谷歌瀏覽器物件：  
        path = 谷歌瀏覽器驅動檔案路徑         如果是絕對路徑 前面加r(原因：轉義 如果是\n的話python檢測會認為是換行)
        browser = webdriver.Chrome(path)  
訪問網址：
        browser.get(url)  打來某個頁面
        browser.page_source 獲取頁面原始碼
        browser.quit() 關閉

4.下載中間件

因為需要滾動滑輪觸發異步加載資料，所以引入selenium模擬瀏覽器對也頁面進行滾動操作，在下載中間件中添加以下方法：

  '''
    這個方法主要用于模擬瀏覽器滾動螢屏獲取異步資料
    '''
    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - or raise IgnoreRequest

        bro = spider.bro

        bro.get(url=request.url)
        sleep(3)
        # 獲取頁面初始高度
        js = "return action=document.body.scrollHeight"
        height = bro.execute_script(js)
        # print("js=js=js=js=js=js=js=js=",height) # 2480
        # 將滾動條調整至頁面底部
        bro.execute_script('window.scrollTo(0, document.body.scrollHeight)')
        # bro.execute_script('window.scrollTo(0, 2000)')
        # 定義初始時間戳（秒）
        t1 = int(time.time())
        # 定義回圈標識，用于終止while回圈
        status = True
        # 重試次數
        num = 0

        while status:
            # 獲取當前時間戳（秒）
            t2 = int(time.time())
            # 判斷時間初始時間戳和當前時間戳相差是否大于30秒，小于30秒則下拉滾動條
            if t2 - t1 < 30:

                new_height = bro.execute_script(js)
                # print("js=js=js=", new_height)  # 2481
                if new_height <= height:
                    time.sleep(1)
                    bro.execute_script(
                        'window.scrollTo(0, document.body.scrollHeight)'
                    )
                    # 重置初始頁面高度
                    height = new_height
                    # 重置初始時間戳，重新計時
                    t1 = int(time.time())
                else:
                    status = False
            elif num < 3:
                print("# 當超過30秒頁面高度仍然沒有更新時，進入重試邏輯，重試3次，每次等待30秒")
                time.sleep(3)
                num = num + 1
            else:
                # 超時并超過重試次數，程式結束跳出回圈，并認為頁面已經加載完畢！
                print("滾動條已經處于頁面最下方！")
                status = False
                # 滾動條調整至頁面頂部
                bro.execute_script('window.scrollTo(0, 0)')
                break
            sleep(5)

        return HtmlResponse(url=spider.bro.current_url, body=bro.page_source, encoding='utf8', request=request)

5.爬蟲檔案

import scrapy
from boss.items import BossItem
from selenium import webdriver
class B1Spider(scrapy.Spider):
    name = 'b1'
    start_urls = ['https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=']
    def __init__(self):
        # 初始化Chrome的物件
        self.bro = webdriver.Chrome(executable_path=r'C:\Users\shiji\anaconda3\Scripts\chromedriver.exe')

    def parse(self, response):
        # sel = Selector(response)
        # book_list = sel.css('#movie-list-item unplayable unwatched > ul > li')
        item = BossItem()
        name = response.xpath(
            '//*[@id="content"]/div/div[1]/div[6]/div/div/div/div[1]/span[1]/a/text()').extract()
        for i in name:
            item['movie_name'] = i
            print(i)
        # item 傳給pipeline
            yield item
    def closed(self, spider):
        print('關閉瀏覽器物件!')
        self.bro.quit()

6.pipeline 添加MySQL

更改setting配置打開管道

ITEM_PIPELINES = {
   'boss.pipelines.BossPipeline': 300,
}

pipeline.py

import pymysql as db
class BossPipeline(object):
    def __init__(self):
        self.con = db.connect(user="root", passwd="123456", host="localhost", db="spiderdbtushu", charset="utf8")
        self.cur = self.con.cursor()
        self.cur.execute('drop table if exists mn')
        self.cur.execute(
            "create table mn(id int auto_increment primary key,"
            "movie_name varchar(200))charset='utf8'")

    def process_item(self, item, spider):
        self.cur.execute(
            "insert into mn(id,movie_name) values(NULL,%s)",
            (item['movie_name']))
        self.con.commit()
        return item

查詢資料庫：
在這里插入圖片描述
為節省時間這里我只selenium滾動了一頁資料，要想多次滾動，自己想想，小改一下哦

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/267129.html

標籤：python

上一篇：使用python刷訪問量

下一篇：爬取風景圖片

scrapy框架–基礎結構加爬取異步加載資料的網址專案完整實體