主頁 > 後端開發 > PyCharm爬蟲實體:使用Scrapy抓取網頁特定內容、資料采集與資料預處理--biaobiao88

PyCharm爬蟲實體:使用Scrapy抓取網頁特定內容、資料采集與資料預處理--biaobiao88

2020-11-02 07:50:22 後端開發

Scraoy入門實體一---Scrapy介紹與安裝&PyCharm的安裝&專案實戰

一、Scrapy的安裝

1.Scrapy介紹

Scrapy是一個為了爬取網站資料,提取結構性資料而撰寫的應用框架,可以應用在包括資料挖掘,資訊處理或存盤歷史資料等一系列的程式中,其最初是為了頁面抓取 (更確切來說,網路抓取)所設計的,也可以應用在獲取API所回傳的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲,

2.Scrapy安裝

推薦使用Anaconda安裝Scrapy

Anaconda是一個開源的包、環境管理神器,Anaconda包含了conda、Python在內的超過180個科學包及其依賴項,從官網下載安裝Anaconda(Individual Edition),根據自己的系統選擇下載,進行安裝,選擇next繼續安裝,Install for選項選Just for me,選擇安裝位置后,靜待完成安裝,

裝好之后打開命令列,輸入conda install scrapy,然后根據提示按Y,就會將Scrapy及其依賴的包全部下載下來,這樣就完成了安裝,

注意:在使用命令列安裝scrapy包時,會出現下載超時的問題,即下載失敗,我們可以通過修改其的鏡像檔案,以此來提高下載scrapy包的速度,可參考博客:https://blog.csdn.net/zhoulizhu/article/details/78809459

這時測驗Scrapy是否安裝成功:在命令列視窗輸入scrapy回車,如果顯示如下界面就證明安裝成功:

 

 

 

 二、PyCharm的安裝

1.PyCharm介紹

PyCharm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如除錯、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測驗、版本控制,此外,該IDE提供了一些高級功能,以用于支持Django框架下的專業Web開發,

2.PyCharm安裝

進入PyCharm的官網,直接點擊DownLoad進行下載,左邊是專業版,右邊是社區版,社區版免費,專業版免費試用,

如果我們之前沒有下載有Python解釋器的話,在等待安裝的時間我們可以去下載python解釋器,進入Python官網,根據系統、版本下載對應的壓縮包即可,在安裝完后,在環境變數Path中配置Python解釋器的安裝路徑,可參考博客:https://www.jb51.net/article/161175.htm

三、Scrapy抓取豆瓣專案實戰

前提:在PyCharm中要使用Scrapy的話,必須先在PyCharm中安裝所支持的Scrapy包,程序如下,點擊檔案(File)>>  設定(Settings...),步驟如下圖,我安裝Scrapy之前綠色框內只有兩個Package,如果當你點擊后看到有Scrapy包的話,那就不用安裝了,直接進行接下來的操作即可

 

如果沒有Scrapy包的話,點擊“+” ,搜索Scrapy包,點擊Install Package 進行安裝

 

 等待安裝完成即可,

1.新建專案

打開剛安裝好的PyCharm,使用pycharm工具在軟體的終端,如果找不到PyCharm終端在哪,在左下角的底部的Terminal就是了

輸入命令:scrapy startproject douban  這是使用命令列來新建一個爬蟲專案,如下圖所示,圖片展示的專案名為pythonProject

接著在命令列輸入命令:cd douban  進入已生成的專案根目錄

接著繼續在終端鍵入命令:scrapy genspider douban_spider movie.douban.com  生成douban_spider爬蟲檔案,

此時的專案結構如下圖所示:

 

 

 2.明確目標

我們要練習的網站為:https://movie.douban.com/top250

假設,我們抓取top250電影的序列號,電影名,介紹,星級,評價數,電影描述選項

此時,我們在items.py檔案中定義抓取的資料項,代碼如下:

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    # 序列號
    serial_number = scrapy.Field();
    # 電影名
    movie_name = scrapy.Field();
    # 介紹
    introduce = scrapy.Field();
    # 星級
    star = scrapy.Field();
    # 評價數
    evaluate = scrapy.Field();
    # 描述
    describe = scrapy.Field();
    pass

3.接著,我們需要制作爬蟲以及存盤爬取內容

在douban_spider.py爬蟲檔案撰寫具體的邏輯代碼,如下:

# -*- coding: utf-8 -*-
import scrapy

from ..items import DoubanItem
class DoubanSpiderSpider(scrapy.Spider):
    name = 'douban_spider'
    # 允許的域名
    allowed_domains = ['movie.douban.com']
    # 入口URL
    start_urls = ['https://movie.douban.com/top250']

    def parse(self, response):
        movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li")
        #回圈電影的條目
        for i_item in movie_list:
            #匯入item,進行資料決議
            douban_item = DoubanItem()
            douban_item['serial_number'] = i_item.xpath(".//div[@class='item']//em/text()").extract_first()
            douban_item['movie_name'] =  i_item.xpath(".//div[@class='info']//div[@class='hd']/a/span[1]/text()").extract_first()
            #如果檔案有多行進行決議
            content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract()
            for i_content in content:
                content_s ="".join( i_content.split())
                douban_item['introduce'] = content_s
            douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first()
            douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first()
            douban_item['describe'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first()
            print(douban_item)
            yield  douban_item
        #決議下一頁,取后一頁的XPATH
        next_link = response.xpath("//span[@class='next']/link/@href").extract()
        if next_link:
            next_link = next_link[0]
            yield  scrapy.Request("https://movie.douban.com/top250"+next_link,callback=self.parse)

此時不需要運行這個python檔案,因為我們不是單獨使用它的,所以不用運行,允許會報錯,有關import引入的問題,關于主目錄的絕對路徑與相對路徑的問題,原因是我們使用了相對路徑“..items”,相關的內容感興趣的同學可以去網上查找有關這類問題的解釋,

4.存盤內容

將所爬取的內容存盤成json或csv格式的檔案

在命令列輸入:scrapy crawl douban_spider -o test.json 或者 scrapy crawl douban_spider -o test.csv

將爬取到的資料存盤到json檔案或者csv檔案里,

 

在執行完爬取命令后,將滑鼠的焦點給到專案面板時,即會顯示出生成的json檔案或csv檔案,打開json或csv檔案后,如果里面什么內容都沒有,那么我們還需要進行一步的修改,修改代理USER_AGENT的內容,

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.8 Safari/537.36'

存盤到json檔案里的話,所有的內容都會以十六進制的形式顯示出來,可以通過相應的方法進行轉碼,這里不過多的說明,如下圖:

 

 

而存盤在csv檔案中,會直接將我們所要爬取的內容全部顯示出來,如下圖:

 

 到此為止,我們已完成對網站特定內容的爬取,接下來,就需要對這些爬取的資料進行處理,

分割線----------------------------------------------------------------------------------------------------------------------分割線

Scraoy入門實體二---使用Pipeline實作

此次的實戰需要重新創建一個專案,還是需要安裝scrapy包,參考上面的內容,創建新專案的方法也參考上面的內容,這里不再重復贅述,

專案目錄結構如下圖所示:

一、Pipeline介紹

當我們通過Spider爬取資料,通過Item收集資料后,就要對資料進行一些處理了,因為我們爬取到的資料并不一定是我們想要的最終資料,可能還需要進行資料的清洗以及驗證資料的有效性,Scripy中的Pipeline組件就用于資料的處理,一個Pipeline組件就是一個包含特定介面的類,通常只負責一種功能的資料處理,在一個專案中可以同時啟用多個Pipeline,

二、在items.py中定義自己要抓取的資料

首先打開一個新的pycharm專案,通過終端建立新專案tutorial,在item中定義想要抓取的資料,例如電影名字,代碼如下:

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class TutorialItem(scrapy.Item):
    # define the fields for your item here like:
    name = scrapy.Field()
    pass

class DoubanmovieItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    moiveName = scrapy.Field()

三、定義pipeline.py檔案

每個item pipe組件是一個獨立的pyhton類,必須實作以process_item(self,item,spider)方法每個item pipeline組件都需要呼叫該方法,這個方法必須回傳一個具有資料的dict,或者item物件,或者拋出DropItem例外,被丟棄的item將不會被之后的pipeline組件所處理,定義的pipelines.py代碼如下所示:

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class TutorialPipeline(object):
    def process_item(self, item, spider):
        return item

import time

class DoubanmoviePipeline(object):
    def process_item(self, item, spider):
        now = time.strftime('%Y-%m-%d', time.localtime())
        fileName = 'douban' + now + '.txt'
        with open(fileName, 'a', encoding='utf-8') as fp:
            fp.write(item['moiveName'][0]+"\n")
        return item

四、配置setting.py

由于這次使用了pipeline,所以需要我們在settings.py中打開pipelines通道注釋,在里面新增一條,pipelines中添加的記錄 ,如下圖所示:

 

 五、寫爬蟲檔案

在tutoral/spiders目錄下創建quotes_spider.py檔案,目錄結構如下,并寫入初步的代碼:

 

 quotes_spider.py代碼如下:

import scrapy

from items import DoubanmovieItem

class QuotesSpider(scrapy.Spider):

    name = "doubanSpider"
    allowed_domains = ['douban.com']
    start_urls = ['http://movie.douban.com/cinema/nowplaying',
                  'http://movie.douban.com/cinema/nowplaying/beijing/']

    def parse(self, response):
        print("--" * 20 )
        #print(response.body)
        print("==" * 20 )
        subSelector = response.xpath('//li[@]')
        items = []
        for sub in subSelector:
            #print(sub.xpath('normalize-space(./a/text())').extract())
            print(sub)
            item = DoubanmovieItem()
            item['moiveName'] = sub.xpath('normalize-space(./a/text())').extract()
            items.append(item)
        print(items)
        return items

六、通過啟動檔案運行

在douban檔案目錄下新建啟動檔案 douban_spider_run.py (檔案名稱可以另取),并運行該檔案,查看結果,撰寫代碼如下:

from scrapy import cmdline
cmdline.execute("scrapy crawl doubanSpider".split())

 

最后,經過處理后的爬取資料如下圖所示(部分):

 

 最后,希望大家在撰寫代碼的時候能夠細心點,不能馬虎,我在實驗的程序當中,就是因為將要引入的方法DoubanmovieItem寫成了DobanmovieItem,從而導致了整個程式的運行失敗,而且PyCharm還不告訴我哪里錯了,我到處搜問題解決方法也沒找到,最終核對了好多遍,生成方法時才發現,所以一定要細心,這個錯誤如下圖所示,它提示說找不到DobanmovieItem這個模塊,可能已經告訴我錯誤的地方了,因為我太菜了沒發現,所以才耗費較長時間,希望大家引以為戒!

 

 到此為止,使用Scrapy進行抓取網頁內容,與對所抓取的內容進行清洗和處理的實驗已經完成,要求對這個程序當中的代碼與操作熟悉與運用,不會的去查找網上內容,消化吸收,記在腦子里,這才是真正學到知識,而不是照葫蘆畫瓢,

轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/199101.html

標籤:Python

上一篇:Django筆記:內置的用戶系統

下一篇:原生Javascript(語言基礎和流程控制陳述句)—1_Sander_2020的博客—CSDN博客

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 【C++】Microsoft C++、C 和匯編程式檔案

    ......

    uj5u.com 2020-09-10 00:57:23 more
  • 例外宣告

    相比于斷言適用于排除邏輯上不可能存在的狀態,例外通常是用于邏輯上可能發生的錯誤。 例外宣告 Item 1:當函式不可能拋出例外或不能接受拋出例外時,使用noexcept 理由 如果不打算拋出例外的話,程式就會認為無法處理這種錯誤,并且應當盡早終止,如此可以有效地阻止例外的傳播與擴散。 示例 //不可 ......

    uj5u.com 2020-09-10 00:57:27 more
  • Codeforces 1400E Clear the Multiset(貪心 + 分治)

    鏈接:https://codeforces.com/problemset/problem/1400/E 來源:Codeforces 思路:給你一個陣列,現在你可以進行兩種操作,操作1:將一段沒有 0 的區間進行減一的操作,操作2:將 i 位置上的元素歸零。最終問:將這個陣列的全部元素歸零后操作的最少 ......

    uj5u.com 2020-09-10 00:57:30 more
  • UVA11610 【Reverse Prime】

    本人看到此題沒有翻譯,就附帶了一個自己的翻譯版本 思考 這一題,它的第一個要求是找出所有 $7$ 位反向質數及其質因數的個數。 我們應該需要質數篩篩選1~$10^{7}$的所有數,這里就不慢慢介紹了。但是,重讀題,我們突然發現反向質數都是 $7$ 位,而將它反過來后的數字卻是 $6$ 位數,這就說明 ......

    uj5u.com 2020-09-10 00:57:36 more
  • 統計區間素數數量

    1 #pragma GCC optimize(2) 2 #include <bits/stdc++.h> 3 using namespace std; 4 bool isprime[1000000010]; 5 vector<int> prime; 6 inline int getlist(int ......

    uj5u.com 2020-09-10 00:57:47 more
  • C/C++編程筆記:C++中的 const 變數詳解,教你正確認識const用法

    1、C中的const 1、區域const變數存放在堆疊區中,會分配記憶體(也就是說可以通過地址間接修改變數的值)。測驗代碼如下: 運行結果: 2、全域const變數存放在只讀資料段(不能通過地址修改,會發生寫入錯誤), 默認為外部聯編,可以給其他源檔案使用(需要用extern關鍵字修飾) 運行結果: ......

    uj5u.com 2020-09-10 00:58:04 more
  • 【C++犯錯記錄】VS2019 MFC添加資源不懂如何修改資源宏ID

    1. 首先在資源視圖中,添加資源 2. 點擊新添加的資源,復制自動生成的ID 3. 在解決方案資源管理器中找到Resource.h檔案,編輯,使用整個專案搜索和替換的方式快速替換 宏宣告 4. Ctrl+Shift+F 全域搜索,點擊查找全部,然后逐個替換 5. 為什么使用搜索替換而不使用屬性視窗直 ......

    uj5u.com 2020-09-10 00:59:11 more
  • 【C++犯錯記錄】VS2019 MFC不懂的批量添加資源

    1. 打開資源頭檔案Resource.h,在其中預先定義好宏 ID(不清楚其實ID值應該設定多少,可以先新建一個相同的資源項,再在這個資源的ID值的基礎上遞增即可) 2. 在資源視圖中選中專案資源,按F7編輯資源檔案,按 ID 型別 相對路徑的形式添加 資源。(別忘了先把檔案拷貝到專案中的res檔案 ......

    uj5u.com 2020-09-10 01:00:19 more
  • C/C++編程筆記:關于C++的參考型別,專供新手入門使用

    今天要講的是C++中我最喜歡的一個用法——參考,也叫別名。 參考就是給一個變數名取一個變數名,方便我們間接地使用這個變數。我們可以給一個變數創建N個參考,這N + 1個變數共享了同一塊記憶體區域。(參考型別的變數會占用記憶體空間,占用的記憶體空間的大小和指標型別的大小是相同的。雖然參考是一個物件的別名,但 ......

    uj5u.com 2020-09-10 01:00:22 more
  • 【C/C++編程筆記】從頭開始學習C ++:初學者完整指南

    眾所周知,C ++的學習曲線陡峭,但是花時間學習這種語言將為您的職業帶來奇跡,并使您與其他開發人員區分開。您會更輕松地學習新語言,形成真正的解決問題的技能,并在編程的基礎上打下堅實的基礎。 C ++將幫助您養成良好的編程習慣(即清晰一致的編碼風格,在撰寫代碼時注釋代碼,并限制類內部的可見性),并且由 ......

    uj5u.com 2020-09-10 01:00:41 more
最新发布
  • Rust中的智能指標:Box<T> Rc<T> Arc<T> Cell<T> RefCell<T> Weak

    Rust中的智能指標是什么 智能指標(smart pointers)是一類資料結構,是擁有資料所有權和額外功能的指標。是指標的進一步發展 指標(pointer)是一個包含記憶體地址的變數的通用概念。這個地址參考,或 ” 指向”(points at)一些其 他資料 。參考以 & 符號為標志并借用了他們所 ......

    uj5u.com 2023-04-20 07:24:10 more
  • Java的值傳遞和參考傳遞

    值傳遞不會改變本身,參考傳遞(如果傳遞的值需要實體化到堆里)如果發生修改了會改變本身。 1.基本資料型別都是值傳遞 package com.example.basic; public class Test { public static void main(String[] args) { int ......

    uj5u.com 2023-04-20 07:24:04 more
  • [2]SpinalHDL教程——Scala簡單入門

    第一個 Scala 程式 shell里面輸入 $ scala scala> 1 + 1 res0: Int = 2 scala> println("Hello World!") Hello World! 檔案形式 object HelloWorld { /* 這是我的第一個 Scala 程式 * 以 ......

    uj5u.com 2023-04-20 07:23:58 more
  • 理解函式指標和回呼函式

    理解 函式指標 指向函式的指標。比如: 理解函式指標的偽代碼 void (*p)(int type, char *data); // 定義一個函式指標p void func(int type, char *data); // 宣告一個函式func p = func; // 將指標p指向函式func ......

    uj5u.com 2023-04-20 07:23:52 more
  • Django筆記二十五之資料庫函式之日期函式

    本文首發于公眾號:Hunter后端 原文鏈接:Django筆記二十五之資料庫函式之日期函式 日期函式主要介紹兩個大類,Extract() 和 Trunc() Extract() 函式作用是提取日期,比如我們可以提取一個日期欄位的年份,月份,日等資料 Trunc() 的作用則是截取,比如 2022-0 ......

    uj5u.com 2023-04-20 07:23:45 more
  • 一天吃透JVM面試八股文

    什么是JVM? JVM,全稱Java Virtual Machine(Java虛擬機),是通過在實際的計算機上仿真模擬各種計算機功能來實作的。由一套位元組碼指令集、一組暫存器、一個堆疊、一個垃圾回收堆和一個存盤方法域等組成。JVM屏蔽了與作業系統平臺相關的資訊,使得Java程式只需要生成在Java虛擬機 ......

    uj5u.com 2023-04-20 07:23:31 more
  • 使用Java接入小程式訂閱訊息!

    更新完微信服務號的模板訊息之后,我又趕緊把微信小程式的訂閱訊息給實作了!之前我一直以為微信小程式也是要企業才能申請,沒想到小程式個人就能申請。 訊息推送平臺🔥推送下發【郵件】【短信】【微信服務號】【微信小程式】【企業微信】【釘釘】等訊息型別。 https://gitee.com/zhongfuch ......

    uj5u.com 2023-04-20 07:22:59 more
  • java -- 緩沖流、轉換流、序列化流

    緩沖流 緩沖流, 也叫高效流, 按照資料型別分類: 位元組緩沖流:BufferedInputStream,BufferedOutputStream 字符緩沖流:BufferedReader,BufferedWriter 緩沖流的基本原理,是在創建流物件時,會創建一個內置的默認大小的緩沖區陣列,通過緩沖 ......

    uj5u.com 2023-04-20 07:22:49 more
  • Java-SpringBoot-Range請求頭設定實作視頻分段傳輸

    老實說,人太懶了,現在基本都不喜歡寫筆記了,但是網上有關Range請求頭的文章都太水了 下面是抄的一段StackOverflow的代碼...自己大修改過的,寫的注釋挺全的,應該直接看得懂,就不解釋了 寫的不好...只是希望能給視頻網站開發的新手一點點幫助吧. 業務場景:視頻分段傳輸、視頻多段傳輸(理 ......

    uj5u.com 2023-04-20 07:22:42 more
  • Windows 10開發教程_編程入門自學教程_菜鳥教程-免費教程分享

    教程簡介 Windows 10開發入門教程 - 從簡單的步驟了解Windows 10開發,從基本到高級概念,包括簡介,UWP,第一個應用程式,商店,XAML控制元件,資料系結,XAML性能,自適應設計,自適應UI,自適應代碼,檔案管理,SQLite資料庫,應用程式到應用程式通信,應用程式本地化,應用程式 ......

    uj5u.com 2023-04-20 07:22:35 more