Scraoy入門實體一---Scrapy介紹與安裝&PyCharm的安裝&專案實戰
一、Scrapy的安裝
1.Scrapy介紹
Scrapy是一個為了爬取網站資料,提取結構性資料而撰寫的應用框架,可以應用在包括資料挖掘,資訊處理或存盤歷史資料等一系列的程式中,其最初是為了頁面抓取 (更確切來說,網路抓取)所設計的,也可以應用在獲取API所回傳的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲,
2.Scrapy安裝
推薦使用Anaconda安裝Scrapy
Anaconda是一個開源的包、環境管理神器,Anaconda包含了conda、Python在內的超過180個科學包及其依賴項,從官網下載安裝Anaconda(Individual Edition),根據自己的系統選擇下載,進行安裝,選擇next繼續安裝,Install for選項選Just for me,選擇安裝位置后,靜待完成安裝,
裝好之后打開命令列,輸入conda install scrapy,然后根據提示按Y,就會將Scrapy及其依賴的包全部下載下來,這樣就完成了安裝,
注意:在使用命令列安裝scrapy包時,會出現下載超時的問題,即下載失敗,我們可以通過修改其的鏡像檔案,以此來提高下載scrapy包的速度,可參考博客:https://blog.csdn.net/zhoulizhu/article/details/78809459
這時測驗Scrapy是否安裝成功:在命令列視窗輸入scrapy回車,如果顯示如下界面就證明安裝成功:

二、PyCharm的安裝
1.PyCharm介紹
PyCharm是一種Python IDE,帶有一整套可以幫助用戶在使用Python語言開發時提高其效率的工具,比如除錯、語法高亮、Project管理、代碼跳轉、智能提示、自動完成、單元測驗、版本控制,此外,該IDE提供了一些高級功能,以用于支持Django框架下的專業Web開發,
2.PyCharm安裝
進入PyCharm的官網,直接點擊DownLoad進行下載,左邊是專業版,右邊是社區版,社區版免費,專業版免費試用,
如果我們之前沒有下載有Python解釋器的話,在等待安裝的時間我們可以去下載python解釋器,進入Python官網,根據系統、版本下載對應的壓縮包即可,在安裝完后,在環境變數Path中配置Python解釋器的安裝路徑,可參考博客:https://www.jb51.net/article/161175.htm
三、Scrapy抓取豆瓣專案實戰
前提:在PyCharm中要使用Scrapy的話,必須先在PyCharm中安裝所支持的Scrapy包,程序如下,點擊檔案(File)>> 設定(Settings...),步驟如下圖,我安裝Scrapy之前綠色框內只有兩個Package,如果當你點擊后看到有Scrapy包的話,那就不用安裝了,直接進行接下來的操作即可

如果沒有Scrapy包的話,點擊“+” ,搜索Scrapy包,點擊Install Package 進行安裝

等待安裝完成即可,
1.新建專案
打開剛安裝好的PyCharm,使用pycharm工具在軟體的終端,如果找不到PyCharm終端在哪,在左下角的底部的Terminal就是了

輸入命令:scrapy startproject douban 這是使用命令列來新建一個爬蟲專案,如下圖所示,圖片展示的專案名為pythonProject

接著在命令列輸入命令:cd douban 進入已生成的專案根目錄
接著繼續在終端鍵入命令:scrapy genspider douban_spider movie.douban.com 生成douban_spider爬蟲檔案,
此時的專案結構如下圖所示:

2.明確目標
我們要練習的網站為:https://movie.douban.com/top250
假設,我們抓取top250電影的序列號,電影名,介紹,星級,評價數,電影描述選項
此時,我們在items.py檔案中定義抓取的資料項,代碼如下:
# Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.html import scrapy class DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() # 序列號 serial_number = scrapy.Field(); # 電影名 movie_name = scrapy.Field(); # 介紹 introduce = scrapy.Field(); # 星級 star = scrapy.Field(); # 評價數 evaluate = scrapy.Field(); # 描述 describe = scrapy.Field(); pass
3.接著,我們需要制作爬蟲以及存盤爬取內容
在douban_spider.py爬蟲檔案撰寫具體的邏輯代碼,如下:
# -*- coding: utf-8 -*- import scrapy from ..items import DoubanItem class DoubanSpiderSpider(scrapy.Spider): name = 'douban_spider' # 允許的域名 allowed_domains = ['movie.douban.com'] # 入口URL start_urls = ['https://movie.douban.com/top250'] def parse(self, response): movie_list = response.xpath("//div[@class='article']//ol[@class='grid_view']/li") #回圈電影的條目 for i_item in movie_list: #匯入item,進行資料決議 douban_item = DoubanItem() douban_item['serial_number'] = i_item.xpath(".//div[@class='item']//em/text()").extract_first() douban_item['movie_name'] = i_item.xpath(".//div[@class='info']//div[@class='hd']/a/span[1]/text()").extract_first() #如果檔案有多行進行決議 content = i_item.xpath(".//div[@class='info']//div[@class='bd']/p[1]/text()").extract() for i_content in content: content_s ="".join( i_content.split()) douban_item['introduce'] = content_s douban_item['star'] = i_item.xpath(".//span[@class='rating_num']/text()").extract_first() douban_item['evaluate'] = i_item.xpath(".//div[@class='star']//span[4]/text()").extract_first() douban_item['describe'] = i_item.xpath(".//p[@class='quote']/span/text()").extract_first() print(douban_item) yield douban_item #決議下一頁,取后一頁的XPATH next_link = response.xpath("//span[@class='next']/link/@href").extract() if next_link: next_link = next_link[0] yield scrapy.Request("https://movie.douban.com/top250"+next_link,callback=self.parse)
此時不需要運行這個python檔案,因為我們不是單獨使用它的,所以不用運行,允許會報錯,有關import引入的問題,關于主目錄的絕對路徑與相對路徑的問題,原因是我們使用了相對路徑“..items”,相關的內容感興趣的同學可以去網上查找有關這類問題的解釋,
4.存盤內容
將所爬取的內容存盤成json或csv格式的檔案
在命令列輸入:scrapy crawl douban_spider -o test.json 或者 scrapy crawl douban_spider -o test.csv
將爬取到的資料存盤到json檔案或者csv檔案里,
在執行完爬取命令后,將滑鼠的焦點給到專案面板時,即會顯示出生成的json檔案或csv檔案,打開json或csv檔案后,如果里面什么內容都沒有,那么我們還需要進行一步的修改,修改代理USER_AGENT的內容,
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.8 Safari/537.36'

存盤到json檔案里的話,所有的內容都會以十六進制的形式顯示出來,可以通過相應的方法進行轉碼,這里不過多的說明,如下圖:

而存盤在csv檔案中,會直接將我們所要爬取的內容全部顯示出來,如下圖:

到此為止,我們已完成對網站特定內容的爬取,接下來,就需要對這些爬取的資料進行處理,
分割線----------------------------------------------------------------------------------------------------------------------分割線
Scraoy入門實體二---使用Pipeline實作
此次的實戰需要重新創建一個專案,還是需要安裝scrapy包,參考上面的內容,創建新專案的方法也參考上面的內容,這里不再重復贅述,
專案目錄結構如下圖所示:

一、Pipeline介紹
當我們通過Spider爬取資料,通過Item收集資料后,就要對資料進行一些處理了,因為我們爬取到的資料并不一定是我們想要的最終資料,可能還需要進行資料的清洗以及驗證資料的有效性,Scripy中的Pipeline組件就用于資料的處理,一個Pipeline組件就是一個包含特定介面的類,通常只負責一種功能的資料處理,在一個專案中可以同時啟用多個Pipeline,
二、在items.py中定義自己要抓取的資料
首先打開一個新的pycharm專案,通過終端建立新專案tutorial,在item中定義想要抓取的資料,例如電影名字,代碼如下:
# Define here the models for your scraped items # # See documentation in: # https://docs.scrapy.org/en/latest/topics/items.html import scrapy class TutorialItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() pass class DoubanmovieItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() moiveName = scrapy.Field()
三、定義pipeline.py檔案
每個item pipe組件是一個獨立的pyhton類,必須實作以process_item(self,item,spider)方法每個item pipeline組件都需要呼叫該方法,這個方法必須回傳一個具有資料的dict,或者item物件,或者拋出DropItem例外,被丟棄的item將不會被之后的pipeline組件所處理,定義的pipelines.py代碼如下所示:
# Define your item pipelines here # # Don't forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html # useful for handling different item types with a single interface from itemadapter import ItemAdapter class TutorialPipeline(object): def process_item(self, item, spider): return item import time class DoubanmoviePipeline(object): def process_item(self, item, spider): now = time.strftime('%Y-%m-%d', time.localtime()) fileName = 'douban' + now + '.txt' with open(fileName, 'a', encoding='utf-8') as fp: fp.write(item['moiveName'][0]+"\n") return item
四、配置setting.py
由于這次使用了pipeline,所以需要我們在settings.py中打開pipelines通道注釋,在里面新增一條,pipelines中添加的記錄 ,如下圖所示:

五、寫爬蟲檔案
在tutoral/spiders目錄下創建quotes_spider.py檔案,目錄結構如下,并寫入初步的代碼:

quotes_spider.py代碼如下:
import scrapy from items import DoubanmovieItem class QuotesSpider(scrapy.Spider): name = "doubanSpider" allowed_domains = ['douban.com'] start_urls = ['http://movie.douban.com/cinema/nowplaying', 'http://movie.douban.com/cinema/nowplaying/beijing/'] def parse(self, response): print("--" * 20 ) #print(response.body) print("==" * 20 ) subSelector = response.xpath('//li[@]') items = [] for sub in subSelector: #print(sub.xpath('normalize-space(./a/text())').extract()) print(sub) item = DoubanmovieItem() item['moiveName'] = sub.xpath('normalize-space(./a/text())').extract() items.append(item) print(items) return items
六、通過啟動檔案運行
在douban檔案目錄下新建啟動檔案 douban_spider_run.py (檔案名稱可以另取),并運行該檔案,查看結果,撰寫代碼如下:
from scrapy import cmdline cmdline.execute("scrapy crawl doubanSpider".split())
最后,經過處理后的爬取資料如下圖所示(部分):

最后,希望大家在撰寫代碼的時候能夠細心點,不能馬虎,我在實驗的程序當中,就是因為將要引入的方法DoubanmovieItem寫成了DobanmovieItem,從而導致了整個程式的運行失敗,而且PyCharm還不告訴我哪里錯了,我到處搜問題解決方法也沒找到,最終核對了好多遍,生成方法時才發現,所以一定要細心,這個錯誤如下圖所示,它提示說找不到DobanmovieItem這個模塊,可能已經告訴我錯誤的地方了,因為我太菜了沒發現,所以才耗費較長時間,希望大家引以為戒!

到此為止,使用Scrapy進行抓取網頁內容,與對所抓取的內容進行清洗和處理的實驗已經完成,要求對這個程序當中的代碼與操作熟悉與運用,不會的去查找網上內容,消化吸收,記在腦子里,這才是真正學到知識,而不是照葫蘆畫瓢,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/199101.html
標籤:Python
上一篇:Django筆記:內置的用戶系統
