Python爬蟲、資料分析、網站開發等案例教程視頻免費在線觀看
https://space.bilibili.com/523606542
Python學習交流群:1039649593
scrapy是一個使用Python語言(基于Twisted框架)撰寫的開源網路爬蟲框架,目前由
scrapinghub Ltd維護,Scrapy簡單易用、靈活易拓展、開發社區活躍,并且是跨平臺的,在Linux、MaxOS以及windows平臺都可以使用,
網路爬蟲
網路爬蟲是指在互聯網上自動爬取網站內容資訊的程式,也被稱作網路蜘蛛或網路機器人,大型的爬蟲程式被廣泛應用于搜索引擎、資料挖掘等領域,個人用戶或企業也可以利用爬蟲收集對自身有價值的資料,
一個網路爬蟲程式的基本執行流程可以總結三個程序:請求資料,決議資料,保存資料
資料請求
請求的資料除了普通的HTML之外,還有json資料、字串資料、圖片、視頻、音頻等,
決議資料
當一個資料下載完成后,對資料中的內容進行分析,并提取出需要的資料,提取到的資料可以以多種形式保存起來,資料的格式有非常多種,常見的有csv、json、pickle等
保存資料
最后將資料以某種格式(CSV、JSON)寫入檔案中,或存盤到資料庫(MySQL、MongoDB)中,同時保存為一種或者多種,
通常,我們想要獲取的資料并不只在一個頁面中,而是分布在多個頁面中,這些頁面彼此聯系,一個頁面中可能包含一個或多個到其他頁面的鏈接,提取完當前頁面中的資料后,還要把頁面中的某些鏈接也提取出來,然后對鏈接頁面進行爬取(回圈1-3步驟),
設計爬蟲程式時,還要考慮防止重復爬取相同頁面(URL去重)、網頁搜索策略(深度優先或廣度優先等)、爬蟲訪問邊界限定等一系列問題,
從頭開發一個爬蟲程式是一項煩瑣的作業,為了避免因制造輪子而消耗大量時間,在實際應用中我們可以選擇使用一些優秀的爬蟲框架,使用框架可以降低開發成本,提高程式質量,讓我們能夠專注于業務邏輯(爬取有價值的資料),接下來,就帶你學習目前非常流行的開源爬蟲框架Scrapy,
scrapy安裝
scrapy官網:https://scrapy.org/
scrapy中文檔案:https://www.osgeo.cn/scrapy/intro/overview.html
安裝方式
在任意作業系統下,可以使用pip安裝Scrapy,例如:
pip install scrapy
安裝完成后我們需要測驗安裝是否成功,通過如下步驟確認:
在終端中測驗能否執行scrapy這條命令
scrapy 2.4.0 - no active project usage: scrapy <command>[options] [args] Available commands : bench Run quick benchmark test fetch Fetch a URL using the scrapy down1oader genspider Generate new spider using pre-defined temp1ates runspider Run a self-contained spider (without creating a project) settings Get settings values she11 Interactive scraping console startproject create new project version Print scrapy version view open URL in browser,as seen by scrapy [ more ] More commands available when run from project directory use "scrapy <command> -h" to see more info about a command
輸入scrapy bench測驗連通性,如果出現以下情況表示安裝成功:
通過了以上兩項檢測,說明Scrapy安裝成功了,如上所示,我們安裝的是當前最新版本2.4.0,
注意:
在安裝Scrapy的程序中可能會遇到缺少VC++等錯誤,可以安裝缺失模塊的離線包
成功安裝后,在CMD下運行scrapy出現上圖不算真正成功,檢測真正是否成功使用scrapybench測驗,如果沒有提示錯誤,就代表成功安裝,
全域命令
scrapy 2.4.0 - no active project usage: scrapy <command>[options] [args] Available commands : bench Run quick benchmark test #測驗電腦性能 fetch Fetch a URL using the scrapy down1oader#將源代碼下載下來并顯示出來 genspider Generate new spider using pre-defined temp1ates#創建一個新的spider檔案 runspider Run a self-contained spider (without creating a project)# 這個和通過craw1啟動爬蟲不同,scrapy runspider爬蟲檔案名稱 settings Get settings values#獲取當前的配置資訊 she11 Interactive scraping console#進入scrapy 的互動模式 startproject create new project#創建爬蟲專案 version Print scrapy version#顯示scrapy框架的版本 view open URL in browser,as seen by scrapy#將網頁document內容下載下來,并且在瀏覽器顯示出來 [ more ] More commands available when run from project directory use "scrapy <command> -h" to see more info about a command
專案命令
-
scrapy startproject projectname
創建一個專案 -
scrapy genspider spidername domain
創建爬蟲,創建好爬蟲專案以后,還需要創建爬蟲, -
scrapy crawl spidername
運行爬蟲,注意該命令運行時所在的目錄,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/288041.html
標籤:Python
上一篇:Python sys模塊 - Python零基礎入門教程
下一篇:PyQt5中執行緒和界面操作總結
