你真的了解爬蟲嗎？看完你會對網路爬蟲有更深更全面的認識-有解無憂

前言

爬蟲是門很有意思的技術，可以通過爬蟲技識訓取一些別人拿不到或者需要付費才能拿到的東西，也可以對大量資料進行自動爬取和保存，減少時間和精力去手動做一些累活，

可以說很多人學編程，不玩點爬蟲確實少了很多意思，不管是業余、接私活還是職業爬蟲，爬蟲世界確實挺精彩的，

今天來給大家淺談一下爬蟲，目的是讓準備學爬蟲或者剛開始起步的小伙伴們，對爬蟲有一個更深更全的認知，

在這里插入圖片描述

文章目錄

- 前言
- 一、認識爬蟲
- - 1.什么是爬蟲？
  - 2.爬蟲的分類
  - 3.Robots協議
- 二、爬蟲的基本流程
- - 1.爬蟲的4步
  - 2.Request和Response
- 三、了解Request
- - 1.請求方式
  - 2.請求URL
  - 3.請求頭
  - 4.請求體
  - 5.實操查看Request
- 四、了解Response
- - 1.回應狀態
  - 2.回應頭
  - 3.回應體
- 五、爬蟲能獲取到什么樣的資料？
- 六、如何決議資料？
- 七、怎么保存資料？

一、認識爬蟲

1.什么是爬蟲？

用一句話來給大家介紹大名鼎鼎的爬蟲：請求網站并提取資料的自動化程式，

我們來拆開理解一下爬蟲:

請求網站的意思就是向網站發送請求，比如去百度搜索關鍵字“Python”，這個時候我們的瀏覽器就會向網站發送請求；

提取資料，資料包括了圖片、文字、視頻等等，都叫資料，在我們發送請求之后，網站會呈現搜索結果給我們，這其實就是回傳了資料，這時候我們就可以對資料進行提取；

自動化程式，也就是我們寫的代碼，實作了自動提取程資料，比如批量對回傳的圖片進行下載和保存，替代我們一張一張圖片進行手工操作，

在這里插入圖片描述

2.爬蟲的分類

根據使用場景，爬蟲可以分為三類：

①通用爬蟲（大而全）
功能強大，采集面廣泛，通常用于搜索引擎，比如百度瀏覽器就是一個很大的爬蟲程式，

②聚焦爬蟲（小而精）
功能相對單一，只針對特定網站的特定內容進行爬取，比如說去某個網站批量獲取某些資料，這也是我們個人最常用的一種爬蟲了，

③增量式爬蟲（只采集更新后的內容）
這其實是聚焦爬蟲的一個迭代爬蟲，它只采集更新后的資料，對老資料是不采集，相當于一直存在并運行，只要有符合要求的資料更新了，就會自動爬取新的資料，

在這里插入圖片描述

3.Robots協議

在爬蟲中有一個叫Robots協議需要注意一下，又稱為“網路爬蟲排除標準”，它的作用就是網站告訴你哪些東西能爬，哪些不能爬，

這個Robots協議去哪看？一般情況下直接在網站首頁網址后面加/robots.txt就能查看，比如百度的Robots協議就在https://www.baidu.com/robots.txt ，可以看到里面有很多網址都規定了不能爬，比如Disallow:/shifen/ 說明當前Disallow:/shifen以及Disallow:/shifen下面的子目錄網頁均不能爬，

在這里插入圖片描述
其實這個Robots協議屬于一個君子協議，對于爬蟲者來說，基本上就是口頭協議，你違反了它你有可能會被追究法律責任，但不違反它，爬蟲將是爬不到什么資料，所以平時雙方都是睜一只閉一眼，不要太囂張就可以了，

在這里插入圖片描述

二、爬蟲的基本流程

1.爬蟲的4步

爬蟲是怎么干活的？爬蟲程式大致上可以分為四步走：

①發起請求
通過HTTP庫向目標站點發起請求，即發送一個Request,請求可以包含額外的headers等資訊，等待服務器回應，

②獲取回應內容
如果服務器能正常回應，會得到一個Response，Response的內容便是所要獲取的頁面內容，型別可能有HTML、Json字串和二進制資料(如圖片視頻)等型別，

③決議內容
得到的內容可能是HTML,可以用正則運算式、網頁決議庫進行決議，可能是Json,可以直接轉為Json物件決議，可能是二進制資料，可以做保存或者進一步的處理，

④保存資料
保存的資料樣式很多，可以保存為文本，也可以保存至資料庫，或者保存為特定格式的檔案，

基本上這就是爬蟲要遵循的四步了，

2.Request和Response

Request和Response是爬蟲中最重要的一部分，Request和Response是什么關系？它們兩的關系如下圖：

在這里插入圖片描述
簡單理解一下，當我們在電腦的瀏覽器上搜索某個東西的時候，比如前面的所說的在百度搜索“Python”，你點擊百度一下，就已經向百度的服務器發送了一個Request請求，Request包含了很多的資訊，比如身份資訊、請求資訊等等，服務器接收請求之后做判斷，然后回傳一個Response給我們的電腦，這其中也包含了很多資訊，比如請求成功與否，比如我們請求的資訊結果（文字、圖片和視頻等等），

這樣講應該很好理解吧？接下來我們再好好去看一下Request和Response，

三、了解Request

Request包含了哪些東西？它主要包含了以下一些東西：

1.請求方式

請求方式可以理解為你跟網站打招呼的方式，你要從網站拿到資料，你就得用正確的方式去跟它打招呼，它才有可能理你，就好比你要別人家借個東西，你得先敲門再說你好，你直接爬窗戶進去這誰瞧見了都得給你攆出去，

在這里插入圖片描述

主要的請求方式有GET和POST，另外還有HEAD/PUT/DELETE/OPTIONS等等其他方式，其中最常用的還是GET這種請求方式，

2.請求URL

什么是URL？URL全稱統一資源定位符，比如一個網頁檔案、圖片、視頻等等都有唯一的URL，在爬蟲中我們可以理解為網址或者鏈接，

3.請求頭

什么是請求頭？英文名Request Headers，通常是指請求時包含的頭部資訊，比如User-Agent、Host、Cookies等等，

這些東西它相當于你向網站發送請求時你的身份資訊，這里面經常需要偽裝一下自己，偽裝成普通用戶，避免你的目標網站識別出來你是爬蟲程式，規避一些反扒問題，順利拿到資料，

4.請求體

官方一點的說辭就是請求時額外攜帶的資料，如表單提交時的表單資料，

怎么理解？就比如說你去你岳父家提親，你不能空著手過去提親對吧？你得帶點東西才像個提親的樣子，你岳父才會把女兒許配給你，這是大家通用的禮數，少不了的，

在這里插入圖片描述

在爬蟲當中怎么理解？比如說在某些頁面你得先登錄了或者你得告訴我你請求什么，比如說你在百度這個網頁中搜索“Python”，那么這個“Python”這個關鍵字就是你要攜帶的請求體，看到了你的請求體，百度才知道你要干什么，

當然了，請求體通常是用在POST這種請求方式里面，在GET請求時我們通常是拼接在URL里面，這里先理解一下就可以了，后續具體爬蟲可以去加深理解，

5.實操查看Request

既然Request的理論我們已經講過了，那么我們就可以去實操看一下Request具體在哪個位置以及包含哪些東西，

以谷歌瀏覽器Chrome為例，我輸入關鍵字“Python”可以搜索出一堆結果，我們來用網頁自帶的控制臺視窗來分析一下我們發出的Request請求，

按住F12或者在網頁空白處右鍵選擇“檢查”，然后可以看到控制臺里面有很多選擇，比如說上面那一欄有一個選單欄，初級爬蟲一般我們就比較常用到的是Elements（元素）和Network（網路），其他的東西暫時用不到，等你學到了高級一點的爬蟲就會用到了，比如JS逆向的時候可能會用到Application這個視窗，后面用到了再了解，

Elements包含了所有的請求結果的每一個元素，比如每一個圖片的源代碼都是有的，尤其是當你點了左上角的小箭頭之后，你移動到的每一個地方在Elements視窗下都會顯示對于的源代碼，

在這里插入圖片描述