【爬蟲】Web基礎——回應頭、請求頭、http&https、狀態碼（內含相關資源鏈接）-有解無憂

1 爬蟲初步

網路爬蟲（又被稱為網頁蜘蛛，網路機器人）就是模擬客戶端(主要指瀏覽器)發送網路請求，接收請求回應，一種按照一定的規則，自動地抓取互聯網資訊的程式，

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-rdY0yiTe-1627002815762)(https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fimg.kanzhun.com%2Fimages%2Fseo%2Fmianshiti%2F20191125%2F529e60d55907b1fab58010ea8fab7376.jpg&refer=http%3A%2F%2Fimg.kanzhun.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1629592183&t=4456f3af39bbb445ae4ae4e7d21aefac)]

2 請求頭和回應頭

2.1 常見請求頭決議

下面嘗試訪問百度首頁

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jRxbYcUF-1627002815796)(【Python爬蟲】Web基礎.assets/image-20210723083506547.png)]

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-95IkYWAN-1627002815816)(【Python爬蟲】Web基礎.assets/image-20210723083443222.png)]

Host ：用于指定被請求資源的Internet主機和埠號
Connection (連接型別)
- 關閉TCP連接
- 長連接（Keep-alive）,默認情況
Upgrade-Insecure-Requests (升級為HTTPS請求)：下面補充http與https的區別
🌟User-Agent (用戶代理)：標識請求的瀏覽器身份的，網站常用這個引數來分辨爬蟲,詳見相關鏈接
🌟Referer (頁面跳轉處):referer的作用就是記錄你在訪問一個目標網站時，在訪問前你的原網站的地址,詳見相關鏈接
🌟Cookie (Cookie)：

2.2 常見回應頭決議

用瀏覽器訪問百度得到回應頭資訊

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ImONsnF8-1627002815827)(【Python爬蟲】Web基礎.assets/image-20210723090317459.png)]

Content-Type：回應的資訊型別和字符集
Content-Length：回應的內容長度
Connection：和Request中回應頭資訊的Connection是一樣
Date（標識回應產生的時間）
🌟Set-Cookie：對方服務器設定cookie到用戶瀏覽器的快取

1 常見狀態碼（Status Code）

200：成功
302：跳轉，新的url在回應的Location頭中給出
303：瀏覽器對于POST的回應進行重定向至新的url
307：瀏覽器對于GET的回應重定向至新的url
403：資源不可用；服務器理解客戶的請求，但拒絕處理它（沒有權限）
404：找不到該頁面
500：服務器內部錯誤
503：服務器由于維護或者負載過重未能應答，在回應中可能可能會攜帶Retry-After回應頭；有可能是因為爬蟲頻繁訪問url，使服務器忽視爬蟲的請求，最侄訓傳503回應狀態碼

2 http與https的區別

HTTP：超文本傳輸協議，默認埠號是80
- 超文本：是指超過文本，不僅限于文本；還包括圖片、音頻、視頻等檔案
- 傳輸協議：是指使用共用約定的固定格式來傳遞轉換成字串的超文本內容
HTTPS：HTTP + SSL(安全套接字層)，即帶有安全套接字層的超本文傳輸協，默認埠號：443
- SSL對傳輸的內容（超文本，也就是請求體或回應體）進行加密

相關鏈接：

1.http報文詳解 - klguang - 博客園 (cnblogs.com)

2. Python爬蟲——Web基礎_u010651137的博客-CSDN博客

3. 爬蟲中的User-Agent和IP代理_南方有喬木的博客-CSDN博客

4. 爬蟲反爬-關于headers（UA、referer、cookies）的一些有趣反爬_hu77700021的博客-CSDN博客

5. 關于網頁referer以及破解referer反爬蟲的辦法_python_neophyte的博客-CSDN博客

6. python爬蟲使用Cookie的兩種方法_寫IT博客的我，讀math博客的你-CSDN博客_爬蟲cookie

7. 看完這篇 Session、Cookie、Token，和面試官扯皮就沒問題了_程式員cxuan的個人主頁-CSDN博客

8. 會話技術之Cookie詳解_丹丹的后花園-CSDN博客

9. Python 爬蟲 Request(請求頭)和Response(回應頭)的內容詳解【爬蟲資料二】_二十四橋明月夜-CSDN博客_python response回應頭

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/289869.html

標籤：python

上一篇：Python環境配置教程（超詳細）

下一篇：時隔3年，攝影網站依舊可用，果然靠譜，Python爬蟲100例，第2篇復盤文章