1 爬蟲初步
網路爬蟲(又被稱為網頁蜘蛛,網路機器人)就是模擬客戶端(主要指瀏覽器)發送網路請求,接收請求回應,一種按照一定的規則,自動地抓取互聯網資訊的程式,
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-rdY0yiTe-1627002815762)(https://gimg2.baidu.com/image_search/src=http%3A%2F%2Fimg.kanzhun.com%2Fimages%2Fseo%2Fmianshiti%2F20191125%2F529e60d55907b1fab58010ea8fab7376.jpg&refer=http%3A%2F%2Fimg.kanzhun.com&app=2002&size=f9999,10000&q=a80&n=0&g=0n&fmt=jpeg?sec=1629592183&t=4456f3af39bbb445ae4ae4e7d21aefac)]](https://img.uj5u.com/2021/07/25/249526250749051.png)
2 請求頭和回應頭
2.1 常見請求頭決議
下面嘗試訪問百度首頁
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-jRxbYcUF-1627002815796)(【Python爬蟲】Web基礎.assets/image-20210723083506547.png)]](https://img.uj5u.com/2021/07/25/249526250749052.png)
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-95IkYWAN-1627002815816)(【Python爬蟲】Web基礎.assets/image-20210723083443222.png)]](https://img.uj5u.com/2021/07/25/249526250749053.png)
-
Host :用于指定被請求資源的Internet主機和埠號
-
Connection (連接型別)
- 關閉TCP連接
- 長連接(Keep-alive),默認情況
-
Upgrade-Insecure-Requests (升級為HTTPS請求):下面補充http與https的區別
-
🌟User-Agent (用戶代理):標識請求的瀏覽器身份的,網站常用這個引數來分辨爬蟲,詳見相關鏈接
-
🌟Referer (頁面跳轉處):referer的作用就是記錄你在訪問一個目標網站時,在訪問前你的原網站的地址,詳見相關鏈接
-
🌟Cookie (Cookie):
2.2 常見回應頭決議
用瀏覽器訪問百度得到回應頭資訊
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-ImONsnF8-1627002815827)(【Python爬蟲】Web基礎.assets/image-20210723090317459.png)]](https://img.uj5u.com/2021/07/25/249526250749054.png)
- Content-Type:回應的資訊型別和字符集
- Content-Length:回應的內容長度
- Connection:和Request中回應頭資訊的Connection是一樣
- Date(標識回應產生的時間)
- 🌟Set-Cookie:對方服務器設定cookie到用戶瀏覽器的快取
1 常見狀態碼(Status Code)
- 200:成功
- 302:跳轉,新的url在回應的Location頭中給出
- 303:瀏覽器對于POST的回應進行重定向至新的url
- 307:瀏覽器對于GET的回應重定向至新的url
- 403:資源不可用;服務器理解客戶的請求,但拒絕處理它(沒有權限)
- 404:找不到該頁面
- 500:服務器內部錯誤
- 503:服務器由于維護或者負載過重未能應答,在回應中可能可能會攜帶Retry-After回應頭;有可能是因為爬蟲頻繁訪問url,使服務器忽視爬蟲的請求,最侄訓傳503回應狀態碼
2 http與https的區別
- HTTP:超文本傳輸協議,默認埠號是80
- 超文本:是指超過文本,不僅限于文本;還包括圖片、音頻、視頻等檔案
- 傳輸協議:是指使用共用約定的固定格式來傳遞轉換成字串的超文本內容
- HTTPS:HTTP + SSL(安全套接字層),即帶有安全套接字層的超本文傳輸協,默認埠號:443
- SSL對傳輸的內容(超文本,也就是請求體或回應體)進行加密
相關鏈接:
1.http報文詳解 - klguang - 博客園 (cnblogs.com)
2. Python爬蟲——Web基礎_u010651137的博客-CSDN博客
3. 爬蟲中的User-Agent和IP代理_南方有喬木的博客-CSDN博客
4. 爬蟲反爬-關于headers(UA、referer、cookies)的一些有趣反爬_hu77700021的博客-CSDN博客
5. 關于網頁referer以及破解referer反爬蟲的辦法_python_neophyte的博客-CSDN博客
6. python爬蟲使用Cookie的兩種方法_寫IT博客的我,讀math博客的你-CSDN博客_爬蟲cookie
7. 看完這篇 Session、Cookie、Token,和面試官扯皮就沒問題了_程式員cxuan的個人主頁-CSDN博客
8. 會話技術之Cookie詳解_丹丹的后花園-CSDN博客
9. Python 爬蟲 Request(請求頭)和Response(回應頭)的 內容詳解 【爬蟲資料二】_二十四橋明月夜-CSDN博客_python response回應頭
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/289869.html
標籤:python
