一、requests庫的安裝
二、requests庫的七個主要方法及簡單使用
三、requests庫的兩個重要物件
四、requests庫的例外(Exception)
五、HTTP協議
六、爬取網頁通用代碼框架
七、網路爬蟲的限制

一、requests庫的安裝

Win平臺: win+R運行 cmd，執行

pip install requests

官方檔案：https://docs.python-requests.org/zh_CN/latest/
我的是已經安裝好的
在這里插入圖片描述
安裝成功后測驗一下

import requests
r = requests.get("http://www.baidu.com")
print(r.text)

在這里插入圖片描述

二、requests庫的七個主要方法及簡單使用

（1）七個方法

方法	說明
requests.request()	構造一個請求，支撐以下各方法的基礎方法
requests.get()	獲取HTML網頁的主要方法，對應于HTTP的GET
requests.head()	獲取HTML網頁頭資訊的方法，對應于HTTP的HEAD
requests.post()	向HTML網頁提交POST請求的方法，對應于HTTP的POST
requests.put()	向HTML網頁提交PUT請求的方法，對應于HTTP的PUT
requests.patch()	向HTML網頁提交區域修改請求，對應于HTTP的PATCH
requests.delete()	向HTML頁面提交洗掉請求，對應于HTTP的DELETE

一般最常用到的方法是request(),get(),post()方法

（2）簡單使用

1.request()方法

r = requests.request(method, url, **kwargs)  # 構造一個請求，支撐以下各方法的基礎方法

method : 請求方式，對應get/put/post等7種
url : 擬獲取頁面的url鏈接
**kwargs: 控制訪問的引數，共13個
- method : 請求方式
  r = requests.request('GET', url, **kwargs)
  r = requests.request('HEAD', url, **kwargs)
  r = requests.request('POST', url, **kwargs)
  r = requests.request('PUT', url, **kwargs)
  r = requests.request('PATCH', url, **kwargs)
  r = requests.request('delete', url, **kwargs)
  r = requests.request('OPTIONS', url, **kwargs)
params : 字典或位元組序列，作為引數增加到url中

訪問控制引數，也就是第三個引數 kwargs 示例

import requests
kv1 = {'key1': 'value1', 'key2': 'value2'}
rs1 = requests.request('GET', 'http://python123.io/ws',params = kv1)
print(rs1.text)
rs2 = requests.request('POST', 'http://python123.io/ws',data = https://www.cnblogs.com/lang12/archive/2021/10/07/kv1)
print(rs2.text)
kv2 = {'key1': 'value1'}
rs3 = requests.request('POST', 'http://python123.io/ws', json=kv2)
print(rs3.text)
hd = {'user‐agent': 'Chrome/10'}
rs4 = requests.request('POST', 'http://python123.io/ws', headers=hd)
rs5 = requests.request('post','',cookies = '字典或cookieJar')
rs6 = requests.request('post','',auth = '元組')
fs = {'file':open('data.xls','rd')}
rs7= requests.request('POST','',files = fs) # 傳輸檔案
rs8 = requests.request('GET','http://www.baidu.com',timeout = 10)
pxs = { 'http': 'http://user:[email protected]:1234','https': 'https://10.10.10.1:4321' }
rs9 = requests.request('GET','http://www.baidu.com',proxies = pxs)  # proxies 字典型別，設定訪問代理服務器

引數	說明
files	字典型別，傳輸檔案
timeout	設定超時時間，秒為單位
proxies	字典型別，設定訪問代理服務器，可以增加登錄認證
allow_redirects	True/False，默認為True，重定向開關
stream	True/False，默認為True，獲取內容立即下載開關
verify	True/False，默認為True，認證SSL證書開關
cert	本地SSL證書路徑

2. get()方法

r = requests.get(url, params = None, **kwargs)

r = requests.get(url) # 獲取HTML網頁的主要方法，對應于HTTP的GET
r = requests.delete(url)
print(r.url)

引數	說明
url	擬獲取頁面的url鏈接
params	url 中的額外引數，字典或位元組流格式，可選
**kwargs	12個控制訪問引數

3.head()方法

r = requests.head('http://httpbin.org/get')     # 獲取HTML網頁頭資訊的方法，對應于HTTP的HEAD
print(r.headers)

4.post()方法

r = requests.post(url, data=https://www.cnblogs.com/lang12/archive/2021/10/07/None, json=None, **kwargs)

引數	說明
url	擬更新頁面的url鏈接
data	字典、位元組序列或檔案，Request的內容
json	JSON格式的資料，Request的內容

示例

payload = {'key1':'value1','key2':'value2'}
r = requests.post('http://httpbin.org/post',data=https://www.cnblogs.com/lang12/archive/2021/10/07/payload) # 向HTML網頁提交POST請求的方法，對應于HTTP的POST
r = requests.post('http://httpbin.org/post',data='https://www.cnblogs.com/lang12/archive/2021/10/07/abc')
print(r4.text)

5.put()方法

r = requests.put(url, data=https://www.cnblogs.com/lang12/archive/2021/10/07/None, **kwargs)

r = requests.put('http://httpbin.org/put',data=https://www.cnblogs.com/lang12/archive/2021/10/07/payload) # 向HTML網頁提`交PUT請求的方法，對應于HTTP的PUT
print(r.text)

6.patch()方法

r = requests.patch(url) # 向HTML網頁提交區域修改請求，對應于HTTP`的PATCH

7.delete()方法

r = requests.delete(url, **kwargs)

r = requests.delete(url)   # 向HTML頁面提交洗掉請求，對應于HTTP的DELETE

url : 擬洗掉頁面的url鏈接

三、requests庫的兩個重要物件

Response和Request

（1）Request

r == response 回傳一個包含服務器資源的response物件
request 構造一個向服務器請求資源的request物件
從請求到回應的程序

（2）Response物件

Response物件包含服務器回傳的所有資訊，也包含請求的Request資訊

屬性	說明
r.status_code	HTTP請求的回傳狀態，200表示連接成功，404表示失敗
r.text	HTTP回應內容的字串形式，即，url對應的頁面內容
r.encoding	從HTTP header中猜測的回應內容編碼方式
r.apparent_encoding	從內容中分析出的回應內容編碼方式（備選編碼方式）
r.content	HTTP回應內容的二進制形式

在這里插入圖片描述
有時候列印出來的網頁內容是亂碼，就像下面這樣

所以需要理解Response的編碼

r.encoding	從HTTP header中猜測的回應內容編碼方式
r.apparent_encoding	從內容中分析出的回應內容編碼方式（備選編碼方式）

1）r.encoding：如果header中不存在charset，則認為編碼為ISO‐8859‐1
2）r.text根據r.encoding顯示網頁內容
3）r.apparent_encoding：根據網頁內容分析出的編碼方式，可以看作是 r.encoding的備選

當我們把編碼方式改變后列印出來的內容為
有以下l兩種方式

r.encoding = 'utf-8'   #直接改變編碼
r.encoding = r.apparent_encoding  #用r.encoding的備選

在這里插入圖片描述

四、requests庫的例外(Exception)

網路連接有風險，例外處理很重要
(1) Requests例外

例外	說明
requests.ConnectionError	網路連接錯誤例外，如DNS查詢失敗、拒絕連接等
requests.HTTPError	HTTP錯誤例外
requests.URLRequired	URL缺失例外
requests.TooManyRedirects	超過最大重定向次數，產生重定向例外
requests.ConnectTimeout	連接遠程服務器超時例外
requests.Timeout	請求URL超時，產生超時例外

（2）Response例外

r.raise_for_status()	如果不是200，產生例外 requests.HTTPError

r.raise_for_status()在方法內部判斷r.status_code是否等于200，不需要
增加額外的if陳述句，該陳述句便于利用try‐except進行例外處理

五、HTTP協議

（1）HTTP是一個基于“請求與回應”模式的、無狀態的應用層協議

HTTP協議采用URL作為定位網路資源的標識，URL格式如下：
- http://host[:port][path]
- host: 合法的Internet主機域名或IP地址
- port: 埠號，預設埠為80
- path: 請求資源的路徑

URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個資料資源

（2）HTTP 對資源的操作
在這里插入圖片描述
通過URL和命令管理資源，操作獨立無狀態，網路通道及服務器成為了黑盒子

六、爬取網頁通用代碼框架

import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()  # 如果狀態不是200，引發HTTPError例外
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return '產生例外'

if __name__ == '__main__':
    url = input('請輸入url地址:')
    print(getHTMLText(url))

在這里插入圖片描述

七、網路爬蟲的限制

Robots協議

Robots(Robots Exclusion Standard)，網路爬蟲排除標準
作用：網站告知網路爬蟲哪些頁面可以抓取，哪些不行，
形式：在網站根目錄下的robots.txt檔案
案例
https://www.jd.com/robots.txt
http://www.baidu.com/robots.txt
http://www.qq.com/robots.txt
http://news.qq.com/robots.txt

#注釋，代表所有，/代表根目錄*

Robots協議的使用

網路爬蟲：自動或人工識別robots.txt，再進行內容爬取
約束性：Robots協議是建議但非約束性，網路爬蟲可以不遵守，但存在法律風險

小提示：
爬蟲作為一種計算機技術決定了它的中立性，爬蟲本身在法律上并不被禁止，如果爬蟲采集的是公開的資料則是可以的，當然操作不當，就可能涉及違法甚至是犯罪的風險，所以要合理使用，規范爬取，

本文來自博客園，作者：Aurora*，轉載請注明原文鏈接：https://www.cnblogs.com/lang12/p/15377703.html

轉載請註明出處，本文鏈接：https://www.uj5u.com/shujuku/308614.html

標籤：其他

上一篇：MySQL45講之保證高可用

下一篇：🤺全套MySQL資料庫教程_Mysql基礎入門教程，零基礎小白自學MySQL資料庫必備教程👾#001 # 第一單元資料庫概述 #

初識爬蟲

一、requests庫的安裝

二、requests庫的七個主要方法及簡單使用

三、requests庫的兩個重要物件

四、requests庫的例外(Exception)

五、HTTP協議

六、爬取網頁通用代碼框架

七、網路爬蟲的限制