玩兒 “爬蟲” 朋友最愛，都2021了，這個Python庫你還不知道嗎？-有解無憂

1.chardet庫的安裝與介紹

玩兒過爬蟲的朋友應該知道，在爬取不同的網頁時，回傳結果會出現亂碼的情況，比如，在爬取某個中文網頁的時候，有的頁面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些頁面，知道網頁編碼很重要的，

雖然HTML頁面有charset標簽，但是有些時候是不對的，那么chardet就能幫我們大忙了，使用 chardet 可以很方便的實作字串/檔案的編碼檢測，

如果你安裝過Anaconda，那么可以直接使用chardet庫，如果你只是安裝了Python的話，就需要使用下面幾行代碼，完成chardet庫的安裝，

pip install chardet

接著，使用下面這行代碼，匯入chardet庫，

import chardet

2.chardet庫的使用

這個小節，我們分3部分講解，

2.1 chardet.detect()函式

detect()函式接受一個引數，一個非unicode字串，它回傳一個字典，其中包含自動檢測到的字符編碼和從0到1的可信度級別，

encoding：表示字符編碼方式，
confidence：表示可信度，
language：語言，

光看這個解釋，大多數朋友可能看不懂，下面我們就用例子來講述這個函式，

2.2 使用該函式分別檢測gbk、utf-8和日語

檢測gbk編碼的中文：

str1 = '大家好，我是黃同學'.encode('gbk')
chardet.detect(str1)

chardet.detect(str1)["encoding"]

結果如下：
在這里插入圖片描述
檢測的編碼是GB2312，注意到GBK是GB2312的父集，兩者是同一種編碼，檢測正確的概率是99%，language欄位指出的語言是’Chinese’，

檢測utf-8編碼的中文：

str2 = '我有一個夢想'.encode('utf-8')
chardet.detect(str2)

chardet.detect(str2)["encoding"]

結果如下：
在這里插入圖片描述
檢測一段日文：

str3 = 'ありがとう'.encode('euc-jp')
chardet.detect(str3)

chardet.detect(str3)

結果如下：
在這里插入圖片描述

2.3 如何在“爬蟲”中使用chardet庫呢？

我們以百度網頁為例子，進行講述，
在這里插入圖片描述
這個網頁的源代碼，使用的是什么編碼呢？我們看看源代碼：

從圖中可以看到，是utf-8字符編碼，

如果不使用chardet庫，獲取網頁源代碼的時候，怎么指定字符編碼呢？

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)
response.encoding = "utf-8"
response.text

結果如下：
在這里插入圖片描述
你會發現：正確指定編碼后，沒有亂碼，如果你將編碼改為gbk，再看看結果，此時已經亂碼，

如果使用chardet庫，獲取網頁源代碼的時候，可以輕松指定字符編碼！

import chardet
import requests

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
response = requests.get('https://www.baidu.com',headers=headers)

# 注意下面這行代碼，是怎么寫的？
response.encoding = chardet.detect(response.content)['encoding']
response.text

結果如下：
在這里插入圖片描述
編碼不用我們自己查找，也不用猜，直接交給chardet庫去猜測，正確率還高，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/281274.html

標籤：python

上一篇：用和學妹聊天的時間學Python高級進階技術——IO操作、行程和執行緒操作【建議收藏】

下一篇：手把手教你爬取清純小姐姐私房照，小孩子寫學