本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理，

以下文章來源于CSDN，作者：TRHX ? 鮑勃

剛接觸Python的新手、小白，可以復制下面的鏈接去免費觀看Python的基礎入門教學視頻

https://v.douyu.com/author/y6AZ4jn9jwKW

【1】加密字體攻克思路

F12 打開除錯模板，通過頁面分析，可以觀察到，網站里面凡是涉及到有數字的地方，都是顯示為亂碼，這種情況就是字體加密了，那么是通過什么手段實作字體加密的呢？

CSS 中有一個 @font-face 規則，它允許為網頁指定在線字體，也就是說可以引入自定義字體，這個規則本意是用來消除對電腦字體的依賴，現在不少網站也利用這個規則來實作反爬

右側可以看到網站用的字體，其他的都是常見的微軟雅黑，宋體等，但是有一個特殊的：fangchan-secret ，不難看出這應該就是58同城的自定義字體了

我們通過控制臺看到的亂碼事實上是由于 unicode 編碼導致，查看網頁源代碼，我們才能看到他真正的編碼資訊

要攻克加密字體，那么我們肯定要分析他的字體檔案了，先想辦法得到他的加密字體檔案，同樣查看源代碼，在源代碼中搜索 fangchan-secret 的字體資訊

選中的藍色部分就是 base64 編碼的加密字體字串了，我們將其解碼成二進制編碼，寫進 .woff 的字體檔案，這個程序可以通過以下代碼實作：

import requests
import base64

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

url = 'https://wh.58.com/chuzu/'

response = requests.get(url=url, headers=headers)
# 匹配 base64 編碼的加密字體字串
base64_string = response.text.split("base64,")[1].split("'")[0].strip()
# 將 base64 編碼的字體字串解碼成二進制編碼
bin_data =https://www.cnblogs.com/hhh188764/archive/2020/12/03/ base64.decodebytes(base64_string.encode())
# 保存為字體檔案
with open('58font.woff', 'wb') as f:
    f.write(bin_data)

得到字體檔案后，我們可以通過 FontCreator 這個軟體來看看字體對應的編碼是什么：

觀察我們在網頁源代碼中看到的編碼：類似于龤、龒

對比字體檔案對應的編碼：類似于 uni9FA4、nui9F92

可以看到除了前面三個字符不一樣以外，后面的字符都是一樣的，只不過英文大小寫有所差異

現在我們可能會想到，直接把編碼替換成對應的數字不就OK了？然而并沒有這么簡單

嘗試重繪一下網頁，可以觀察到 base64 編碼的加密字體字串會改變，也就是說編碼和數字并不是一一對應的，再次獲取幾個字體檔案，通過對比就可以看出來

可以看到，雖然每次數字對應的編碼都不一樣，但是編碼總是這10個，是不變的，那么編碼與數字之間肯定存在某種對應關系，，我們可以將字體檔案轉換為 xml 檔案來觀察其中的對應關系，改進原來的代碼即可實作轉換功能：

import requests
import base64
from fontTools.ttLib import TTFont

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}

url = 'https://wh.58.com/chuzu/'

response = requests.get(url=url, headers=headers)
# 匹配 base64 編碼的加密字體字串
base64_string = response.text.split("base64,")[1].split("'")[0].strip()
# 將 base64 編碼的字體字串解碼成二進制編碼
bin_data =https://www.cnblogs.com/hhh188764/archive/2020/12/03/ base64.decodebytes(base64_string.encode())
# 保存為字體檔案
with open('58font.woff', 'wb') as f:
    f.write(bin_data)
# 獲取字體檔案，將其轉換為xml檔案
font = TTFont('58font.woff')
font.saveXML('58font.xml')

打開 58font.xml 檔案并分析，在<cmap>標簽內可以看到熟悉的類似于 0x9476、0x958f 的編碼，其后四位字符恰好是網頁字體的加密編碼，可以看到每一個編碼后面都對應了一個 glyph 開頭的編碼

將其與 58font.woff 檔案對比，可以看到 code 為 0x958f 這個編碼對應的是數字 3，對應的 name 編碼是 glyph00004

我們再次獲取一個字體檔案作為對比分析

依然是 0x958f 這個編碼，兩次對應的 name 分別是 glyph00004 和 glyph00007，兩次對應的數字分別是 3 和 6，那么結論就來了，每次發送請求，code 對應的 name 會隨機發生變化，而 name 對應的數字不會發生變化，glyph00001 對應數字 0、glyph00002 對應數字 1，以此類推

那么以 glyph 開頭的編碼是如何對應相應的數字的呢？在 xml 檔案里面，每個編碼都有一個 TTGlyph 的標簽，標簽里面是一行一行的類似于 x,y 坐標的東西，這個其實就是用來繪制字體的，用 matplotlib 根據坐標畫個圖，就可以看到是一個數字

此時，我們就知道了編碼與數字的對應關系，下一步，我們可以查找 xml 檔案里，編碼對應的 name 的值，也就是以 glyph 開頭的編碼，然后回傳其對應的數字，再替換掉網頁源代碼里的編碼，就能成功獲取到我們需要的資訊了！

總結一下攻克加密字體的大致思路：

分析網頁，找到對應的加密字體檔案
如果參考的加密字體是一個 base64 編碼的字串，則需要轉換成二進制并保存到 woff 字體檔案中
將字體檔案轉換成 xml 檔案
用 FontCreator 軟體觀察字體檔案，結合 xml 檔案，分析其編碼與真實字體的關系
搞清楚編碼與字體的關系后，想辦法將編碼替換成正常字體

【2】思維導圖

【3】加密字體處理模塊

【3.1】獲取字體檔案并轉換為xml檔案

def get_font(page_url, page_num):
    response = requests.get(url=page_url, headers=headers)
    # 匹配 base64 編碼的加密字體字串
    base64_string = response.text.split("base64,")[1].split("'")[0].strip()
    # print(base64_string)
    # 將 base64 編碼的字體字串解碼成二進制編碼
    bin_data =https://www.cnblogs.com/hhh188764/archive/2020/12/03/ base64.decodebytes(base64_string.encode())
    # 保存為字體檔案
    with open('58font.woff', 'wb') as f:
        f.write(bin_data)
    print('第' + str(page_num) + '次訪問網頁，字體檔案保存成功！')
    # 獲取字體檔案，將其轉換為xml檔案
    font = TTFont('58font.woff')
    font.saveXML('58font.xml')
    print('已成功將字體檔案轉換為xml檔案！')
    return response.text

由主函式傳入要發送請求的 url，利用字串的 split() 方法，匹配 base64 編碼的加密字體字串，利用 base64 模塊的 base64.decodebytes() 方法，將 base64 編碼的字體字串解碼成二進制編碼并保存為字體檔案，利用 FontTools 庫，將字體檔案轉換為 xml 檔案

【3.2】將加密字體編碼與真實字體進行匹配

def find_font():
    # 以glyph開頭的編碼對應的數字
    glyph_list = {
        'glyph00001': '0',
        'glyph00002': '1',
        'glyph00003': '2',
        'glyph00004': '3',
        'glyph00005': '4',
        'glyph00006': '5',
        'glyph00007': '6',
        'glyph00008': '7',
        'glyph00009': '8',
        'glyph00010': '9'
    }
    # 十個加密字體編碼
    unicode_list = ['0x9476', '0x958f', '0x993c', '0x9a4b', '0x9e3a', '0x9ea3', '0x9f64', '0x9f92', '0x9fa4', '0x9fa5']
    num_list = []
    # 利用xpath語法匹配xml檔案內容
    font_data = https://www.cnblogs.com/hhh188764/archive/2020/12/03/etree.parse('./58font.xml')
    for unicode in unicode_list:
        # 依次回圈查找xml檔案里code對應的name
        result = font_data.xpath("//cmap//map[@code='{}']/@name".format(unicode))[0]
        # print(result)
        # 回圈字典的key，如果code對應的name與字典的key相同，則得到key對應的value
        for key in glyph_list.keys():
            if key == result:
                num_list.append(glyph_list[key])
    print('已成功找到編碼所對應的數字！')
    # print(num_list)
    # 回傳value串列
    return num_list

由前面的分析，我們知道 name 的值（即以 glyph 開頭的編碼）對應的數字是固定的，glyph00001 對應數字 0、glyph00002 對應數字 1，以此類推，所以可以將其構造成為一個字典 glyph_list

同樣將十個 code（即類似于 0x9476 的加密字體編碼）構造成一個串列

回圈查找這十個 code 在 xml 檔案里對應的 name 的值，然后將 name 的值與字典檔案的 key 值進行對比，如果兩者值相同，則獲取這個 key 的 value 值，最終得到的串列 num_list，里面的元素就是 unicode_list 串列里面每個加密字體的真實值

【3.3】替換掉網頁中所有的加密字體編碼

def replace_font(num, page_response):
    # 9476 958F 993C 9A4B 9E3A 9EA3 9F64 9F92 9FA4 9FA5
    result = page_response.replace('鑶', num[0]).replace('閏', num[1]).replace('餼', num[2]).replace('驋', num[3]).replace('鵂', num[4]).replace('麣', num[5]).replace('齤', num[6]).replace('龒', num[7]).replace('龤', num[8]).replace('龥', num[9])
    print('已成功將所有加密字體替換！')
    return result

傳入由上一步 find_font() 函式得到的真實字體的串列，利用 replace() 方法，依次將十個加密字體編碼替換掉

【4】租房資訊提取模塊

def parse_pages(pages):
    num = 0
    soup = BeautifulSoup(pages, 'lxml')
    # 查找到包含所有租房的li標簽
    all_house = soup.find_all('li', class_='house-cell')
    for house in all_house:
        # 標題
        title = house.find('a', class_='strongbox').text.strip()
        # print(title)

        # 價格
        price = house.find('div', class_='money').text.strip()
        # print(price)

        # 戶型和面積
        layout = house.find('p', class_='room').text.replace(' ', '')
        # print(layout)

        # 樓盤和地址
        address = house.find('p', class_='infor').text.replace(' ', '').replace('\n', '')
        # print(address)

        # 如果存在經紀人
        if house.find('div', class_='jjr'):
            agent = house.find('div', class_='jjr').text.replace(' ', '').replace('\n', '')
        # 如果存在品牌公寓
        elif house.find('p', class_='gongyu'):
            agent = house.find('p', class_='gongyu').text.replace(' ', '').replace('\n', '')
        # 如果存在個人房源
        else:
            agent = house.find('p', class_='geren').text.replace(' ', '').replace('\n', '')
        # print(agent)

        data = [title, price, layout, address, agent]
        save_to_mysql(data)
        num += 1
        print('第' + str(num) + '條資料爬取完畢，暫停3秒！')
        time.sleep(3)

利用 BeautifulSoup 決議庫很容易提取到相關資訊，這里要注意的是，租房資訊來源分為三種：經紀人、品牌公寓和個人房源，這三個的元素節點也不一樣，因此匹配的時候要注意

【5】MySQL資料儲存模塊

【5.1】創建MySQL資料庫的表

def create_mysql_table():
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'CREATE TABLE IF NOT EXISTS 58tc_data (title VARCHAR(255) NOT NULL, price VARCHAR(255) NOT NULL, layout VARCHAR(255) NOT NULL, address VARCHAR(255) NOT NULL, agent VARCHAR(255) NOT NULL)'
    cursor.execute(sql)
    db.close()

首先指定資料庫為 58tc_spiders，需要事先使用 MySQL 陳述句創建，也可以通過 MySQL Workbench 手動創建

然后使用 SQL 陳述句創建一個表：58tc_data，表中包含 title、price、layout、address、agent 五個欄位，型別都為 varchar

此創建表的操作也可以事先手動創建，手動創建后就不需要此函式了

【5.2】將資料儲存到MySQL資料庫

def save_to_mysql(data):
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'INSERT INTO 58tc_data(title, price, layout, address, agent) values(%s, %s, %s, %s, %s)'
    try:
        cursor.execute(sql, (data[0], data[1], data[2], data[3], data[4]))
        db.commit()
    except:
        db.rollback()
    db.close()

commit() 方法的作用是實作資料插入，是真正將陳述句提交到資料庫執行的方法，使用 try except 陳述句實作例外處理，如果執行失敗，則呼叫 rollback() 方法執行資料回滾，保證原資料不被破壞

【6】完整代碼

import requests
import time
import random
import base64
import pymysql
from lxml import etree
from bs4 import BeautifulSoup
from fontTools.ttLib import TTFont

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'
}


# 獲取字體檔案并轉換為xml檔案
def get_font(page_url, page_num):
    response = requests.get(url=page_url, headers=headers)
    # 匹配 base64 編碼的加密字體字串
    base64_string = response.text.split("base64,")[1].split("'")[0].strip()
    # print(base64_string)
    # 將 base64 編碼的字體字串解碼成二進制編碼
    bin_data =https://www.cnblogs.com/hhh188764/archive/2020/12/03/ base64.decodebytes(base64_string.encode())
    # 保存為字體檔案
    with open('58font.woff', 'wb') as f:
        f.write(bin_data)
    print('第' + str(page_num) + '次訪問網頁，字體檔案保存成功！')
    # 獲取字體檔案，將其轉換為xml檔案
    font = TTFont('58font.woff')
    font.saveXML('58font.xml')
    print('已成功將字體檔案轉換為xml檔案！')
    return response.text


# 將加密字體編碼與真實字體進行匹配
def find_font():
    # 以glyph開頭的編碼對應的數字
    glyph_list = {
        'glyph00001': '0',
        'glyph00002': '1',
        'glyph00003': '2',
        'glyph00004': '3',
        'glyph00005': '4',
        'glyph00006': '5',
        'glyph00007': '6',
        'glyph00008': '7',
        'glyph00009': '8',
        'glyph00010': '9'
    }
    # 十個加密字體編碼
    unicode_list = ['0x9476', '0x958f', '0x993c', '0x9a4b', '0x9e3a', '0x9ea3', '0x9f64', '0x9f92', '0x9fa4', '0x9fa5']
    num_list = []
    # 利用xpath語法匹配xml檔案內容
    font_data = https://www.cnblogs.com/hhh188764/archive/2020/12/03/etree.parse('./58font.xml')
    for unicode in unicode_list:
        # 依次回圈查找xml檔案里code對應的name
        result = font_data.xpath("//cmap//map[@code='{}']/@name".format(unicode))[0]
        # print(result)
        # 回圈字典的key，如果code對應的name與字典的key相同，則得到key對應的value
        for key in glyph_list.keys():
            if key == result:
                num_list.append(glyph_list[key])
    print('已成功找到編碼所對應的數字！')
    # print(num_list)
    # 回傳value串列
    return num_list


# 替換掉網頁中所有的加密字體編碼
def replace_font(num, page_response):
    # 9476 958F 993C 9A4B 9E3A 9EA3 9F64 9F92 9FA4 9FA5
    result = page_response.replace('鑶', num[0]).replace('閏', num[1]).replace('餼', num[2]).replace('驋', num[3]).replace('鵂', num[4]).replace('麣', num[5]).replace('齤', num[6]).replace('龒', num[7]).replace('龤', num[8]).replace('龥', num[9])
    print('已成功將所有加密字體替換！')
    return result


# 提取租房資訊
def parse_pages(pages):
    num = 0
    soup = BeautifulSoup(pages, 'lxml')
    # 查找到包含所有租房的li標簽
    all_house = soup.find_all('li', class_='house-cell')
    for house in all_house:
        # 標題
        title = house.find('a', class_='strongbox').text.strip()
        # print(title)

        # 價格
        price = house.find('div', class_='money').text.strip()
        # print(price)

        # 戶型和面積
        layout = house.find('p', class_='room').text.replace(' ', '')
        # print(layout)

        # 樓盤和地址
        address = house.find('p', class_='infor').text.replace(' ', '').replace('\n', '')
        # print(address)

        # 如果存在經紀人
        if house.find('div', class_='jjr'):
            agent = house.find('div', class_='jjr').text.replace(' ', '').replace('\n', '')
        # 如果存在品牌公寓
        elif house.find('p', class_='gongyu'):
            agent = house.find('p', class_='gongyu').text.replace(' ', '').replace('\n', '')
        # 如果存在個人房源
        else:
            agent = house.find('p', class_='geren').text.replace(' ', '').replace('\n', '')
        # print(agent)

        data = [title, price, layout, address, agent]
        save_to_mysql(data)
        num += 1
        print('第' + str(num) + '條資料爬取完畢，暫停3秒！')
        time.sleep(3)


# 創建MySQL資料庫的表：58tc_data
def create_mysql_table():
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'CREATE TABLE IF NOT EXISTS 58tc_data (title VARCHAR(255) NOT NULL, price VARCHAR(255) NOT NULL, layout VARCHAR(255) NOT NULL, address VARCHAR(255) NOT NULL, agent VARCHAR(255) NOT NULL)'
    cursor.execute(sql)
    db.close()


# 將資料儲存到MySQL資料庫
def save_to_mysql(data):
    db = pymysql.connect(host='localhost', user='root', password='000000', port=3306, db='58tc_spiders')
    cursor = db.cursor()
    sql = 'INSERT INTO 58tc_data(title, price, layout, address, agent) values(%s, %s, %s, %s, %s)'
    try:
        cursor.execute(sql, (data[0], data[1], data[2], data[3], data[4]))
        db.commit()
    except:
        db.rollback()
    db.close()


if __name__ == '__main__':
    create_mysql_table()
    print('MySQL表58tc_data創建成功！')
    for i in range(1, 71):
        url = 'https://wh.58.com/chuzu/pn' + str(i) + '/'
        response = get_font(url, i)
        num_list = find_font()
        pro_pages = replace_font(num_list, response)
        parse_pages(pro_pages)
        print('第' + str(i) + '頁資料爬取完畢！')
        time.sleep(random.randint(3, 60))
    print('所有資料爬取完畢！')

【7】資料截圖

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/229691.html

標籤：其他

上一篇：IndentationError: unindent does not match any outer indentation level

下一篇：Python爬取世紀佳緣的資料，是否能證明它的不靠譜？

Python爬取58同城租房資料，破解字體加密