寫在前面
JS斷點
JS防Selenium
auth系統、session加密
request 請求甄別
介面加密
JS 混淆
redis 訪問頻率
字體反爬

寫在前面

前段時間想著做一個關于反爬的小活動，目前已經做完了，整理了用到的一些反爬，本文所述代碼均已上傳至 github https://github.com/yejue/thegame2

JS斷點

JS斷點是一個用于debugger的斷點陳述句，在全域設定無限的斷點，在爬蟲嘗試打開開發者工具查看前端原始碼的時候激活，使得前端頁面暫停，有一定的阻擋效果，

使用方法：

// 在全域JS中設定周期回圈呼叫 debugger
setInterval(function(){debugger}, 1000);

解決方法：

點擊如圖所示 Deactivate breakpoints 或者快捷鍵 Ctrl + F8 取消斷點，再次點擊運行按鈕即可，

在這里插入圖片描述

JS防Selenium

window物件對應著整一個打開的視窗，也可以說是當前的瀏覽器整體，搞清楚標簽頁就大概清楚了，可以在控制臺中列印window物件，將selenium與正常瀏覽器做對比，尋找到差異，比較靠譜的差異是在 navigator中的webdriver，凡是selenium這個屬性值都為true，正常的則 undefined，
在這里插入圖片描述
使用方法：頁面加載時對該屬性進行判斷，再決定做什么動作，

解決方法：這是一個舊版的基于開發這模式的解決方式，options = webdriver.ChromeOptions() …應該是沒效了，此處分享一個新的解決博文，https://www.cnblogs.com/presleyren/p/12936553.html

auth系統、session加密

這是基本操作，沒多大反爬意圖，

auth系統是django自帶的一個身份認證系統，使用其中的登錄認證裝飾器來便捷確保需要登錄才能看到核心頁面，

from django.contrib.auth.decorators import login_required
from django.utils.decorators import method_decorator

@method_decorator(login_required, name='get')
class SpiderDataListView(View):
	pass

session加點密，只需要在settings更換session引擎即可，多多少少影響觀感，

SESSION_ENGINE = 'django.contrib.sessions.backends.signed_cookies'

request 請求甄別

一個request請求中有這些東西，其中需要關注的是 META 和 headers，

```

META包含了headers，是完整的請求資訊，分別使用瀏覽器和爬蟲訪問，將取得的請求資訊放到notepad++ 中做個對比，會發現請求上的不一樣，但實際上META中有差異的部分基本上來自于其中的headers，所以在使用時建議使用headers進行鑒別會更加簡潔明了，以下是最時常有差異的幾個請求鍵

User-Agent, Accept, Accept-Language, Referer

使用方法：

UserAgent: 判斷 python、curl、java、w3m等關鍵字是否在里面，是則 do something…
Accept: 一開始只有你和請求知道會接收什么東西，譬如 text/html,application/xhtml+xml,
application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Language: 爬蟲默認是不指定語言的
Referer: 描述來自于哪一頁，非期待的頁面則 do someting …

解決辦法：復制一個正常訪問的headers 基本可以解決，若不能再查找遺漏，

介面加密

保護介面，回傳一個解密過的字串，例如簡單的使用 ord 對 unicode 值做偏移，加減乘除，一次函式，二次函式等等… … 使用后回傳到前端的數值由 JS 來反向解密，

使用方法：

一個對 unicode 值 +2 的小例子

def hanshu(s: str):
    return ''.join([chr(i2) for i2 in [ord(i)+2 for i in s]])

string1 = 'xx'			// 一個接收到的加密字串
string = ''  			// 一個空的字串
for(let i=0;i<string1.length;i++){
    string2 += String.fromCharCode(string1.charAt(i).charCodeAt()-2);
}

解決方法：找規律，或者看 JS 原始碼

JS 混淆

像上面那個情況，為了不被別人很簡單的發現規律，對JS進行混淆壓縮，變得很難看，

使用方法：站長工具有一個混淆壓縮工具，混淆即可
解決方法：同樣的復制混淆過的到工具中，解密即可

redis 訪問頻率

redis是一個運行在記憶體的nosql資料庫，使用redis比一般資料庫快特別多，傳輸延遲可以忽略不計，實時記錄訪問頻率是不錯的選擇，

使用方法：

1 在caches中設定需要使用的庫名和別名

CACHES = {
    'request_interval': {
        'BACKEND': 'django_redis.cache.RedisCache',
        'LOCATION': [
            'redis://127.0.0.1:6379/3'
        ],
        'option': {
            'CLIENT_CLASS': 'django_redis.client.DefaultClient'
        }
    }
}

2 每一個訪問使用一個標志記錄在redis中，可以使用用戶 ip (在META中取得)

from django_redis import get_redis_connection

# 連接
redis_conn = get_redis_connection(alias='request_interval')
req_flag_key = 'req_flag_{}'.format(ip)
# 讓管道通知redis
pl = redis_conn.pipeline()
# 設定生存時間與value 2s，默認值為 1
pl.setex(req_flag_key, 2, 1)

3 在請求進來時判斷 req_flag_key 是否存在，是則 do something

redis_conn = get_redis_connection(alias='request_interval')
if redis_conn.get('req_flag_{}'.format(ip)):
	do something ...
    return HttpResponse('', status=418)

字體反爬

在網站中，我們只需要保證正常人看到的資訊是正常的即可，所以在保證前端顯示一致的情況下，原始碼可以是任何東西，字體反爬即是如此，前端顯示的是一回事，原始碼顯示的又是另一回事，
在這里插入圖片描述
使用方法：

1 下載一個字體編輯工具，例如 FontCreator
2 打開一個字體，使用其他的圖片代替關鍵的字，可以復制其他字形到覆寫上去，如下圖是將！覆寫到了3、4、5、6 的位置，那么在前端中，這幾個數字將顯示為！
在這里插入圖片描述
3 前端參考字體，至于要怎么樣隨機字體，就看個人需求了，

@font-face {
    font-family: 'Arial g';
    src: url("{% static 'fonts/arial.ttf' %}");
}

xxx {font-family: 'Arial g'}

解決方法：查看對應的字體，下載，同樣使用字體編輯工具打開，找到對應 unicode 值的真實值即可，

我是庸了個白，你的點贊將是我更新的最大動力

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/152804.html

標籤：其他

上一篇：dom模型介紹

下一篇：七天學會JavaScript~Day1

django 反爬實踐與反反爬攻略，request甄別、介面加密、redis限頻、字體反爬 ... ...

寫在前面

JS斷點

JS防Selenium

auth系統、session加密

request 請求甄別

介面加密

JS 混淆

redis 訪問頻率

字體反爬