本文分享自天翼云開發者社區《如何有效管理爬蟲流量?》,作者:劉****海
據國際知名金融廣告服務平臺提供商Dianomi的報告《2018 Robot traffic report》的資料,在互聯網上人類流量僅僅占了48.2%,也就是說,一個頁面的10000個點擊里面,大約5100個來自機器人,在航旅票務等行業,熱門資料介面中甚至有超過95% 的流量是來自爬蟲,如何有效管理爬蟲流量,是當下業務安全面臨的問題,
最早“誕生”的好爬蟲
常見的善意Bot有百度爬蟲、谷歌爬蟲、必應爬蟲等搜索引擎類爬蟲,此類爬蟲經常被企業用于提高站點在搜索引擎內的自然排名,使得站點在各大搜索引擎中的排名能夠提高,進一步通過搜索引擎來進行引流為企業增加業務流量,
惡意爬蟲帶來的業務安全風險
大量“變異”的爬蟲很快充斥網路,通過模擬正常用戶活動和行為,大肆進行資料竊取、資源占用、薅羊毛等違法違規操作,導致從資料到業務、金錢,方方面面的安全風險
惡意爬蟲特征
惡意BOT在AI技術的加持下已“進化”成智能化網路機器人給個人用戶、商業平臺帶來巨大危害,它通常有以下幾個“DNA”:
1.高并發
利用云端基礎設施或者IDC機器集群,形成極高的并發訪問能力
2.速度快
可在短時間內形成超量的訪問,在一夜之間薅走百億規模的羊毛
3.全天候
可以7*24*365的作業,秒殺一切996,甚至為了逃避偵測,經常晝伏夜出、凌晨作案
4.自動化
可在完全無人看守和干預的情況下,模擬大部分人類行為并完成惡意任務,從拖庫撞庫、登錄測驗,到圖片驗證碼破解、薅羊毛等所有任務都可以執行
5.智能化
AI技術加持,擁有超高“智慧”
如何有效防護惡意爬蟲
1.威脅情報庫
依托網路安全經驗和大資料情報,精準識別撥號池IP、IDC機房IP、惡意掃描工具IP等多種維度的爬蟲威脅情報規則,方便您在全域名或指定路徑下設定阻斷惡意爬蟲的訪問請求
2.人機互動驗證
用對人類不可見的挑戰機制,在不影響用戶體驗的基礎上,要求客戶端證明其支持存盤 Cookie 和執行 JavaScript,從而識別出爬蟲和正常用戶
3.威脅分析
收集線上日志資料,輸入例外分析檢測模塊中,根據已定規則進行多維度、背景關系分析,輸出例外客戶端資訊,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/555334.html
標籤:其他
上一篇:Apache Spark教程_編程入門自學教程_菜鳥教程-免費教程分享
下一篇:返回列表
