大資料時代下,爬蟲技術逐漸成為一套完整的系統性工程技術,涉及的知識面廣,平臺多,技術越來越多樣化,對抗性也日益顯著,
大家可以參考一下學習路線,看看自己需要對哪些知識進行補充,
爬蟲逆向學習路線
- 學習路線總結
- 系統提高
- 加密演算法特征和實作
- 傳輸協議和通訊協議
- 各種驗證碼識別方法
- 個人匯總專欄
- 爬蟲逆向社區
學習路線總結
基礎學習路線總結:
- 主語言基礎語法
- 常用網路請求庫、決議庫
- 常用抓包工具
- 自動化工具庫
- 流行采集框架
- 多行程、多執行緒、協程、分布式爬蟲
- 采集器管理
Js逆向學習路線總結:
- 瀏覽器構造、基礎語法、作用域
- Bom、Dom屬性和方法
- 除錯工具
- 加密引數定位方法
- 常見混淆和加密
- 瀏覽器環境補充
- AST
小程式逆向學習路線總結:
- 小程式基礎架構
- 小程式語法
- 反編譯工具
- 代碼修復
- hook方法
安卓逆向學習路線:
- 安卓逆向原理
- java、smali、arm語法
- 反編譯工具
- 加密引數定位方法
- 除錯和hook工具
- 反檢測和反除錯
- 加固和脫殼
系統提高
加密演算法特征和實作
需要掌握常見加密演算法,MD5、AES、DES、RSA、HASH、ECC等在Js和java代碼中的特征及我們的主語言實作方法,
python實作: https://blog.csdn.net/tongtongjing1765/article/details/106010143
java實作:https://blog.csdn.net/zl1zl2zl3/article/details/85331976
go實作:https://blog.csdn.net/weixin_42117918/article/details/82870809
傳輸協議和通訊協議
一些自定義的協議暫不列出了,總結一下常見的,
傳輸協議:json、xml、protobuf、tlv 等
通訊協議:http/https、tcp/udp、ws/wss、tls 等
各種驗證碼識別方法
驗證碼種類很多,各種驗證方式也層出不窮,這里列出常見的驗證,
具體解決方法可以到github查找開源識別庫,
- 圖文驗證碼:圖文識別、邏輯計算
- 滑動驗證碼:缺口拼圖、軌跡驗證
- 點選驗證碼:文字點選、圖示點選
- 邏輯驗證碼:語意識別、空間推理
- 短信驗證碼:接碼平臺、hook監聽
個人匯總專欄
專欄以教學為基準,提供的可操作性不得用于任何商業用途和違法違規場景,
網路爬蟲基礎 : 適合有python語法基礎
web逆向基礎 : Js逆向案例,有爬蟲經驗即可
安卓逆向基礎 :工具介紹、逆向記錄、案例分享
爬蟲案例合集 :作業中的案例總結,持續更新
Github代碼庫
爬蟲逆向社區
爬蟲逆向社區:https://bbs.csdn.net/forums/lx

可在社區進行技術分享,有問題也可以問答交流,歡迎大家加入!
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/292478.html
標籤:java
下一篇:# Day09-Java基礎
