微信采集系統專案檔案
- 環境配置
- 1. mitmproxy安裝:
- 2. windows本地代理:
- 3. 資料庫
- 4. 本地模塊
- 準備作業
- 啟動測驗
- 目錄結構
采集目標: 微信公眾號文章的閱讀數、在看數、評論數、評論串列,還有微信公眾號的賬號基本資訊,
采集難點: 采集以上資料需要客戶端的一些引數,比如 x-wechat-key 、 __biz 、appmsg_token 、pass_ticket等,
采集方式: 通過Windows客戶端+mitmproxy的方式獲取加密引數
采集流程:

備注: 一個微信號每天只能獲取5000-8000篇文章的閱讀/點贊/評論等資料
github: https://github.com/lixi5338619/weixin-spider
環境配置
1. mitmproxy安裝:
在python3下直接使用pip進行安裝,如果下載緩慢需要換源下載,
pip install mitmproxy==4.0.4 --use-feature=2020-resolver
安裝完成之后,在cmd命令列中輸入 mitmdump ,默認是8080埠,
mitmdump
啟動成功后,下載mitm證書:訪問 http://mitm.it/
點擊windows,下載安裝,
如果網頁顯示 If you can see this, traffic is not passing through mitmproxy,
按照第二步設定windows本地代理后再次安裝,

2. windows本地代理:
windows10本地: 設定 ==> 網路 ==> 代理 ==> 手動設定代理 中打開使用代理并將IP地址修改為127.0.0.1 埠修改為默認8080或修改后的埠, (記得點擊保存)

3. 資料庫
mysql: 下載完成之后啟動服務,修改專案settings組態檔,創建資料庫weixin_spider,字符集utf8mb4,
create database weixin_spider DEFAULT CHARACTER SET utf8mb4;
redis: 下載安裝后啟動服務,修改專案settings組態檔,以及addons.py檔案,
4. 本地模塊
參照 requirements檔案安裝 python庫,如有遺漏,根據提示自行安裝
準備作業
首先確定使用環境安裝完畢,然后請確保埠(5000、8080)不沖突,
1、確定mysql 、redis服務開啟狀態,并可正常連接
2、運行 webapp\models.py 檔案創建資料庫表,查看表結構是否生成正確

3、登錄微信PC版,找到 檔案傳輸助手 對話框, 雙擊 檔案傳輸助手 ,檔案傳輸助手會自動彈出單獨的對話視窗,把對話框鎖死在螢屏左上角,具體位置可能需要根據顯示幕調整,

4、依次運行py腳本(亦可運行.sh檔案代替)
- 運行 wx_monitor.py ,確定程式是否成功啟動
- 運行 manage.py ,打開網頁 http://127.0.0.1:5000/ ,確認成功開啟web服務,
5、開啟mitmproxy,確保可以攔截到資料(需要cd到tools目錄下)
cd tools/ && mitmdump -s ./addons.py --ssl-insecure

啟動測驗
準備作業完成之后,訪問 http://127.0.0.1:5000/ ,

添加公眾號,該公眾號需要微信已經關注過,
點擊啟動,即可進行采集,

目錄結構
weixin-spider
│ manage.py (web服務啟動檔案)
│ README.md (專案說明檔案)
│ requirements.txt (專案安裝包)
│ wx_monitor.py (任務調度中心)
│
├─api
│ │ crawlerapi.py (爬蟲檔案)
│ │ init.py
│ │
├─exceptions (例外捕獲目錄)
│
├─tools
│ │ addons.py (mitm配置)
│ │ handle.py (自動化操作)
│ │ keys.py (redis-keys管理)
│ │ proxy.py (本地代理)
│
├─webapp
│ │ models.py (資料庫表模型)
│ │ _init_.py
│ ├─static (靜態資源目錄)
│ ├─templates(html檔案目錄)
│ │
│ ├─wxapp
│ │ │ selffilter.py (過濾器)
│ │ │ views.py (視圖檔案、介面)
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/205002.html
標籤:其他
上一篇:氣動調節閥的運行特征
下一篇:2020-11-5(安卓)
