引言
目前微信公眾號采集基本只有幾種特定的方法了
-
搜狗微信
無法采集歷史了,而且搜索也不按時間排序,獲取的資料的價值不高,不過可以通過他來獲取公眾號的biz, -
微信公眾平臺
微信公眾平臺雖然可采集歷史,但限制很大,沒抓多少就被封介面了, -
安卓端微信
網上很多關于xposed hook微信公眾號實時推送文章的一些采集方案,這個能用,但是只能使用舊版微信,新版微信對xposed有檢測,而且舊版微信會限制剛注冊的微信號登陸,不過有方法解決:hook掉檢測的代碼,目前我還做不到這個程度,我見過有大佬實作了成品,但價格勸退, -
一些第三方的平臺
有很多第三方的平臺會提供一些微信的資料,比如最熱文章等,可看需求是否抓取, -
網頁端微信
基本沒啥用,大部分賬號登不了,登上去采集不了多久也分分鐘給你封了 -
Windows端微信
可逆向hook 注入dll來采集,還有一種方法就是攔截修改回應體,并加入相應js來采集(比如間隔一段時間來打開下一個文章),也可模擬自動化點擊操作微信,然后用一些攔截工具攔截到微信的包就可以實作抓取,技術簡單但實作較繁瑣,且效率較低,且機器的數量需求很大,但配置只需Windows,其他配置可以很低,
正文
微信的采集難度對剛接觸的人來說不簡單,因為大佬掌握的技術根本不會直接公開出來,要么高價定制產品給其他人,要么賣資料,這也很正常,因為知道的人越多,掌握的采集技術不值錢是其次,能用多久就成問題了,萬一放出來沒多久就被微信針對了呢,
我接觸微信采集也有小半年了,嘗試過很多方法,最終找到一個還可以接受的采集方法,就是針對Windows端微信,可以逆向Windows EXE程式,找到相關CALL的偏移,hook就能采集,
功能(所有功能都是基于Windows端微信,也就是你在電腦上聊天的那個軟體)
- 可實時監控公眾號的推送,即公眾號新發布的文章,誤差在10秒以內,
- 可以采集公眾號的歷史文章(非模擬點擊攔截)
- 可以不關注采集公眾號最近10天發布的文章
- 可以采集文章的內容、評論和閱讀數等(通過這種方法采集的閱讀數有限,大概每個號每天有兩三千次,后面可以繼續通過模擬點擊來采集,也可以直接更換IP)
- 可以通過微信訊息調度采集歷史和文章(監控某個聯系人的訊息,當收到指定格式(json字典)的內容的,啟動相應采集程式)
- 可以讀取微信關注的公眾號串列(不包含biz欄位)
- 當然,模擬點擊我也實作了,不是基于螢屏坐標,是基于控制元件句柄和螢屏搜圖,所以在任何解析度的電腦運行應該都沒問題(目前還在測驗階段)
- 每個電腦可以實作多開微信來抓取(測驗2-3個號不會有問題,基本都是兩個號,部分機器登了三個號)
技術
- 監控公眾號的推送是通過hook Windows端微信實作的,即攔截微信軟體接受微信服務器訊息的代碼段,
- 歷史和文章等的采集則是控制微信瀏覽器來實作的,用的不是操作滑鼠鍵盤,不過其中部分功能實作需要模擬滑鼠鍵盤,比如第一次啟動微信瀏覽器,
- 微信訊息調度也是通過hook Windows端微信實作的,當然我也弄過微信機器人,可通過代碼收發訊息,
其他
技術太復雜學不會怎么辦?我已經將所有功能封裝成exe,只需要操作界面就可以采集微信文章(需要懂得基礎的東西,比如json和網頁決議),決議需要你自己寫,因為我不知道你需要哪些欄位,采集軟體不到2M,占用資源很小,只要電腦配置足夠運行微信都沒問題,另外,如果需要自己二次封裝擴展功能的話,可以提供代碼和指導,如果只是想要資料的話也行,
更新
過兩天做一個體驗版程式放出來
演示
閱讀數
演示圖(圖中監控賬號就是我的,歡迎添加交流)

演示動圖
視頻太大,上傳不了,就簡單轉個動圖看看:https://wwx.lanzoux.com/iRUrdhru06f,動圖中有三個視窗,左邊的是微信瀏覽器,右上的是采集程式,右下的是任務欄,任務欄中顯示的WXSpider就是右上的采集程式,放在里面只是為了展示一下程式占用的資源,
監控推送
程式中監控是指要監控哪個微信好友的訊息,當收到該好友指定格式訊息時,開啟采集程式采集相應內容,設定是設定郵箱發送的一些資訊,當微信意外退出登錄時會發郵件通知,

歷史
歷史和閱讀數類似,都是控制微信瀏覽器訪問指定URL,然后得到引數,在請求歷史文章串列,就不放動圖了,
其他
直接控制瀏覽器來采集效率確實高了,也方便了很多,但是請求量是有限制的,可通過換IP解決(IP質量要好,我試了一些代理微信瀏覽器打開網頁很慢),而限制最低的方法就是模擬點擊加攔截了,所以我加了一個模擬點擊打開URL的功能,當程式達到限制時,依舊可以通過模擬點擊來繼續采集閱讀數,當然歷史文章介面的限制更高,封介面的頻率也高,所以無法通過模擬點擊突破,測驗大概每個賬號24小時內可以訪問320-330次介面,每次介面回傳10天的歷史資料,不管每天發了幾條,每天發了8條,則每個介面回傳80條文章資料,
溫馨提示
如果你不是作業需要,只是想學技術的話,請勿打擾,當然,有錢可以隨意,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qianduan/202597.html
標籤:其他
上一篇:論文閱讀 (十五):A Review on Multi-Label Learning Algorithms (2013)
下一篇:一套簡單的基本生活財富自由方案
