新浪微博python爬蟲分享（一天可抓取 1300 萬條資料）,超級無敵-有解無憂

直接進入主題

爬蟲功能：
此專案和QQ空間爬蟲類似，主要爬取新浪微博用戶的個人資訊、微博資訊、粉絲和關注（詳細見此），還要注意：不管你是為了Python就業還是興趣愛好，記住：專案開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，里面很多新python教程專案，還可以跟老司機交流討教！
代碼獲取新浪微博Cookie進行登錄，可通過多賬號登錄來防止新浪的反扒（用來登錄的賬號可從淘寶購買，一塊錢七個），
專案爬的是新浪微博wap站，結構簡單，速度應該會比較快，而且反扒沒那么強，缺點是資訊量會稍微缺少一些（可見爬蟲福利：如何爬wap站），
爬蟲抓取微博的速度可以達到 1300萬/天以上，具體要視網路情況，我使用的是校園網（廣工大學城校區），普通的家庭網路可能才一半的速度，甚至都不到，

環境、架構：
開發語言：Python2.7
開發環境：64位Windows8系統，4G記憶體，i7-3612QM處理器，
資料庫：MongoDB 3.2.0
（Python編輯器：Pycharm 5.0.4；MongoDB管理工具：MongoBooster 1.1.1）

主要使用 scrapy 爬蟲框架，
下載中間件會從Cookie池和User-Agent池中隨機抽取一個加入到spider中，
start_requests 中根據用戶ID啟動四個Request，同時對個人資訊、微博、關注和粉絲進行爬取，
將新爬下來的關注和粉絲ID加入到待爬佇列（先去重），

使用說明：
啟動前配置：

MongoDB安裝好能啟動即可，不需要配置，
Python需要安裝好scrapy（64位的Python盡量使用64位的依賴模塊）
另外用到的python模塊還有：pymongo、json、base64、requests，
將你用來登錄的微博賬號和密碼加入到 cookies.py 檔案中，里面已經有兩個賬號作為格式參考了，
另外一些scrapy的設定（如間隔時間、日志級別、Request執行緒數等）可自行在setting里面調，

運行截圖：

資料庫說明：
SinaSpider主要爬取新浪微博的個人資訊、微博資料、關注和粉絲，
資料庫設定 Information、Tweets、Follows、Fans四張表，此處僅介紹前面兩張表的欄位，

Information 表：
_id：采用 “用戶ID” 作為唯一標識，
Birthday：出生日期，
City：所在城市，
Gender：性別，
Marriage：婚姻狀況，
NickName：微博昵稱，
Num_Fans：粉絲數量，
Num_Follows：關注數量，
Num_Tweets：已發微博數量，
Province：所在省份，
Signature：個性簽名，
URL：微博的個人首頁，

Tweets 表：
_id：采用 “用戶ID-微博ID” 的形式作為一條微博的唯一標識，
Co_oridinates：發微博時的定位坐標（經緯度），呼叫地圖API可直接查看具體方位，可識別到在哪一棟樓，
Comment：微博被評論的數量，
Content：微博的內容，
ID：用戶ID，
Like：微博被點贊的數量，
PubTime：微博發表時間，
Tools：發微博的工具（手機型別或者平臺）
Transfer：微博被轉發的數量，
————————————————

最后要注意：不管你是為了Python就業還是興趣愛好，記住：專案開發經驗永遠是核心，如果你沒有2020最新python入門到高級實戰視頻教程，可以去小編的Python交流.裙：七衣衣九七七巴而五（數字的諧音）轉換下可以找到了，里面很多新python教程專案，還可以跟老司機交流討教！
本文的文字及圖片來源于網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/150253.html

標籤：Python

上一篇：matplotlib實作同一頁面顯示兩張圖片且單獨縮放和拖動各自的圖片

下一篇：如何讓Python程式輕松加速，正確方法詳解