開發工具
Python版本:3.6.4
相關模塊:
requests模塊;
fake_useragent模塊;
pyechart模塊;
以及一些python自帶的模塊,
環境搭建
安裝Python并添加到環境變數,pip安裝需要的相關模塊即可,
原理簡介
其實爬蟲的文章我一般寫的比較水,然后偶爾瞅了瞅別人的文章,發現基本是資料獲取,清洗,最后可視化分析這個流程,于是打算稍微模仿一下,雖然我可能還是會寫的比較隨意and極其不專業,
資料獲取:
這部分很簡單,魚C論壇每個魚油的個人主頁除了uid不同,其他都是一樣的:
挨個請求每個魚油個人主頁的url,然后把回傳的內容保存起來就可以了:
最后獲得的資料大概這么多,一共40萬條左右吧,雖然大部分是無效的,
資料清洗:
接下來我們從每個魚油的個人主頁中提取一些有用的資料,例如性別、生日、出生地、學歷等內容,具體代碼實作如下:
最后剩下的資料大概這么多:
他喵的這也太真實了吧,最后大概只剩下了1萬多條資料,簡直了,然后我去看了下,發現很多魚油的主頁是這樣的:
還有很多uid是無效用戶:
資料可視化分析:
首先,讓我們來看看魚C論壇魚油們的男女比例吧:
Emmmm,原來論壇里還是有女生的,我一直以為是沒有女生的,
OK,接下來我們來看看論壇里的魚油學歷分布情況吧:
竟然有將近200個博士,驚訝ing,
OK,接下來我們來看看論壇魚油們的省份分布吧,這里只統計了國內的魚油:
[圖片上傳中...(image-a96b08-1616672741403-2)]
看了魚C論壇的魚油們來自五湖四海,當然在廣東省的魚油是最多的,目測論壇的壇主小甲魚應該是廣東人吧,
再接下來,我們來看看魚C論壇魚油的年齡分布吧:
估計論壇里的魚油大部分還是90后的學生黨吧,雖然90后大多應該已經畢業了,
最后,我們再來看看論壇里哪個魚油比較土豪吧,也就是魚幣和C幣最多的魚油,統計結果如下圖所示:
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/280862.html
標籤:Python
下一篇:Selenium 使用手冊
