前言
那么身為一個在職場打拼、會抓熱點、有技術控的編輯,怎樣做一次不妖艷,不從眾的八卦研究呢?今天小編就為大家秀一把新學的技能:用python完成一次與眾不同的八卦,
本文以奧運資料為導向進行體育明星特點分析,同時也是一個免費的資料技能教程,適合所有資料初學者,具體包括:
1、資料哪里找?——網頁資料獲取
2、體育明星肉體觀看指南——python資料清洗、分析與簡單建模
3、體育明星CP——資料結果快速可視化
4、總結報告——收集和展示資料結論
PS:如有需要Python學習資料的小伙伴可以加下方的群去找免費管理員領取
可以免費領取原始碼、專案實戰視頻、PDF檔案等
01
一個頭疼的問題
——鮮肉資料哪里找?
獲取研究主題的網頁資料是一種最常用的資料收集方法,奧運會可說是一個綜合度高,資訊齊全的主題,百度一下,很快能找到相關資訊網站:網易奧運資料庫,
打開網站源代碼,會發現所有的網站資料都記錄在內:
網易奧運資料庫url:http://info.2016.163.com/athlete/list/
不需要會寫html代碼,只要能使用ctrl+f找到你需要的資料,并用三方軟體寫腳本,十分鐘就能獲取所有上一屆奧運會運動員的csv資料:
寫好爬蟲腳本即可快速獲取運動員從csv資料
當然,本次小編獲取的資料已經打包在文末的教程里了,不用謝,
02
體育明星肉體比拼
——誰是我的菜?
做完必要的資料清洗,接下來小編要思考的是往什么方向做研究,說到肉體,身材勻稱的長腿鮮肉的是最容易紅的,哪個專案有最多的潛在網紅?誰是大家都愛欣賞的最美肉體?小編思考一番,決定分別用BMI指數、手長、腿身比、年齡來描述身材勻稱、長腿、鮮肉等指標,
呼叫python中的神器庫pandas進行資料加載、清洗和分析,再使用matplotlib庫中的組合圖功能以及seaborn庫中的美化功能,便可以快速美觀地批量出圖:
使用matplotlib庫可以做組合圖表,一鍵存圖,自由度高,在前期可視化找結論的階段很實用
一項資料研究的開始總會有很多腦洞,對這些小結論進行篩選的程序也是理解資料本身的程序
了解了基本情況,小編便決定按大眾喜好制定以下四條評分規則,最后歸一化處理,分別得出每個專案的運動員總評分評分分布情況:
1、BMI評估:最接近22,差值絕對值越小分數越高
2、腿長評估:計算與身高的比值,比值越大分數越高
3、手長評估:計算與身高的比值,比值越接近1分值越高
4、年齡評估:年齡越小分數越高
綜合來看,跳水、拳擊、游泳的整體表現比較好,且專案里均有幾個肉體得分高的人,
那么究竟是哪些運動員有“最美肉體”,按照同樣的邏輯,小編改了幾行代碼,很快地計算出每個運動員的評分和排名,并進行可視化:
按照小編的計算得出的“誰是大家都愛欣賞的最美肉體”TOP8運動員:
所以大家可以留心一下,你最喜歡的體育明星上榜了嗎???鐘愛游泳的小編當然不會放過國民網紅傅園慧,97年的沈鐸妹子接下來也會是小編的“重點關注物件”,
03
每一次大型賽事都是CP黨的福利
——體育明星錯綜負載的關系網
網友們的眼中不只有比賽的激情,還有cp黨的基情,先看看當年的搜索熱度:
其實,明星圈的關系比你想象的復雜得多,而聯系圖,正是處理這些錯綜負載的關系的最好可視化方法,
繼續使用python將明星cp資料處理成一一對應的格式,再使用可視化軟體gephi快速可視化:
體育明星關系圖,圖中圓點大小代表cp數量大小,顏色代表不同專案的分組,連線粗細代表聯系強弱,
本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,著作權歸原作者所有,如有問題請及時聯系我們以作處理,
作者:大鵬教你玩資料
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/43180.html
標籤:Python
下一篇:Python教程:緩沖區
