電影網站資料分析及可視化研究
本博客是一篇集資料爬取,存盤為excel表格,將資料可視化為一體的博文,資料爬取采用request等方法,資料可視化會使用圖表進行展示,有改進的地方還請大家多多指教,
目錄
- 電影網站資料分析及可視化研究
- 資料爬取
- 環境配置問題
- 反爬取處理(headers)
- 資料獲取
- 資料分析
- 影片出現次數年份分布
- 電影型別的資料欄位分析
- 上映區間資料統計
- 電影評分資料分析
- 小結
資料爬取
環境配置問題
在進行資料爬取之前,需要進行一些匯入

這些匯入包括json庫,requests方法等等,但是在進行匯入的程序中根據計算機的差異可能會出現一些問題,我在進行安裝requests的程序當中就遇到了一些問題,

在安裝的程序當中,由于pip版本過低需要進行更新,故無法進行requests的安裝,

但是命令提示符所給出的系統自動更新的方法卻無法進行更新,那么就可以去找一個鏡像源來進行安裝,并且最好是國內的安裝源,運行速度快,可使用清華或是豆瓣安裝源進行嘗試,安裝成功結果如下,

反爬取處理(headers)
在配置好環境后,就可以找到我們需要爬取的網站對其資訊進行爬取,但需注意,若非靜態頁面,一般的動態頁面會有一些反爬取的措施,那么我們應該怎么做才能夠爬取到我們想要的資訊呢,其實很簡單,首先我們找到需要爬取的網頁:

滑鼠右鍵點擊審查元素,找到network——Doc——當前網址——headers,往下滑到最下面就會看到一個叫User-Agent一欄,在爬取的時候進行呼叫即可

資料獲取
獲取例如影片名稱串列,所在區域的影片簡介,評分等等,將獲取到的資訊保存至csv檔案中,存盤示例如下:

資料分析
影片出現次數年份分布
進行庫的匯入和資料讀取是每一個分析的先決條件,

分析資料,以柱狀圖顯示


電影型別的資料欄位分析


詞云圖分析


上映區間資料統計


電影評分資料分析

以餅狀圖顯示:

小結
對于資料可視化的學習還遠不應止如此,如何將資料更為直觀,更為簡潔,更為層次分明地展現在大家眼前,這是值得考慮的問題,對于各種環境和工具的運用,如何能夠做到更為熟練和精細,是自我提升所必需的,
喜歡本博客的話記得點個贊,也記得關注一下博主哦!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/245806.html
標籤:其他
