本文的文字及圖片來源于網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理,
編程新視野 | 作者
簡書 | 來源
剛接觸Python的新手、小白,可以復制下面的鏈接去觀看Python的基礎入門教學視頻
https://v.douyu.com/author/y6AZ4jn9jwKW
為什么選擇Python進行資料分析?
Python是一門動態的、面向物件的腳本語言,同時也是一門簡約,通俗易懂的編程語言,Python入門簡單,代碼可讀性強,一段好的Python代碼,閱讀起來像是在讀一篇外語文章,Python這種特性稱為“偽代碼”,它可以使你只關心完成什么樣的作業任務,而不是糾結于Python的語法,
另外,Python是開源的,它擁有非常多優秀的庫,可以用于資料分析及其他領域,更重要的是,Python與開源大資料平臺Hadoop具有很好的兼容性,因此,學習Python對于有志于向大資料分析崗位發展的資料分析師來說,是一件非常節省學習成本的事,
Python的眾多優點讓它成為受歡迎的程式設計語言之一,國內外許多公司也已經在使用Python,例YouTube,Google,阿里云等等,
編程基礎
要學習如何用Python進行資料分析, 筆者建議第一步是要了解一些Python的編程基礎,知道Python的資料結構,什么是向量、串列、陣列、字典等等;了解Python的各種函式及模塊,下圖整理了這一階段要掌握的知識點:
資料分析流程
Python是資料分析利器,掌握了Python的編程基礎后,就可以逐漸進入資料分析的奇妙世界,筆者認為一個完整的資料分析專案大致可分為以下五個流程:
1. 資料獲取
一般有資料分析師崗位需求的公司都會有自己的資料庫,資料分析師可以通過SQL查詢陳述句來獲取資料庫中想要資料,Python已經具有連接sql server、mysql、orcale等主流資料庫的介面包,比如pymssql、pymysql、cx_Oracle等,
而獲取外部資料主要有兩種獲取方式,一種是獲取國內一些網站上公開的資料資料;一種是通過撰寫爬蟲代碼自動爬取資料,如果希望使用Python爬蟲來獲取資料,我們可以使用以下Python工具:
- Requests-主要用于爬取資料時發出請求操作,
- BeautifulSoup-用于爬取資料時讀取XML和HTML型別的資料,決議為物件進而處理,
- Scapy-一個處理互動式資料的包,可以解碼大部分網路協議的資料包
2. 資料存盤
對于資料量不大的專案,可以使用excel來進行存盤和處理,但對于資料量過萬的專案,使用資料庫來存盤與管理會更高效便捷,
3. 資料預處理
資料預處理也稱資料清洗,大多數情況下,我們拿到手的資料是格式不一致,存在例外值、缺失值等問題的,而不同專案資料預處理步驟的方法也不一樣,筆者認為資料分析有80%的作業都在處理資料,如果選擇Python作為資料清洗的工具的話,我們可以使用Numpy和Pandas這兩個工具庫:
- Numpy - 用于Python中的科學計算,它非常適用于與線性代數,傅里葉變換和亂數相關的運算,它可以很好地處理多維資料,并兼容各種資料庫,
- Pandas –Pandas是基于Numpy擴展而來的,可以提供一系列函式來處理資料結構和運算,如時間序列等,
4. 建模與分析
這一階段首先要清楚資料的結構,結合專案需求來選取模型,
常見的資料挖掘模型有:
在這一階段,Python也具有很好的工具庫支持我們的建模作業:
- scikit-learn-適用Python實作的機器學習演算法庫,scikit-learn可以實作資料預處理、分類、回歸、降維、模型選擇等常用的機器學習演算法,
- Tensorflow-適用于深度學習且資料處理需求不高的專案,這類專案往往資料量較大,且最終需要的精度更高,
5. 可視化分析
資料分析最后一步是撰寫資料分析報告,這也是資料可視化的一個程序,在資料可視化方面,Python目前主流的可視化工具有:
- Matplotlib-主要用于二維繪圖,它能讓使用者很輕松地將資料圖形化,并且提供多樣化的輸出格式,
- Seaborn-是基于matplotlib產生的一個模塊,專攻于統計可視化,可以和Pandas進行無縫鏈接,
按照這個流程,每個階段所涉及的知識點可以細分如下:
從上圖我們也可以得知,在整個資料分析流程,無論是資料提取、資料預處理、資料建模和分析,還是資料可視化,Python目前已經可以很好地支持我們的資料分析作業
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/227880.html
標籤:其他
上一篇:pycharm 完成pull,push,建立分支更新github代碼
下一篇:Java 注解詳解
