探索性資料分析(EDA)為什么在機器學習中至關重要?
資料驅動組織的座右銘“If you can't measure it, you can't fix it”,
“我們必須了解我們的資料,然后再試圖讓機器去理解我們的資料,直接把問題甩給機器是極其不負責任的行為”
EDA(Exploratory Data Analysis),全名資料探索性分析,是通過了解資料集,了解變數間的相互關系以及變數與預測值之間的關系,從而幫助我們后期更好地進行特征工程和建立模型,是資料挖掘中十分重要的一步,
python體系統中所需工具包括:資料科學庫(pandas、numpy、scipy,pyspark)、可視化庫(matplotlib、seabon、plotly、cufflinks、pyecharts)

EDA是一個大型的摸底程序,是一個形成初步認知的程序,我們通過EDA更加了解我們的任務、資料、以及資料中可能存在的一些問題的點,進而驗證我們資料采樣的方式是否平衡、全面、可靠,
EDA不單是看看資料的分布,而是對資料整體有一個大概的了解,通過作圖、制表、方
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/291766.html
標籤:AI
上一篇:基于SSM的健身俱樂部管理系統
