我剛開始這樣做可能很愚蠢,但我有以下問題:我為一些基本資料描述創建了一個 .csv 檔案。但是,盡管在使用 df.dtyped() 時它們都是沒有任何缺失值的數值,但我將所有變數作為物件接收,其中只有一些是 int64 或 float64。我是否必須使用代碼手動將所有物件變數轉換為數字變數?或者在創建我的 csv 時我做錯了什么?
我以 yyyy-mm-dd 格式保存的日期也顯??示為物件而不是日期格式。
對于某些變數,資料的數量范圍從 [0,2] 到其他變數的 [0,2000000]。Excel中的格式可能有問題嗎?
是否有任何“如何構建您的 csv”檔案?這樣我就不必問這樣愚蠢的初學者問題了?
此外,我被告知要讓模型正常作業,我需要對我的資料進行一些縮放/標準化,因為值范圍差異很大。我在哪里可以找到更多資訊?
uj5u.com熱心網友回復:
pd.read_csv已經有一個選項來指定型別,所以如果你愿意,你可以指定dtypeType with read_csv. 對于日期,您始終必須將格式更改為datetime
縮放或標準化您的日期將取決于您還將使用哪種機器學習模型。例如:如果使用隨機森林和 KNN,KNN 將需要具有縮放功能,因為它適用于距離。
使用 Scikit-Learn、Keras 和 Tensorflow 進行機器學習:構建智能系統的概念、工具和技術在我個人看來是一本好書
uj5u.com熱心網友回復:
我建議您在保存 CSV 檔案之前進行資料型別轉換。您也可以使用以下功能進行轉換。
astype()
to_numeric()
convert_dtypes()
您可以使用附加的鏈接獲取縮放資訊。https://www.analyticsvidhya.com/blog/2020/07/types-of-feature-transformation-and-scaling/
uj5u.com熱心網友回復:
感謝您的想法。最后 adecimal:','幫助將它們創建為浮動。
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/469297.html
上一篇:變數增加3而不是1
