為什么我們在將資料拆分為測驗和訓練之前洗掉目標/標簽?例如在下面的代碼中
X = df.drop('Scaled sound pressure level',axis=1)
y = df['Scaled sound pressure level']
拆分資料
from sklearn.model_selection import train_test_split
80/20 通過固定種子來重現結果
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state = 2021)
uj5u.com熱心網友回復:
實際上,這不是強制性的。您可以為整個資料框提供目標值,該函式將回傳訓練 df 和測驗 df。然后,您可以檢索獨立和依賴列。這將適用于回歸資料集。
對于分類任務,這也可以作業。但是我們希望在訓練集和測驗集中的目標類分布相等。因此,我們需要為 train_test_split() 方法的“分層”引數提供目標值。
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/422913.html
標籤:
