我正在處理一個回歸問題,必須預測一個電子市場的銷售額。 在訓練資料中,我有10列 - 'Store_id', 'Store_Type', 'Location_Type', 'Region_Code', 'Holiday', 'Discount', '#Order', 'Sales', 'date', 'month', 'year'
。在測驗資料中,#Order列是缺失的。
訂單列是特定商店在一天內的訂單數量。
現在,如果我不在訓練資料中洗掉訂單列,在預測測驗資料時,我將出現不匹配的錯誤。
我是否應該放棄#Order列,還是有其他的方法?
uj5u.com熱心網友回復:
你有一個錯誤匹配的錯誤是正常的,因為你的模型是用#Order列訓練的。
你可以嘗試恢復#Order列,它在程序中的某個步驟中丟失了(客戶沒有提供完整的資料,清洗資料等......)
最終問題出在#Order列上。
最終的問題是,如果你的回歸問題的下劃線機制取決于#Order列,你的模型將不太準確。另一方面,如果你知道你要預測的東西完全獨立于#Order,那么你就可以放棄這一列。
uj5u.com熱心網友回復:
就我對這個問題的理解而言,你需要預測一個商店一天的銷售情況。我們知道,#order和sales必須是相互關聯的。由于我們必須預測sales,我們肯定沒有當天的#order。在我看來,你將不得不只依靠其他列進行預測,并在訓練時放棄#order列。
即使你能從其他列中估計出#order列并在測驗資料集中使用它,你也只是間接地從其他列中確定#order列,這意味著類似于column_#order = f(other_columns)和sales = g(column_#order, all_other_columns),這意味著sales最終是其他列的一個函式。所以你可以直接放棄那一列。
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/316557.html
標籤:
