K-Fold Cross Validation 是一種用于將資料拆分為 K 個折疊以進行測驗和訓練的技術。目標是估計機器學習模型的泛化性。該模型被訓練 K 次,每次訓練折疊一次,然后在相應的測驗折疊上進行測驗。
假設我想在一些任意資料集上比較一個決策樹和一個邏輯回歸模型,它有 10 個折疊。假設在 10 折中的每一個上訓練每個模型并獲得相應的測驗準確度后,Logistic 回歸在測驗折中具有更高的平均準確度,表明它是資料集的更好模型。
現在,用于應用程式和部署。我是在所有資料上重新訓練邏輯回歸模型,還是從在 K 折上訓練的 10 個邏輯回歸模型中創建一個集合?
uj5u.com熱心網友回復:
CV 的主要目標是驗證我們不是偶然獲得這些數字的。所以,我相信你可以只使用一個模型進行部署。
如果您已經對超引數和模型性能感到滿意,一種選擇是對您擁有的所有資料進行訓練并部署該模型。
而且,另一個選項很明顯,您可以部署其中一個 CV 模型。
關于 ensemble 選項,我認為它不應該比在所有資料上訓練的模型給出更好的結果;因為每個模型使用相似的引數訓練相同的時間并且它們具有相似的架構;但訓練資料略有不同。所以,他們不應該表現出不同的表現。根據我的經驗,當模型的輸出由于架構或輸入資料(如不同的影像大小)而不同時,集成會有所幫助。
uj5u.com熱心網友回復:
在 k-fold CV 中訓練的模型永遠不應該被重用。CV 僅用于可靠地估計模型的性能。
因此,標準方法是在 CV 之后在完整的訓練資料上重新訓練最終模型。
請注意,評估不同模型類似于超引數調整,因此理論上應該在新的測驗集上重新評估所選最佳模型的性能。但是只測驗了兩個模型,我認為這對你的情況并不重要。
您可以在此處和此處找到有關 k 折交叉驗證的更多詳細資訊。
轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/479012.html
