是否sklearn.naive_bayes.CategoricalNB與 相同sklearn.naive_bayes.BernoulliNB,但在列中使用一種熱編碼?
無法從檔案中完全猜到,并且CategoricalNB有一個alpha我不明白其用途的額外引數。
uj5u.com熱心網友回復:
分類分布是伯努利分布,泛化到兩個以上的類別。換句話說,伯努利分布是分類分布的一個特例,正好有 2 個類別。
在伯努利模型中,假設每個特征恰好有 2 個類別,通常表示為 1 和 0 或 True 和 False。在分類模型中,假設每個特征至少有2個類別,每個特征可能有不同的類別總數。
One-hot 編碼與任一模型無關。它是一種在數值矩陣中編碼分類變數的技術。它與用于對分類變數建模的實際分布無關,盡管使用分類分布對分類變數進行建模是很自然的。
“alpha”引數稱為拉普拉斯平滑引數。我不會在這里詳細介紹它,因為它更適合CrossValidated,例如https://stats.stackexchange.com/q/192233/36229。從計算的角度來看,它的存在是為了防止用 0“毒化”計算,因為 0 在整個模型中以乘法傳播。每當您的資料集中不存在類標簽和特征類別的某種組合時,就會出現這種實際問題。可以將其保留為默認值 1。
轉載請註明出處,本文鏈接:https://www.uj5u.com/caozuo/520809.html
上一篇:誤差平方和的數學概念的梯度下降
