假設隨機問很多人同一個問題,然后將許多份回答整合起來,通常情況下會發現這個合并的答案比一個專家的答案還要好,這就如同俗語所說“三個臭皮匠,頂個諸葛亮”,也好比對某個問題進行民主投票一樣,機器學習中集成學習的思想與之類似,
在分類問題中,傳統機器學習方法是在一個由各種可能的函式構成的假設空間中尋找一個最接近實際分類函式的分類器 ,單個的分類器模型到如今已經發展了不少,有的甚至成為了經典分類演算法,如決策樹、支持向量機以及樸素貝葉斯等,
集成學習的思路是:在對新樣本進行分類時,把若干個單個分類器集成起來,通過對這些單個分類器的預測結果進行某種組合來決定最終的分類,從而取得比任意一個單個分類器更好的性能,如果把單個分類器比作一個決策者的話,集成學習的方法相當于多個決策者共同進行決策,
經典的分類器———隨機森林,就是在決策樹的基礎上通過集成學習衍生而來,并且是集成方法bagging的代表模型,著名的集成方法包括 bagging, boosting, stacking 和其他一些演算法,需要注意的是:并不是任意的集成都是有效的,還要考慮到中和效應,即一些分類性能差的分類器會拉低整體的分類能力,
示例如下:

例中將隨機森林、支持向量機以及邏輯回歸模型視為三個單個分類器,并將三者集成為一個 voting_clf 集成分類器,結果表明集成分類器的分類表現優于構成它的兩個單個分類器,但劣于邏輯回歸,所以選擇恰當的集成手段也是保證集成方法奏效的關鍵,
本文只是初步感受集成學習的流程,雖然代碼簡單,但也是運用集成方法的案例(盡管失敗了),后面將詳細介紹前文提到的三種主流集成演算法bagging, boosting, stacking,
轉載請註明出處,本文鏈接:https://www.uj5u.com/houduan/193603.html
標籤:Python
