1 引言¶

集成學習演算法是當下炙手可熱的一類演算法，在諸多機器學習大賽中都頻繁出現它的身影，準確來說，集成學習演算法并不是一個單獨的機器學習演算法，而是通過構建多個學習器，博采眾家之長，共同求解問題的一種思想，古語有云：“三個臭皮匠頂個諸葛亮”，一個簡單的學習器也許不能很好的擬合資料，但是結合多個不同的學習器去解決問題，往往就可能有更加不俗的表現，本篇博文中，我們先來詳細說說集成學習思想以及分類，然后對其中的Bagging演算法展開介紹，

2 集成學習¶

引言中說過，所謂集成學習就是先產生一組單個的學習器，我們姑且將這些單個的學習器稱為“個體學習器”，然后通過某種策略將這些個體學習器結合起來共同完成學習任務，如下圖所示，那么，有兩個問題需要解決：第一，如果獲得個體學習器；第二，如何將各個體學習器的結果結合到一起，

在回答第一個問題前，我們必須明確，對集成學習中單個學習器必須滿足兩個條件：
（1）學習器之間應該有差異性，如果使用的單個學習器將沒有差異，那么集成起來的結果是沒有變化的，
（2）每個學習器的精度必須大于0.5，在集成學習中，單個分類器不需要很強，因為越強的分類器訓練程序就越復雜，甚至容易發生過擬合，只需要保證每個學習器準確率大于0.5，因為如果單個學習的的準確率小于0.5，隨著集成規模的增加，分類精度不斷下降，反之如果精度大于0.5，就算簡單的學習器，通過足夠數量的組合最終精度也會可以趨向于1，可以通過下圖來理解這兩個條件，

在這兩個條件前提下，對于第一個問題，有兩種解決思路，一種是使用不同類別的演算法來構建個體學習器，例如對于同一個任務分別使用決策樹演算法、支持向量機、神經網路等不同演算法來構建學習器，另一種思路是所有個體學習器都使用同一種演算法進行構建，這種思路是目前集成學習演算法的主流，在所有個體學習器都使用同種演算法構建時，如何保證學習器之間的差異性呢？有兩種方案：

每次訓練個體學習器時，對原始資料集進行抽樣獲得不同資料集作為當前訓練集，每一個訓練樣本在抽樣訓練集中可以多次或不出現，經過$T$次訓練后，可得到$T$個不同的沒有相互依賴的個體學習器學習器，Bagging、隨機森林就是這種方案的代表，
通過更新權重的方式不斷地使用一個弱學習器彌補前一個弱學習器的“不足”的程序，來串行地構造一個較強的學習器，這個強學習器能夠使目標函式值足夠小，這一方案的代表是Boosting系列的演算法，包括Adaboost、GBDT、XGBOOST等

在本文中，我們先對第一種方案的兩種演算法——Bagging和隨機森林進行介紹，在后續的博文中，再對Adaboost、GBDT等演算法進行分析，

3 Bagging¶

Bagging是并行式集成學習方法的最典型代表，演算法名稱來源于Bootstrap aggregating的簡寫，又稱裝袋演算法，這種演算法直接采用自助采樣法獲得$T$個各不相同的資料集，分別使用這$T$個資料集進行訓練可獲得$T$個個體學習器，再將這些學習器組合起來共同完成分類或者回歸任務，當完成分類任務時，采用簡單投票法對$T$個體學習器結果進行組合后輸出；當染成回歸任務時，采用簡單平均法對$T$個個體學習器學習結果進行組合輸出，

3.1 自助采樣法¶

自助采樣法（Bootstrap sampling是一種從給定原始資料集中有放回的均勻抽樣，也就是說，每當選中一個樣本，它等可能地被再次選中并被再次添加到訓練集中，對于給定包含$m$個樣本的原始資料集$D$，進行自助采樣獲得$D'$，具體操作方式：每次采樣時，從幾何$D$中隨機抽取一個樣本拷貝一份到集合$D'$中，然后將樣本放回集合$D$中，是的該羊被后續采樣中仍有可能被采集到；重復這一步驟$m$次后，就可以獲得同樣包含$m$個樣本的集合$D'$，集合$D'$就是自助采樣的最終結果，可以想象，集合$D$中的樣本有一部分會在集合$D'$中出現重復出現，而有些樣本卻一次都不出現，在$m$次抽樣中，某個樣本從未被抽到的概率為${(1 - \frac{1}{m})^m}$，當集合$D$樣本足夠多時有： $$\mathop {\lim }\limits_{m \to \infty } {(1 - \frac{1}{m})^m} = \frac{1}{e} \approx 0.368$$ 也就是說，原始集合$D$中有36.8%的樣本不包含在通過自助采樣法獲得的集合$D'$中，在Bagging中，未被采集到的36.8%的樣本可以用作測驗集對個體學習器性能進行評估，當個體學習器使用決策樹演算法構建時，這部分用本可以用來輔助樹剪枝；使用神經網路構建個體學習器時，可以用來防止過擬合，

3.2 結合策略¶

假設共有$T$個個體學習器，以$\{ {h_1},{h_2}, \cdots ,{h_T}\} $表示，其中樣本$x$經$h_i$后的輸出值為$h_i(x)$，對于結合$T$個個體學習器輸出值，主要有一下幾種策略：

（1）平均法 平均法常用于回歸類任務的數值型輸出，包括簡單平均法、加權平均法等，

簡單平均法 $$H(x) = \frac{1}{T}\sum\limits_{i = 1}^T {{h_i}(x)} $$
加權平均法 $$H(x) = \sum\limits_{i = 1}^T {{w_i}{h_i}(x)} $$ 式中，$w_i$是個體學習器$h_i$的權重，通常要求${w_i} \geqslant 0$且$\sum\limits_{i = 1}^T {{w_i}} = 1$，至于$w_i$的具體值，可以根據$h_i$的具體表現來確定，$h_i$準確率越高，$w_i$越大，
對于兩種平均法的選擇上，當個體學習器性能相差較大時，選用加權平均法；當各個體學習器性能相近時，使用簡單加權平均法，

（2）投票法
投票法更多用于作為分類任務的集成學習的結合策略，

相對多數投票法 也可以認為是多數決策法，即預測結果中票數最高的分類類別，如果不止一個類別獲得最高票，則隨機選擇一個作為最終類別，
絕對多數投票法 不光要求獲得票數最高，而且要求票數過半，否則決絕輸出，
加權投票法 與加權平均法類似，每個個體學習器的分類票數要乘以一個權重，最終將各個類別的加權票數求和，最大的值對應的類別為最終類別，

（3）學習法
學習法是一種比平均法和投票法更為強大復雜的結合策略，學習法以所有個體學習器的輸出作為一個資料集，額外使用一個學習器對該資料及進行學習，然后輸出最終的結果，Stacking方法是學習法的一個經典代表，目前大多數應用中所說的學習法都是指Stacking方法，甚至因為Stacking方法的特殊性和復雜性，很多資料中將Stacking方法當做是與Bagging和Boosting一樣的一類集成學習演算法，
Stacking方法中將之前提到的所有個體學習器稱為初級學習器，將用于結合的學習器稱為次級學習器，Stacking方法先從原始資料集訓練處初級學習器，然后“生成”一個新的資料集用于訓練次級學習器，在新的資料集中，初級學習器的輸出被當做樣本輸出特征，而初始樣本的類別標簽人被當做新資料及的類別標簽，（注：關于Stacking可以參考這篇博客）

4 隨機森林¶

4.1 演算法介紹¶

隨機森林（Random Forest，建成RF）也是一種十分流行的演算法，原理與Bagging非常相似，甚至有很多資料認為隨機森林是Bagging的一個分支，一個擴展變體，如果已經理解了Bagging演算法，那么現在再來看隨機森林將再將單不過，
從名稱上可以推測，隨機森林是以決策樹為學習演算法構建個體學習器并采用Bagging思想集成的一種演算法，確實也是如此，但卻不止如此，因為隨機森林在構建決策時，不僅在樣本選擇上進行了隨機采樣，同時在特征屬性的選擇上也進行了隨機選取，在之前介紹決策樹演算法的博客中說過，傳統的決策樹演算法在選擇最優特征屬性時總是從當前資料集所有特征屬性（假設共有$d$個特征屬性）中選擇一個最優的特征屬性作為當前樹節點對資料集進行劃分；但在隨機森林中，使用決策樹演算法構建個體學習器時，先從$d$個屬性中隨機選擇$k$個組成新的訓練集，選擇最優分裂屬性時，從這$k$個屬性中進行擇優選取，這就是隨機森林中構建決策樹與傳統決策樹的不同，

需要注意，有兩個因素對隨機森林性能影響很大：

森林中任意兩棵樹的相關性：相關性越大，錯誤率越大；
森林中每棵樹的分類能力：每棵樹的分類能力越強，整個森林的錯誤率越低

$k$控制了選擇特征訓練集的隨機程度，無論是相關性還是分類能力，都與$k$值選取息息相關，減小特征選擇個數$k$，樹的相關性和分類能力也會相應的降低；增大$k$，兩者也會隨之增大，所以關鍵問題是如何選擇最優的m（或者是范圍），這也是隨機森林唯一的一個引數，當$k=d$時，與傳統的決策樹演算法就沒有什么區別了，都是從原始完整的訓練集中進行選擇，當$k=1$時，則是隨機選擇一個特征屬性進行訓練；一般情況下，推薦$k = {\log _2}d$，

隨機森林不僅在每個個體學習器訓練樣本選擇上，延用了Bagging演算法中的自助采樣法，保證了每個個體學習器訓練集的差異性，同時也通過特征屬性的選擇，進一步進行擾動，保證了個體資訊器的多樣性，這也是隨機森林在眾多集成演算法中表現突出的原因，最后總結一下隨機森林的優缺點：

優點：
（1）每棵樹都選擇部分樣本及部分特征，一定程度避免過擬合；
（2）每棵樹隨機選擇樣本并隨機選擇特征，使得具有很好的抗噪能力，性能穩定；
（3）能處理很高維度的資料，并且不用做特征選擇；
（4）適合并行計算；
（5）實作比較簡單；
缺點：
（1）當隨機森林中的決策樹個數很多時，訓練時需要的空間和時間會較大；
（2）隨機森林模型還有許多不好解釋的地方，有點算個黑盒模型，

4.2 代碼實作¶

為了方便展示，還是使用自定義的二維資料集：

In [43]:

import numpy as np
import matplotlib.pyplot as plt 
import copy
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


a = np.random.normal(20,5,300)
b = np.random.normal(15,5,300)
c = np.random.normal(20,5,300)
cluster1 = np.array([[x, y, z, 1] for x, y, z in zip(a,b, c)])

a = np.random.normal(20,5,300)
b = np.random.normal(45,5,300)
c = np.random.normal(45,5,300)
cluster2 = np.array([[x, y, z, 2] for x, y, z in zip(a,b,c)])

a = np.random.normal(55,5,300)
b = np.random.normal(30,5,300)
c = np.random.normal(45,5,300)
cluster3 = np.array([[x, y, z, 3] for x, y, z in zip(a,b,c)])

dataset = np.append(np.append(cluster1,cluster2, axis=0),cluster3, axis=0)

In [44]:

from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
x_train,x_test,y_train,y_test = train_test_split(dataset[:,:3],dataset[:,-1],test_size=0.3,random_state=0)  # 將資料劃分為訓練集，測驗集
x_train,y_train = shuffle(x_train,y_train)  # 隨機打亂資料
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.set_zlabel('Z')  # 坐標軸
ax.set_ylabel('Y')
ax.set_xlabel('X')
ax.scatter(x_train[:,0], x_train[:,1], x_train[:,2])
plt.show()

In [45]:

from sklearn.ensemble import RandomForestClassifier   # 匯入隨機森林
clf = RandomForestClassifier()
clf.fit(x_train, y_train)

/home/chb/anaconda3/envs/study_python/lib/python3.7/site-packages/sklearn/ensemble/forest.py:245: FutureWarning: The default value of n_estimators will change from 10 in version 0.20 to 100 in 0.22.
  "10 in version 0.20 to 100 in 0.22.", FutureWarning)

Out[45]:

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [46]:

dataset[0]

Out[46]:

array([31.35045639, 14.1587136 , 11.3989477 ,  1.        ])

In [47]:

clf.predict([[22.63809831, 24.57126294, 18.54161034]])  # 對當個樣本類別進行預測

Out[47]:

array([1.])

In [49]:

# 驗證準確率
from sklearn.metrics import accuracy_score
print('模型準確率為：',accuracy_score(y_test, clf.predict(x_test)))

模型準確率為： 1.0

In [50]:

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
for x, y, z, p in zip(x_test[:,0], x_test[:,1], x_test[:,2], y_test):
    if int(p)==1:
        ax.scatter(x, y, z, c='r')
    elif int(p)==2:
        ax.scatter(x, y, z, c='y')
    else:
        ax.scatter(x, y, z, c='g')
ax.set_zlabel('Z')  # 坐標軸
ax.set_ylabel('Y')
ax.set_xlabel('X')
plt.show()

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/55455.html

標籤：其他

上一篇：Win10 在 CUDA 10.1 下跑 TensorFlow 2.x

下一篇：機器學習系列（二）——分類及回歸問題

機器學習回顧篇（12）：集成學習之Bagging與隨機森林