主頁 >  其他 > 機器學習回顧篇(12):集成學習之Bagging與隨機森林

機器學習回顧篇(12):集成學習之Bagging與隨機森林

2020-09-16 08:25:35 其他

<style></style> <style></style> <style></style>  

1 引言¶

集成學習演算法是當下炙手可熱的一類演算法,在諸多機器學習大賽中都頻繁出現它的身影,準確來說,集成學習演算法并不是一個單獨的機器學習演算法,而是通過構建多個學習器,博采眾家之長,共同求解問題的一種思想,古語有云:“三個臭皮匠頂個諸葛亮”,一個簡單的學習器也許不能很好的擬合資料,但是結合多個不同的學習器去解決問題,往往就可能有更加不俗的表現, 本篇博文中,我們先來詳細說說集成學習思想以及分類,然后對其中的Bagging演算法展開介紹,

2 集成學習¶

引言中說過,所謂集成學習就是先產生一組單個的學習器,我們姑且將這些單個的學習器稱為“個體學習器”,然后通過某種策略將這些個體學習器結合起來共同完成學習任務,如下圖所示,那么,有兩個問題需要解決:第一,如果獲得個體學習器;第二,如何將各個體學習器的結果結合到一起,
image

在回答第一個問題前,我們必須明確,對集成學習中單個學習器必須滿足兩個條件:
(1)學習器之間應該有差異性,如果使用的單個學習器將沒有差異,那么集成起來的結果是沒有變化的,
(2)每個學習器的精度必須大于0.5,在集成學習中,單個分類器不需要很強,因為越強的分類器訓練程序就越復雜,甚至容易發生過擬合,只需要保證每個學習器準確率大于0.5,因為如果單個學習的的準確率小于0.5,隨著集成規模的增加,分類精度不斷下降,反之如果精度大于0.5,就算簡單的學習器,通過足夠數量的組合最終精度也會可以趨向于1,可以通過下圖來理解這兩個條件, image

 

在這兩個條件前提下,對于第一個問題,有兩種解決思路,一種是使用不同類別的演算法來構建個體學習器,例如對于同一個任務分別使用決策樹演算法、支持向量機、神經網路等不同演算法來構建學習器,另一種思路是所有個體學習器都使用同一種演算法進行構建,這種思路是目前集成學習演算法的主流,在所有個體學習器都使用同種演算法構建時,如何保證學習器之間的差異性呢?有兩種方案:

  • 每次訓練個體學習器時,對原始資料集進行抽樣獲得不同資料集作為當前訓練集,每一個訓練樣本在抽樣訓練集中可以多次或不出現,經過$T$次訓練后,可得到$T$個不同的沒有相互依賴的個體學習器學習器,Bagging、隨機森林就是這種方案的代表,
  • 通過更新權重的方式不斷地使用一個弱學習器彌補前一個弱學習器的“不足”的程序,來串行地構造一個較強的學習器,這個強學習器能夠使目標函式值足夠小,這一方案的代表是Boosting系列的演算法,包括Adaboost、GBDT、XGBOOST等

在本文中,我們先對第一種方案的兩種演算法——Bagging和隨機森林進行介紹,在后續的博文中,再對Adaboost、GBDT等演算法進行分析,

3 Bagging¶

Bagging是并行式集成學習方法的最典型代表,演算法名稱來源于Bootstrap aggregating的簡寫,又稱裝袋演算法,這種演算法直接采用自助采樣法獲得$T$個各不相同的資料集,分別使用這$T$個資料集進行訓練可獲得$T$個個體學習器,再將這些學習器組合起來共同完成分類或者回歸任務,當完成分類任務時,采用簡單投票法對$T$個體學習器結果進行組合后輸出;當染成回歸任務時,采用簡單平均法對$T$個個體學習器學習結果進行組合輸出,

image

3.1 自助采樣法¶

自助采樣法(Bootstrap sampling是一種從給定原始資料集中有放回的均勻抽樣,也就是說,每當選中一個樣本,它等可能地被再次選中并被再次添加到訓練集中,對于給定包含$m$個樣本的原始資料集$D$,進行自助采樣獲得$D'$,具體操作方式:每次采樣時,從幾何$D$中隨機抽取一個樣本拷貝一份到集合$D'$中,然后將樣本放回集合$D$中,是的該羊被后續采樣中仍有可能被采集到;重復這一步驟$m$次后,就可以獲得同樣包含$m$個樣本的集合$D'$,集合$D'$就是自助采樣的最終結果,可以想象,集合$D$中的樣本有一部分會在集合$D'$中出現重復出現,而有些樣本卻一次都不出現,在$m$次抽樣中,某個樣本從未被抽到的概率為${(1 - \frac{1}{m})^m}$,當集合$D$樣本足夠多時有: $$\mathop {\lim }\limits_{m \to \infty } {(1 - \frac{1}{m})^m} = \frac{1}{e} \approx 0.368$$ 也就是說,原始集合$D$中有36.8%的樣本不包含在通過自助采樣法獲得的集合$D'$中,在Bagging中,未被采集到的36.8%的樣本可以用作測驗集對個體學習器性能進行評估,當個體學習器使用決策樹演算法構建時,這部分用本可以用來輔助樹剪枝;使用神經網路構建個體學習器時,可以用來防止過擬合,

3.2 結合策略¶

假設共有$T$個個體學習器,以$\{ {h_1},{h_2}, \cdots ,{h_T}\} $表示,其中樣本$x$經$h_i$后的輸出值為$h_i(x)$,對于結合$T$個個體學習器輸出值,主要有一下幾種策略:

(1)平均法 平均法常用于回歸類任務的數值型輸出,包括簡單平均法、加權平均法等,

  • 簡單平均法 $$H(x) = \frac{1}{T}\sum\limits_{i = 1}^T {{h_i}(x)} $$
  • 加權平均法 $$H(x) = \sum\limits_{i = 1}^T {{w_i}{h_i}(x)} $$ 式中,$w_i$是個體學習器$h_i$的權重,通常要求${w_i} \geqslant 0$且$\sum\limits_{i = 1}^T {{w_i}} = 1$,至于$w_i$的具體值,可以根據$h_i$的具體表現來確定,$h_i$準確率越高,$w_i$越大,
    對于兩種平均法的選擇上,當個體學習器性能相差較大時,選用加權平均法;當各個體學習器性能相近時,使用簡單加權平均法,

(2)投票法
投票法更多用于作為分類任務的集成學習的結合策略,

  • 相對多數投票法 也可以認為是多數決策法,即預測結果中票數最高的分類類別,如果不止一個類別獲得最高票,則隨機選擇一個作為最終類別,
  • 絕對多數投票法 不光要求獲得票數最高,而且要求票數過半,否則決絕輸出,
  • 加權投票法 與加權平均法類似,每個個體學習器的分類票數要乘以一個權重,最終將各個類別的加權票數求和,最大的值對應的類別為最終類別,

(3)學習法
學習法是一種比平均法和投票法更為強大復雜的結合策略,學習法以所有個體學習器的輸出作為一個資料集,額外使用一個學習器對該資料及進行學習,然后輸出最終的結果,Stacking方法是學習法的一個經典代表,目前大多數應用中所說的學習法都是指Stacking方法,甚至因為Stacking方法的特殊性和復雜性,很多資料中將Stacking方法當做是與Bagging和Boosting一樣的一類集成學習演算法,
Stacking方法中將之前提到的所有個體學習器稱為初級學習器,將用于結合的學習器稱為次級學習器,Stacking方法先從原始資料集訓練處初級學習器,然后“生成”一個新的資料集用于訓練次級學習器,在新的資料集中,初級學習器的輸出被當做樣本輸出特征,而初始樣本的類別標簽人被當做新資料及的類別標簽,(注:關于Stacking可以參考這篇博客)

 

4 隨機森林¶

4.1 演算法介紹¶

隨機森林(Random Forest,建成RF)也是一種十分流行的演算法,原理與Bagging非常相似,甚至有很多資料認為隨機森林是Bagging的一個分支,一個擴展變體,如果已經理解了Bagging演算法,那么現在再來看隨機森林將再將單不過,
從名稱上可以推測,隨機森林是以決策樹為學習演算法構建個體學習器并采用Bagging思想集成的一種演算法,確實也是如此,但卻不止如此,因為隨機森林在構建決策時,不僅在樣本選擇上進行了隨機采樣,同時在特征屬性的選擇上也進行了隨機選取,在之前介紹決策樹演算法的博客中說過,傳統的決策樹演算法在選擇最優特征屬性時總是從當前資料集所有特征屬性(假設共有$d$個特征屬性)中選擇一個最優的特征屬性作為當前樹節點對資料集進行劃分;但在隨機森林中,使用決策樹演算法構建個體學習器時,先從$d$個屬性中隨機選擇$k$個組成新的訓練集,選擇最優分裂屬性時,從這$k$個屬性中進行擇優選取,這就是隨機森林中構建決策樹與傳統決策樹的不同,

需要注意,有兩個因素對隨機森林性能影響很大:

  • 森林中任意兩棵樹的相關性:相關性越大,錯誤率越大;
  • 森林中每棵樹的分類能力:每棵樹的分類能力越強,整個森林的錯誤率越低

$k$控制了選擇特征訓練集的隨機程度,無論是相關性還是分類能力,都與$k$值選取息息相關,減小特征選擇個數$k$,樹的相關性和分類能力也會相應的降低;增大$k$,兩者也會隨之增大,所以關鍵問題是如何選擇最優的m(或者是范圍),這也是隨機森林唯一的一個引數,當$k=d$時,與傳統的決策樹演算法就沒有什么區別了,都是從原始完整的訓練集中進行選擇,當$k=1$時,則是隨機選擇一個特征屬性進行訓練;一般情況下,推薦$k = {\log _2}d$,

隨機森林不僅在每個個體學習器訓練樣本選擇上,延用了Bagging演算法中的自助采樣法,保證了每個個體學習器訓練集的差異性,同時也通過特征屬性的選擇,進一步進行擾動,保證了個體資訊器的多樣性,這也是隨機森林在眾多集成演算法中表現突出的原因, 最后總結一下隨機森林的優缺點:

優點:
(1) 每棵樹都選擇部分樣本及部分特征,一定程度避免過擬合;
(2) 每棵樹隨機選擇樣本并隨機選擇特征,使得具有很好的抗噪能力,性能穩定;
(3) 能處理很高維度的資料,并且不用做特征選擇;
(4) 適合并行計算;
(5) 實作比較簡單;
缺點:
(1)當隨機森林中的決策樹個數很多時,訓練時需要的空間和時間會較大;
(2)隨機森林模型還有許多不好解釋的地方,有點算個黑盒模型,

4.2 代碼實作¶

為了方便展示,還是使用自定義的二維資料集:

In [43]:
import numpy as np
import matplotlib.pyplot as plt 
import copy
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D


a = np.random.normal(20,5,300)
b = np.random.normal(15,5,300)
c = np.random.normal(20,5,300)
cluster1 = np.array([[x, y, z, 1] for x, y, z in zip(a,b, c)])

a = np.random.normal(20,5,300)
b = np.random.normal(45,5,300)
c = np.random.normal(45,5,300)
cluster2 = np.array([[x, y, z, 2] for x, y, z in zip(a,b,c)])

a = np.random.normal(55,5,300)
b = np.random.normal(30,5,300)
c = np.random.normal(45,5,300)
cluster3 = np.array([[x, y, z, 3] for x, y, z in zip(a,b,c)])

dataset = np.append(np.append(cluster1,cluster2, axis=0),cluster3, axis=0)
In [44]:
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle
x_train,x_test,y_train,y_test = train_test_split(dataset[:,:3],dataset[:,-1],test_size=0.3,random_state=0)  # 將資料劃分為訓練集,測驗集
x_train,y_train = shuffle(x_train,y_train)  # 隨機打亂資料
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.set_zlabel('Z')  # 坐標軸
ax.set_ylabel('Y')
ax.set_xlabel('X')
ax.scatter(x_train[:,0], x_train[:,1], x_train[:,2])
plt.show()
  In [45]:
from sklearn.ensemble import RandomForestClassifier   # 匯入隨機森林
clf = RandomForestClassifier()
clf.fit(x_train, y_train)
 
/home/chb/anaconda3/envs/study_python/lib/python3.7/site-packages/sklearn/ensemble/forest.py:245: FutureWarning: The default value of n_estimators will change from 10 in version 0.20 to 100 in 0.22.
  "10 in version 0.20 to 100 in 0.22.", FutureWarning)
Out[45]:
RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)
In [46]:
dataset[0]
Out[46]:
array([31.35045639, 14.1587136 , 11.3989477 ,  1.        ])
In [47]:
clf.predict([[22.63809831, 24.57126294, 18.54161034]])  # 對當個樣本類別進行預測
Out[47]:
array([1.])
In [49]:
# 驗證準確率
from sklearn.metrics import accuracy_score
print('模型準確率為:',accuracy_score(y_test, clf.predict(x_test)))
 
模型準確率為: 1.0
In [50]:
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
for x, y, z, p in zip(x_test[:,0], x_test[:,1], x_test[:,2], y_test):
    if int(p)==1:
        ax.scatter(x, y, z, c='r')
    elif int(p)==2:
        ax.scatter(x, y, z, c='y')
    else:
        ax.scatter(x, y, z, c='g')
ax.set_zlabel('Z')  # 坐標軸
ax.set_ylabel('Y')
ax.set_xlabel('X')
plt.show()
 

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/55455.html

標籤:其他

上一篇:Win10 在 CUDA 10.1 下跑 TensorFlow 2.x

下一篇:機器學習系列(二)——分類及回歸問題

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more