主頁 >  其他 > 決策樹

決策樹

2023-06-01 08:53:10 其他

決策樹

? 決策樹是一種機器學習的方法,決策樹的生成演算法有ID3(資訊增益), C4.5(資訊增益率)和CART(Gini系數)等,決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,最后每個葉節點代表一種分類結果,
? 構造樹的基本想法是隨著樹深度的增加,節點的熵迅速地降低,熵降低地速度越快越好,這樣我們有望得到一顆高度最矮地決策樹,

熵和Gini系數

? 描述樣本純度,熵和Gini系數越大,表示樣本純度越小,即樣本中每一類出現的概率越小,

\[熵 = -\sum_{i=1}^{n}{P_i\ln(P_i)} \]

\[Gini系數 = 1 - \sum_{k=1}^{K}{P_i^2} \]

資訊增益

? 熵值的變化,希望構建決策樹的程序中,資訊增益越大越好,但如果在確定一個根節點之后,有很多子樣本,每個子樣本非常純,那么就會出現熵約等于1的情況,但這種情況不是我們希望看到的,所以此方法需要改進,

剪枝

預剪枝:在構建決策樹的程序時,提前停止

后剪枝:決策樹構建好后,然后才開始裁剪

評價函式

? 評價決策樹結構的好壞,類似于損失函式,其中Nt為當前葉子節點樣本個數,H(t)則表示當前葉子節點的熵值或Gini值,

\[C(T) = \sum_{t \epsilon leaf}{N_tH(t)} \]

葉子節點個數太多,也會影響決策樹結構好壞,加入了剪枝以后,評價函式變為:

\[C_\alpha(T) = C(T) + \alpha|T_{leaf}| \]

決策樹Python實作

from sklearn import tree
from sklearn.datasets import load_iris
from sklearn import model_selection
import matplotlib.pyplot as plt
import graphviz

# 加載鳶尾花資料集,X為資料集,y為標簽
dataSet = load_iris()
X = dataSet.data
y = dataSet.target
# 特證名稱
feature_names = dataSet.feature_names
# 類名
target_names = dataSet.target_names
# 劃分資料集
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, y)

# 實體化模型物件
# 1.criterion這個引數正是用來決定不純度的計算方法的
# 輸入"entropy",使用資訊熵;輸入“gini”,使用基尼系數
# 對于高維資料或者噪音很多的資料,資訊熵很容易過擬合,基尼系數在這種情況下效果往往會更好
# 2.random_state用來設定分支中的隨機模式的引數,默認為None,在高維度時隨機性會表示的更加明顯
# 3.splitter也是用來控制決策樹中的隨機選項的
# 輸入“best”,決策樹在分支時雖然隨機,但是還是會優先選擇更加重要的特征進行分支;
# 輸入"random",決策樹會在分支時更加隨機,樹會因為含有更多的不必資訊而更深更大,可能會導致過擬合問題
# 4.剪枝操作
# (1)max_depth:限制樹的最大深度,超過設定深度的樹枝全部剪掉
# (2)min_samples_leaf:一個節點在分支后的每個子節點都必須包含至少min_samples_leaf個訓練樣本,否則分支就不會發生
# (3)min_samples_split:一個節點必須要包含至少min_samples_split個訓練樣本,這個節點才允許被分支,否則分支就不會發生
# (4)max_features:限制分枝時考慮的特征個數,超過限制個數的特征都會被舍棄,和max_depth相似
# (5)min_impurity_decreases:限制資訊增益的大小,資訊增益小于設定數值的分枝不會發生,
clf = tree.DecisionTreeClassifier(criterion='entropy')

# 通過模型介面訓練模型
clf = clf.fit(X_train, Y_train)

# 模型預測
predict_y = clf.predict(X_test)
print("對測驗集樣本的預測結果:\n", predict_y)
predict_y1 = clf.predict_proba(X_test)
print("預測樣本為某個標簽的概率:\n", predict_y1)
# 通過測驗集對模型評分(0-1)
Test_score = clf.score(X_test, Y_test)
print("模型在測驗集上進行評分:\n", Test_score)

# 使用grapviz繪制決策樹
clf_dot = tree.export_graphviz(clf,
                               out_file=None,
                               feature_names=feature_names,
                               class_names=target_names,
                               filled=True,
                               rounded=True)
graph = graphviz.Source(clf_dot,
                        filename="iris_decisionTree",
                        format="png")
graph.view()
print("\n特征重要程度為:")
info = [*zip(feature_names, clf.feature_importances_)]
for cell in info:
    print(cell)

# 確認最優的剪枝引數,橫坐標是超引數,縱坐標是模型度量,這里是Test_score
test = []
for i in range(10):
    clf = tree.DecisionTreeClassifier(max_depth=i + 1
                                      , criterion="entropy"
                                      , random_state=30
                                      , splitter="random"
                                      )
    clf = clf.fit(X_train, Y_train)
    score = clf.score(X_test, Y_test)
    test.append(score)
plt.plot(range(1, 11), test, color="red", label="max_depth")
plt.legend()
plt.show()

基于鳶尾花資料集的決策樹形狀

image

參考鏈接

機器學習第二階段:機器學習經典演算法(2)——決策樹與隨機森林

決策樹演算法python實作

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/553986.html

標籤:其他

上一篇:K8s Pod狀態與容器探針

下一篇:返回列表

標籤雲
其他(160111) Python(38193) JavaScript(25469) Java(18172) C(15235) 區塊鏈(8268) C#(7972) AI(7469) 爪哇(7425) MySQL(7219) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5344) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4580) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1979) 功能(1967) Web開發(1951) HtmlCss(1950) C++(1928) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1879) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 決策樹

    # 決策樹 ? 決策樹是一種機器學習的方法。決策樹的生成演算法有ID3(資訊增益), C4.5(資訊增益率)和CART(Gini系數)等。決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,最后每個葉節點代表一種分類結果。 ? 構造樹的基本想法是隨著樹深度的增加 ......

    uj5u.com 2023-06-01 08:53:10 more
  • K8s Pod狀態與容器探針

    Pause 容器,又叫 Infra 容器,是pod的基礎容器,鏡像體積只有幾百KB左右,配置在kubelet中,主要的功能是一個pod中多個容器的網路通信。
    Infra 容器被創建后會初始化 Network Namespace,之后其它容器就可以加入到 Infra 容器中共享Infra 容器的網路了... ......

    uj5u.com 2023-06-01 08:46:37 more
  • React Native+小程式容器=更高的開發效率

    React Native是由Facebook開發并于2015年首次發布的一個框架,用于構建原始的移動應用程式。 它具有許多技術上的優勢: 跨平臺開發:使用React Native,您可以使用相同的代碼庫構建同時運行在iOS和Android平臺上的應用程式。這種跨平臺的開發方式可以大大減少開發作業量和 ......

    uj5u.com 2023-06-01 08:23:46 more
  • ChatGPT正式登陸iOS平臺

    6天前,ChatGPT在美區App Store中上架了官方App,累計下載量已經突破 50 萬次,OpenAI 的 ChatGPT 應用在上架之后,其熱度遠超必應聊天等聊天機器人,以及其它使用 GPT-4 的第三方應用。 3.5是免費的,GPT4是收費的,需要開通Plus會員,還集成了OpenAI的 ......

    uj5u.com 2023-06-01 08:23:42 more
  • 4.4. 物件序列化與反序列化

    在本節中,我們將詳細討論Java中的物件序列化與反序列化概念、使用方法以及實體。物件序列化是將物件的狀態資訊轉換為位元組流的程序,而反序列化則相反,是將位元組流恢復為物件的程序。 #### 4.4.1 為什么需要物件序列化? 物件序列化的主要目的是為了在不同的系統間傳輸物件,或者將物件持久化到磁盤檔案中 ......

    uj5u.com 2023-06-01 08:23:36 more
  • 玩轉服務器之網站篇:新手使用WordPress搭建博客和靜態網站部署

    在之前的玩轉服務器系列文章里,我們介紹了如何構建小型的高可用環境、PHP、Python、Java web、docker環境部署,以及Node.js SSR應用,本篇文章主要介紹新手也能快速上手的WordPress博客搭建和靜態網站部署的教程 ......

    uj5u.com 2023-06-01 08:23:31 more
  • 解讀與用戶一起“跳動”的開源實時監控工具 HertzBeat

    摘要:開源專案遇上華為云,會擦出怎樣的火花? 在本期《開源實時監控工具HertzBeat如何與用戶一起“跳動? 》的主題直播中,HertzBeat & TanCloud 創始人鞏超與開發者和伙伴朋友們交流當前主流指標監控方案,解讀HertzBeat及能力特點,并為大家演示了如何通過華為云商店安裝部署 ......

    uj5u.com 2023-06-01 08:23:16 more
  • 基于AIGC的京東購物助手的技術方案設想

    隨著AIGC的爆火,ChatGPT,GPT-4的發布,我作為一個演算法作業者,深感AI發展的迅猛。最近,OpenAI的插件和聯網功能陸續向用戶公開,我也在第一時間試用了這些最新的功能。在OpenAI的插件市場上,我被一個可以幫助分析食譜,并生成購物清單的功能所吸引。 ......

    uj5u.com 2023-06-01 08:22:53 more
  • 【經驗分享】銳捷EVE在火狐游覽器中,取消一律打開此應用的選項,重

    # 環境: >工具:銳捷EVE模擬器,火狐游覽器,SecureCRT_8.7 系統版本:Windows 10 # 需求描述: >描述:在選擇一律使用此程式打開應用后,找不到取消的地方,也因此無法更改打開的應用。 >提示: >若按照教程還是無法完成操作,可以進入右側的企鵝,找我看看,或者進嗶哩嗶哩自行 ......

    uj5u.com 2023-06-01 08:22:39 more
  • C端用戶體驗度量實戰篇-京東快遞小程式體驗度量全面升級

    本文通過介紹體驗度量模型升級研究程序、研究方法及研究結果等內容,結合實際C端產品應用,觀測新模型運行周期的表現,驗證了其在高速發展的業務形態和日益變化的用戶需求上的適用性和有效性。 ......

    uj5u.com 2023-06-01 08:22:33 more