決策樹
? 決策樹是一種機器學習的方法,決策樹的生成演算法有ID3(資訊增益), C4.5(資訊增益率)和CART(Gini系數)等,決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的判斷,每個分支代表一個判斷結果的輸出,最后每個葉節點代表一種分類結果,
? 構造樹的基本想法是隨著樹深度的增加,節點的熵迅速地降低,熵降低地速度越快越好,這樣我們有望得到一顆高度最矮地決策樹,
熵和Gini系數
? 描述樣本純度,熵和Gini系數越大,表示樣本純度越小,即樣本中每一類出現的概率越小,
\[熵 = -\sum_{i=1}^{n}{P_i\ln(P_i)} \]\[Gini系數 = 1 - \sum_{k=1}^{K}{P_i^2} \]資訊增益
? 熵值的變化,希望構建決策樹的程序中,資訊增益越大越好,但如果在確定一個根節點之后,有很多子樣本,每個子樣本非常純,那么就會出現熵約等于1的情況,但這種情況不是我們希望看到的,所以此方法需要改進,
剪枝
預剪枝:在構建決策樹的程序時,提前停止
后剪枝:決策樹構建好后,然后才開始裁剪
評價函式
? 評價決策樹結構的好壞,類似于損失函式,其中Nt為當前葉子節點樣本個數,H(t)則表示當前葉子節點的熵值或Gini值,
\[C(T) = \sum_{t \epsilon leaf}{N_tH(t)} \]葉子節點個數太多,也會影響決策樹結構好壞,加入了剪枝以后,評價函式變為:
\[C_\alpha(T) = C(T) + \alpha|T_{leaf}| \]決策樹Python實作
from sklearn import tree
from sklearn.datasets import load_iris
from sklearn import model_selection
import matplotlib.pyplot as plt
import graphviz
# 加載鳶尾花資料集,X為資料集,y為標簽
dataSet = load_iris()
X = dataSet.data
y = dataSet.target
# 特證名稱
feature_names = dataSet.feature_names
# 類名
target_names = dataSet.target_names
# 劃分資料集
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, y)
# 實體化模型物件
# 1.criterion這個引數正是用來決定不純度的計算方法的
# 輸入"entropy",使用資訊熵;輸入“gini”,使用基尼系數
# 對于高維資料或者噪音很多的資料,資訊熵很容易過擬合,基尼系數在這種情況下效果往往會更好
# 2.random_state用來設定分支中的隨機模式的引數,默認為None,在高維度時隨機性會表示的更加明顯
# 3.splitter也是用來控制決策樹中的隨機選項的
# 輸入“best”,決策樹在分支時雖然隨機,但是還是會優先選擇更加重要的特征進行分支;
# 輸入"random",決策樹會在分支時更加隨機,樹會因為含有更多的不必資訊而更深更大,可能會導致過擬合問題
# 4.剪枝操作
# (1)max_depth:限制樹的最大深度,超過設定深度的樹枝全部剪掉
# (2)min_samples_leaf:一個節點在分支后的每個子節點都必須包含至少min_samples_leaf個訓練樣本,否則分支就不會發生
# (3)min_samples_split:一個節點必須要包含至少min_samples_split個訓練樣本,這個節點才允許被分支,否則分支就不會發生
# (4)max_features:限制分枝時考慮的特征個數,超過限制個數的特征都會被舍棄,和max_depth相似
# (5)min_impurity_decreases:限制資訊增益的大小,資訊增益小于設定數值的分枝不會發生,
clf = tree.DecisionTreeClassifier(criterion='entropy')
# 通過模型介面訓練模型
clf = clf.fit(X_train, Y_train)
# 模型預測
predict_y = clf.predict(X_test)
print("對測驗集樣本的預測結果:\n", predict_y)
predict_y1 = clf.predict_proba(X_test)
print("預測樣本為某個標簽的概率:\n", predict_y1)
# 通過測驗集對模型評分(0-1)
Test_score = clf.score(X_test, Y_test)
print("模型在測驗集上進行評分:\n", Test_score)
# 使用grapviz繪制決策樹
clf_dot = tree.export_graphviz(clf,
out_file=None,
feature_names=feature_names,
class_names=target_names,
filled=True,
rounded=True)
graph = graphviz.Source(clf_dot,
filename="iris_decisionTree",
format="png")
graph.view()
print("\n特征重要程度為:")
info = [*zip(feature_names, clf.feature_importances_)]
for cell in info:
print(cell)
# 確認最優的剪枝引數,橫坐標是超引數,縱坐標是模型度量,這里是Test_score
test = []
for i in range(10):
clf = tree.DecisionTreeClassifier(max_depth=i + 1
, criterion="entropy"
, random_state=30
, splitter="random"
)
clf = clf.fit(X_train, Y_train)
score = clf.score(X_test, Y_test)
test.append(score)
plt.plot(range(1, 11), test, color="red", label="max_depth")
plt.legend()
plt.show()
基于鳶尾花資料集的決策樹形狀

參考鏈接
機器學習第二階段:機器學習經典演算法(2)——決策樹與隨機森林
決策樹演算法python實作
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/553986.html
標籤:其他
上一篇:K8s Pod狀態與容器探針
下一篇:返回列表
