DataWhale-樹模型與集成學習-Task01-決策樹-202110-有解無憂

一、練習題

1. 練習01

解答：

(1)

$\begin{equation} \begin{aligned} G(Y,X)&=\sum_{k=1}^{K}\sum_{m=1}^{M}p(y_k,x_m)\log_2\frac{p(y_k,x_m)}{p(y_k)p(x_m)}\\ &=\sum_{k=1}^{K}\sum_{m=1}^{M}p(y_k,x_m)[\log_2\frac{p(y_k,x_m)}{p(y_k)}-\log_2p(x_m)] \\ &=\sum_{k=1}^{K}\sum_{m=1}^{M}p(y_k)\frac{p(y_k,x_m)}{p(y_k)}\log_2\frac{p(y_k,x_m)}{p(y_k)}-\sum_{k=1}^{K}\sum_{m=1}^{M}p(y_k,x_m)\log_2p(x_m)\\ &=\sum_{k=1}^Kp(y_k)\sum_{m=1}^Mp(x_m|Y=y_k)\log_2p(x_m|Y=y_k)-\sum_{m=1}^Mp(x_m)\log_2p(x_m)\\ &=H(X)-H(X|Y) \end{aligned} \end{equation}$

(2)

$\begin{equation} \begin{aligned} H(Y,X)&=-\sum_{k=1}^K\sum_{m=1}^Mp(y_k,x_m)\log_2p(y_k,x_m)\\ &=-\sum_{k=1}^K\sum_{m=1}^Mp(y_k,x_m)[\log_2p(x_m)+\log_2\frac{p(y_k,x_m)}{p(x_m)}]\\ &=-\sum_{k=1}^K\sum_{m=1}^Mp(y_k,x_m)\log_2p(x_m)-\sum_{k=1}^K\sum_{m=1}^Mp(x_m)\frac{p(y_k,x_m)}{p(x_m)}\log_2\frac{p(y_k,x_m)}{p(x_m)}\\ &=H(X)+H(Y|X) \end{aligned} \end{equation}$

結合 $G(Y,X)=H(Y)-H(Y|X)$

可以得到 $G(Y,X)=H(X)+H(Y)-H(Y,X)$

(3)

通過上面已經得到的公式，很容易證明 $G(Y,X)=H(Y,X)-H(X|Y)-H(Y|X)$

(4)

H(X)對應A U B, H(Y)對應B U C, H(X|Y)對應A, H(Y|X)對應C, H(Y,X)對應AUBUC, G(Y,X)對應B

2. 練習02

【練習】假設當前我們需要處理一個分類問題，請問對輸入特征進行歸一化會對樹模型的類別輸出產生影響嗎？請解釋原因，

解答：不會，因為歸一化處理不會改變樣本輸入特征和樣本標簽類別的分布，會得到一樣的樹，

3. 練習03

【練習】如果將系數替換為1?γ^2，請問對缺失值是加強了還是削弱了懲罰？

解答：因為γ<1,所以是削弱了懲罰，

4.練習04

【練習】如果將樹的生長策略從深度優先生長改為廣度優先生長，假設其他引數保持不變的情況下，兩個模型對應的結果輸出可能不同嗎？

解答：由于同一層級子節點已經對樣本進行了劃分，所以深度優先和廣度優先生成的模型應該是一樣的，

5. 練習05

【練習】在一般的機器學習問題中，我們總是通過一組引數來定義模型的損失函式，并且在訓練集上以最小化該損失函式為目標進行優化，請問對于決策樹而言，模型優化的目標是什么？

解答：應該是資訊增益最大化，考慮到預剪枝和后剪枝，應該是各種約束條件下的資訊增益最大化，

6.練習06

【練習】對資訊熵中的log函式在p=1處進行一階泰勒展開可以近似為基尼系數，那么如果在p=1處進行二階泰勒展開我們可以獲得什么近似指標？請寫出對應指標的資訊增益公式，

$\begin{equation} \begin{aligned} H(Y)&=\mathbb{E}_Y[-\log_2p(Y)]\\& \approx\mathbb{E}_Y[1-p(Y)+\frac{1}{2}(1-p(Y)^2]\\ &=\sum_{k=1}^Kp(y_k)[1-p(y_k)+\frac{1}{2}(1-p(y_k)^2] \end{equation} \end{aligned}$

$\begin{equation} \begin{aligned} H(Y|X)&=\mathbb{E}_X[\mathbb{E}_{Y|X}(1-p(Y|X)+\frac{1}{2}(1-p(Y|X))^2)] {\color{Emerald} }\\ &=\sum_{m=1}^Mp(x_m)\sum_{k=1}^K[p(y_k|x_m)(1-p(y_k|x_m)+\frac{1}{2}(1-p(y_k|x_m))^2)] \end{equation} \end{aligned}$

$G(Y,X)=H(Y)-H(Y|X)$

7. 練習07

$H(Y)=1-\max_kp(Y=y_k)$

$H(Y|X)=\sum_{m=1}^Mp(x_m)[1-\max_kp(Y=y_k|X=x_m)]$

$G(Y,X)=H(Y)-H(Y|X)$

因為該純度指標在單一分布時取最小值0，在均勻分布時取最大值，且該指標是單調的，

8.練習08

【練習】為什么對沒有重復特征值的資料，決策樹能夠做到損失為0？

解答：因為沒有重復特征值的情況下，決策樹的節點可以一直向下分直到每個葉節點都只有1個樣本資料，

9.練習09

【練習】如何理解min_samples_leaf引數能夠控制回歸樹輸出值的平滑程度？

解答：因為葉節點樣本數越小，其樣本均值用來做估計的平滑程度越低，均方差越大，

二、知識回顧

1. ID3樹演算法、C4.5樹演算法和CART演算法之間有何異同？

解答： ID3用最大資訊增益來進行節點分裂，C4.5在ID3基礎上做出了諸多改進，包括但不限于：處理數值特征、處理含缺失值的特征、使用資訊增益比代替資訊增益以及給出樹的剪枝策略，

CART是一顆二叉樹，只是現在不再以熵（條件熵）來評價節點（子節點）的純度，對于數值標簽而言，我們可以認為節點間元素大小越接近則純度越高，因此可以考慮使用均方誤差（MSE）或平均絕對誤差（MAE）來替換熵和條件熵的位置，當處理分類問題時，CART將熵中的loglog在p=1p=1處利用一階泰勒展開，基尼系數定義為熵的線性近似，

2. 什么是資訊增益？它衡量了什么指標？它有什么缺陷？

解答：在資訊熵和條件熵的基礎上，可以定義資訊增益，即在得到了隨機變數X的取值資訊時，隨機變數Y不確定性的平均減少量，即節點分裂之后帶來了多少不確定性的降低或純度的提高，

資訊增益來選擇的決策樹對類別較多的特征具有天然的傾向性，在類別占比均勻的情況下，類別數越多則熵越高，使用了資訊增益比來代替資訊增益更合適，

3. sklearn決策樹中的random_state引數控制了哪些步驟的隨機性？

解答：抽出max_features個特征的隨機性，對于數值特征采用隨機分割法時的隨機性，

4. 決策樹如何處理連續變數和缺失變數？

解答：連續的數值特征可以采用最佳分割法和隨機分割法，樣本的缺失值占比越大，那么對資訊增益的懲罰就越大，設節點N的樣本缺失值比例為γ

5. 基尼系數是什么？為什么要在CART中引入它？

解答：由于對數函式log的計算代價較大，CART將熵中的log在p=1處利用一階泰勒展開，基尼系數定義為熵的線性近似，

6. 什么是樹的預剪枝和后剪枝？具體分別是如何操作的？

解答：預剪枝是指樹在判斷節點是否分裂的時候就預先通過一些規則來阻止其分裂，后剪枝是指在樹的節點已經全部生長完成后，通過一些規則來摘除一些子樹，

預剪枝策略通過引數控制，它們分別是最大樹深度max_depth、節點分裂的最小樣本數min_samples_split、葉節點最小樣本數min_samples_leaf、節點樣本權重和與所有樣本權重和之比的最小比例min_weight_fraction_leaf、最大葉節點總數max_leaf_nodes以及之前提到的分裂閾值min_impurity_decrease，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/316063.html

標籤：AI

上一篇：Python-讀取檔案后資料未附加到串列和缺少字典鍵

下一篇：擁抱AI技術，賦能智慧工業