決策樹演算法-實戰篇-鳶尾花及波士頓房價預測-有解無憂

公號：碼農充電站pro
主頁：https://codeshellme.github.io

上篇文章介紹了決策樹演算法的理論篇，本節來介紹如何用決策樹解決實際問題，

決策樹是常用的機器學習演算法之一，決策樹模型的決策程序非常類似人類做判斷的程序，比較好理解，

決策樹可用于很多場景，比如金融風險評估，房屋價格評估，醫療輔助診斷等，

要使用決策樹演算法，我們先來介紹一下 scikit-learn ，

1，scikit-learn

scikit-learn 是基于Python 的一個機器學習庫，簡稱為sklearn，其中實作了很多機器學習演算法，我們可以通過sklearn 官方手冊來學習如何使用它，

sklearn 自帶資料集

要進行資料挖掘，首先得有資料，sklearn 庫的datasets 模塊中自帶了一些資料集，可以方便我們使用，

sklearn 自帶資料集：

鳶尾花資料集：load_iris()
乳腺癌資料集：load_breast_cancer()
手寫數字資料集：load_digits()
糖尿病資料集：load_diabetes()
波士頓房價資料集：load_boston()
體能訓練資料集：load_linnerud()
葡萄酒產地資料集：load_wine()

冒號后邊是每個資料集對應的函式，可以使用相應的函式來匯入資料，

比如我們用如下代碼匯入鳶尾花資料集：

from sklearn.datasets import load_iris
iris = load_iris()

使用dir(iris) 查看iris 中包含哪些屬性：

>>> dir(iris)
['DESCR', 'data', 'feature_names', 'filename', 'frame', 'target', 'target_names']

2，sklearn 中的決策樹

sklearn 庫的tree 模塊實作了兩種決策樹：

sklearn.tree.DecisionTreeClassifier 類：分類樹的實作，
sklearn.tree.DecisionTreeRegressor 類：回歸樹的實作，

分類樹用于預測離散型數值，回歸樹用于預測連續性數值，

sklearn 只實作了預剪枝，沒有實作后剪枝，

DecisionTreeClassifier 類的建構式

def __init__(self, *,
       criterion="gini",
       splitter="best",
       max_depth=None,
       min_samples_split=2,
       min_samples_leaf=1,
       min_weight_fraction_leaf=0.,
       max_features=None,
       random_state=None,
       max_leaf_nodes=None,
       min_impurity_decrease=0.,
       min_impurity_split=None,
       class_weight=None,
       ccp_alpha=0.0):

DecisionTreeClassifier 類的建構式中的criterion 引數有2 個取值：

entropy：表示使用 ID3 演算法（資訊增益）構造決策樹，
gini：表示使用CART 演算法（基尼系數）構造決策樹，為默認值，

其它引數可使用默認值，

sklearn 庫中的決策分類樹只實作了ID3 演算法和CART 演算法，

DecisionTreeRegressor 類的建構式

def __init__(self, *,
      criterion="mse",
      splitter="best",
      max_depth=None,
      min_samples_split=2,
      min_samples_leaf=1,
      min_weight_fraction_leaf=0.,
      max_features=None,
      random_state=None,
      max_leaf_nodes=None,
      min_impurity_decrease=0.,
      min_impurity_split=None,
      ccp_alpha=0.0):

DecisionTreeRegressor 類的建構式中的criterion 引數有4 個取值：

mse：表示均方誤差演算法，為默認值，
friedman_mse：表示費爾德曼均方誤差演算法，
mae：表示平均誤差演算法，
poisson：表示泊松偏差演算法，

其它引數可使用默認值，

3，構造分類樹

我們使用 sklearn.datasets 模塊中自帶的鳶尾花資料集 構造一顆決策樹，

在這里插入圖片描述

3.1，鳶尾花資料集

鳶尾花資料集目的是通過花瓣的長度和寬度，及花萼的長度和寬度，預測出花的品種，

這個資料集包含150條資料，將鳶尾花分成了三類(每類是50條資料)，分別是：

setosa，用數字0 表示，
versicolor，用數字1 表示，
virginica，用數字2 表示，

我們抽出3 條資料如下：

5.1,3.5,1.4,0.2,0
6.9,3.1,4.9,1.5,1
5.9,3.0,5.1,1.8,2

資料的含義：

每條資料包含5 列，列與列之間用逗號隔開，
從第1 列到第5 列，每列代表的含義是：花萼長度，花萼寬度，花瓣長度，花瓣寬度，花的品種，
在機器學習中，前4列稱為特征值，最后1列稱為目標值，我們的目的就是用特征值預測出目標值，

將上面3 條資料，用表格表示就是：

花萼長度	花萼寬度	花瓣長度	花瓣寬度	花的品種
5.1	3.5	1.4	0.2	0
6.9	3.1	4.9	1.5	1
5.9	3.0	5.1	1.8	2

3.2，構造分類樹

首先匯入必要的類和函式：

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

其中：

DecisionTreeClassifier 類用于構造決策樹，
load_iris() 函式用于匯入資料，
train_test_split() 函式用于將資料集拆分成訓練集與測驗集，
accuracy_score() 函式用于為模型的準確度進行評分，

匯入數據集：

iris = load_iris()   	# 準備資料集
features = iris.data	# 獲取特征集
labels = iris.target    # 獲取目標集

將資料分成訓練集和測驗集，訓練集用于訓練模型，測驗集用于測驗模型的準確度，

train_features, test_features, train_labels, test_labels = 
	train_test_split(features, labels, test_size=0.33, random_state=0)

我們向train_test_split() 函式中傳遞了4 個引數，分別是：

features：特征集，
labels：目標集，
test_size=0.33：測驗集資料所占百分比，剩下的資料分給訓練集，
random_state=0：亂數種子，

該函式回傳4 個值，分別是：

train_features：訓練特征集，
test_features：測驗特征集，
train_labels：訓練目標集，
test_labels：測驗目標集，

接下來構造決策樹：

# 用CART 演算法構建分類樹（你也可以使用ID3 演算法構建）
clf = DecisionTreeClassifier(criterion='gini')

# 用訓練集擬合構造CART分類樹
clf = clf.fit(train_features, train_labels)

上面兩句代碼已經在注釋中說明，最終我們得到了決策樹clf（classifier 的縮寫），

用clf 預測測驗集資料，test_predict 為預測結果：

test_predict = clf.predict(test_features)

計算預測結果的準確率：

score = accuracy_score(test_labels, test_predict)
score2 = clf.score(test_features, test_labels)
print(score, score2)

最終得出，sorce 和 score2都為 0.96，意思就是我們訓練出的模型的準確率為96%，

函式accuracy_score() 和 clf.score() 都可以計算模型的準確率，但注意這兩個函式的引數不同，

4，列印決策樹

為了清楚的知道，我們構造出的這個決策樹cfl 到底是什么樣子，可使用 graphviz 模塊將決策樹畫出來，

代碼如下：

from sklearn.tree import export_graphviz
import graphviz

# clf 為決策樹物件
dot_data = https://www.cnblogs.com/codeshell/p/export_graphviz(clf)
graph = graphviz.Source(dot_data)

# 生成 Source.gv.pdf 檔案，并打開
graph.view()

為了畫出決策樹，除了需要安裝相應的 Python 模塊外，還需要安裝Graphviz 軟體，

由上面的代碼，我們得到的決策樹圖如下：

在這里插入圖片描述

我們以根節點為例，來解釋一下每個方框里的四行資料（葉子節點是三行資料）都是什么意思，

在這里插入圖片描述

四行資料所代表的含義：

第一行X[3]<=0.75：鳶尾花資料集的特征集有4 個屬性，所以對于X[n]中的n的取值范圍為0<=n<=3，X[0] 表示第1個屬性，X[3] 表示第4 個屬性，X[3]<=0.75 的意思就是當X[3] 屬性的值小于等于0.75 的時候，走左子樹，否則走右子樹，
- X[0] 表示花萼長度，
- X[1] 表示花萼寬度，
- X[2] 表示花瓣長度，
- X[3] 表示花瓣寬度，
第二行gini=0.666，表示當前的gini 系數值，
第三行samples=100，samples 表示當前的樣本數，我們知道整個資料集有150 條資料，我們選擇了0.33 百分比作為測驗集，那么訓練集的資料就占0.67，也就是100 條資料，根節點包含所有樣本集，所以根節點的samples 值為100，
第四行value：value 表示屬于該節點的每個類別的樣本個數，value 是一個陣列，陣列中的元素之和為samples 值，我們知道該資料集的目標集中共有3 個類別，分別為：setosa，versicolor 和 virginica，所以：
- value[0] 表示該節點中setosa 種類的資料量，即34，
- value[1] 表示該節點中versicolor 種類的資料量，即31，
- value[2] 表示該節點中virginica 種類的資料量，即35，

4.1，列印特征重要性

我們構造出來的決策樹物件clf 中，有一個feature_importances_ 屬性，如下：

>>> clf.feature_importances_
array([0, 0.02252929, 0.88894654, 0.08852417])

clf.feature_importances_ 是一個陣列型別，里邊的元素分別代表對應特征的重要性，所有元素之和為1，元素的值越大，則對應的特征越重要，

所以，從這個陣列，我們可以知道，四個特征的重要性排序為：

花瓣長度 > 花瓣寬度 > 花萼寬度 > 花萼長度

我們可以使用下面這個函式，將該陣列畫成柱狀圖：

import matplotlib.pyplot as plt
import numpy as np

# mode 是我們訓練出的模型，即決策樹物件
# data 是原始資料集
def plot_feature_importances(model, data):
    n_features = data.data.shape[1]
    plt.barh(range(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), data.feature_names)
    plt.xlabel("Feature importance")
    plt.ylabel("Feature")

    plt.show()

plot_feature_importances(clf, iris)

下圖是用plot_feature_importances() 函式生成的柱狀圖（紅字是我添加的），從圖中可以清楚的看出每個特種的重要性，

在這里插入圖片描述
從該圖中也可以看出，為什么決策樹的根節點的特征是X[3]，

5，構造回歸樹

我們已經用鳶尾花資料集構造了一棵分類樹，下面我們用波士頓房價資料集構造一顆回歸樹，

來看幾條資料：

在這里插入圖片描述

首先，我們認為房價是有很多因素影響的，在這個資料集中，影響房價的因素有13 個：

"CRIM"，人均犯罪率，
"ZN"，住宅用地占比，
"INDUS"，非商業用地占比，
"CHAS"，查爾斯河虛擬變數，用于回歸分析，
"NOX"，環保指數，
"RM"，每個住宅的房間數，
"AGE"，1940 年之前建成的房屋比例，
"DIS"，距離五個波士頓就業中心的加權距離，
"RAD"，距離高速公路的便利指數，
"TAX"，每一萬美元的不動產稅率，
"PTRATIO"，城鎮中教師學生比例，
"B"，城鎮中黑人比例，
"LSTAT"，地區有多少百分比的房東屬于是低收入階層，

資料中的最后一列的資料是房價：

"MEDV" ，自住房屋房價的中位數，

因為房價是一個連續值，而不是離散值，所以需要構建一棵回歸樹，

下面對資料進行建模，構造回歸樹使用DecisionTreeRegressor 類：

from sklearn.tree import DecisionTreeRegressor
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# 準備資料集
boston = load_boston()

# 獲取特征集和房價
features = boston.data
prices = boston.target

# 隨機抽取33% 的資料作為測驗集，其余為訓練集
train_features, test_features, train_price, test_price = 
    train_test_split(features, prices, test_size=0.33)

# 創建CART回歸樹
dtr = DecisionTreeRegressor()

# 擬合構造CART回歸樹
dtr.fit(train_features, train_price)

# 預測測驗集中的房價
predict_price = dtr.predict(test_features)

# 測驗集的結果評價
print('回歸樹準確率:', dtr.score(test_features, test_price)) 
print('回歸樹r2_score:', r2_score(test_price, predict_price)) 
print('回歸樹二乘偏差均值:', mean_squared_error(test_price, predict_price))
print('回歸樹絕對值偏差均值:', mean_absolute_error(test_price, predict_price))

最后四行代碼是計算模型的準確度，這里用了4 種方法，輸出如下：

回歸樹準確率: 0.7030833400349499
回歸樹r2_score: 0.7030833400349499
回歸樹二乘偏差均值: 28.40730538922156
回歸樹絕對值偏差均值: 3.6275449101796404

需要注意，回歸樹與分類樹預測準確度的方法不一樣：

dtr.score()：與分類樹類似，不多說，
r2_score()：表示R 方誤差，結果與 dtr.score() 一樣，取值范圍是0 到1，
mean_squared_error()：表示均方誤差，數值越小，代表準確度越高，
mean_absolute_error()：表示平均絕對誤差，數值越小，代表準確度越高，

可以用下面代碼，將構建好的決策樹畫成圖：

from sklearn.tree import export_graphviz
import graphviz

# dtr 為決策樹物件
dot_data = https://www.cnblogs.com/codeshell/p/export_graphviz(dtr)
graph = graphviz.Source(dot_data)

# 生成 Source.gv.pdf 檔案，并打開
graph.view()

這棵二叉樹比較大，你可以自己生成看一下，

再來執行下面代碼，看下特征重要性：

import matplotlib.pyplot as plt
import numpy as np

# mode 是我們訓練出的模型，即決策樹物件
# data 是原始資料集
def plot_feature_importances(model, data):
    n_features = data.data.shape[1]
    plt.barh(range(n_features), model.feature_importances_, align='center')
    plt.yticks(np.arange(n_features), data.feature_names)
    plt.xlabel("Feature importance")
    plt.ylabel("Feature")

    plt.show()

plot_feature_importances(dtr, boston)

從生成的柱狀圖，可以看到LSTAT 對房價的影響最大：
在這里插入圖片描述

6，關于資料準備

本文中用到的資料是sklearn 中自帶的資料，資料完整性比較好，所以我們沒有對資料進行預處理，實際專案中，可能資料比較雜亂，所以在構建模型之前，先要對資料進行預處理，

要對資料有個清楚的認識，每個特征的含義，如果有特別明顯的特征對我們要預測的目標集沒有影響，則要將這些資料從訓練集中洗掉，
如果某些特征有資料缺失，需要對資料進行補全，可以使用著名的 Pandas 模塊對資料進行預處理，如果某特征的資料缺失嚴重，則應該將其從訓練集中洗掉，對于需要補全的值：
- 如果缺失的值是離散型資料，可以用出現次數最多的值去補全缺失值，
- 如果缺失的值是連續型資料，可以用該特征的平均值去補全缺失值，
如果某些特征的值是字串型別資料，則需要將這些資料轉為數值型資料，
- 可以使用 sklearn.feature_extraction 模塊中的 DictVectorizer 類來處理（轉換成數字0/1），
在測驗模型的準確率時，如果測驗集中只有特征值沒有目標值，就不好對測驗結果進行驗證，此時有兩種方法來測驗模型準確率：
- 在構造模型之前，用 train_test_split() 函式將原始資料集（含有目標集）拆分成訓練集和測驗集，
- 使用 sklearn.model_selection 模塊中的 cross_val_score 函式進行K 折交叉驗證來計算準確率，

K 折交叉驗證原理很簡單：

將資料集平均分成K 個等份，K 一般取10，

使用K 份中的1 份作為測驗資料，其余為訓練資料，然后進行準確率計算，

進行多次以上步驟，求平均值，

7，總結

本篇文章介紹了如何用決策樹來處理實際問題，主要介紹了以下知識點：

sklearn 是基于 Python 的一個機器學習庫，
sklearn.datasets 模塊中有一些自帶資料集供我們使用，
用 sklearn.tree 中的兩個類來構建分類樹和回歸樹：
- DecisionTreeClassifier 類：構造決策分類樹，用于預測離散值，
- DecisionTreeRegressor 類：構造決策回歸樹，用于預測連續值，
分別介紹了兩個類的建構式中的 criterion 引數的含義，
介紹了幾個重要函式的用途：
- train_test_split() 函式用于拆分資料集，
- o.fit() 用于擬合決策樹，（o 表示決策樹物件）
- o.predict() 用于預測資料，
- o.score() 用于給模型的準確度評分，
- accuracy_score() 函式用于給分類樹模型評分，
- r2_score() 函式用于給回歸樹模型評分，
- mean_squared_error() 函式用于給回歸樹模型評分，
- mean_absolute_error() 函式用于給回歸樹模型評分，
介紹了如何給決策樹畫圖，
介紹了如何給特征重要性畫圖，

(本節完，)

推薦閱讀：

決策樹演算法-理論篇

歡迎關注作者公眾號，獲取更多技術干貨，

碼農充電站pro

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/227324.html

標籤：其他

上一篇：發布更新｜騰訊云 Serverless 產品動態 20201124

下一篇：樸素貝葉斯分類-理論篇-如何通過概率解決分類問題