吐血整理：關于機器學習不可不知的15個概念-有解無憂

導讀：本文介紹不同型別的機器學習方法，以及模型評估的相關概念，

作者：布奇·昆托（Butch Quinto）

來源：大資料DT（ID：hzdashuju）

01 有監督學習

有監督學習是利用訓練資料集進行預測的機器學習任務，有監督學習可以分為分類和回歸，回歸用于預測“價格”“溫度”或“距離”等連續值，而分類用于預測“是”或“否”、“垃圾郵件”或“非垃圾郵件”、“惡性”或“良性”等類別，

分類包含三種型別的分類任務：二元分類、多類別分類和多標簽分類，回歸中包含線性回歸和生存回歸，

02 無監督學習

無監督學習是一種機器學習任務，它在不需要標記回應的情況下發現資料集中隱藏的模式和結構，當你只能訪問輸入資料，而訓練資料不可用或難以獲取時，無監督學習是理想的選擇，常用的方法包括聚類、主題建模、例外檢測、推薦和主成分分析，

03 半監督學習

在某些情況下，獲取標記資料是昂貴且耗時的，在回應標記很少的情況下，半監督學習結合有監督和無監督學習技術進行預測，在半監督學習中，利用未標記資料對標記資料進行擴充以提高模型準確率，

04 強化學習

強化學習試圖通過不斷從嘗試的程序和錯誤的結果來進行學習，確定哪種行為能帶來最大的回報，強化學習有三個組成部分：智能體（決策者或學習者）、環境（智能體與之互動的內容）和行為（智能體可以執行的內容），這類學習通常用于游戲、導航和機器人技術，

05 深度學習

深度學習是機器學習和人工智能的一個分支，它使用深度的、多層的人工神經網路，最近人工智能領域的許多突破都歸功于深度學習，

06 神經網路

神經網路是一類類似于人腦中相互連接的神經元的演算法，一個神經網路包含多層結構，每一層由相互連接的節點組成，通常有一個輸入層、一個或多個隱藏層和一個輸出層，

07 卷積神經網路

卷積神經網路（convnet或CNN）是一種特別擅長分析圖的神經網路（盡管它們也可以應用于音頻和文本資料），卷積神經網路各層中的神經元按高度、寬度和深度三個維度排列，我將在第7章更詳細地介紹深度學習和深度卷積神經網路，

08 模型評估

在分類中，每個資料點都有一個已知的標簽和一個模型生成的預測類別，通過比較已知的標簽和預測類別為每個資料點進行劃分，結果可以分為四個類別：

真陽性（TP），預測類別和標簽均為陽性；
真陰性（TN），預測類別和標簽均為陰性；
假陽性（FP），預測類別為陽性但標簽為陰性；
假陰性（FN），預測類別為陰性但標簽為陽性，

這四個值構成了大多數分類任務評估指標的基礎，它們通常在一個叫作混淆矩陣的表格中呈現（如表1-1），

▼表1-1 混淆矩陣

09 準確率

準確率是分類模型的一個評估指標，它定義為正確預測數除以預測總數，

在資料集不平衡的情況下，準確率不是理想的指標，舉例說明，假設一個分類任務有90個陰性和10個陽性樣本；將所有樣本分類為陰性會得到0.90的準確率分數，精度和召回率是評估用例不平衡資料的訓練模型的較好指標，

10 精度

精度定義為真陽性數除以真陽性數加上假陽性數的和，精度表明當模型的預測為陽性時，模型正確的概率，例如，如果你的模型預測了100個癌癥的發生，但是其中10個是錯誤的預測，那么你的模型的精度是90%，在假陽性較高的情況下，精度是一個很好的指標，

11 召回率

召回率是一個很好的指標，可用于假陰性較高的情況，召回率的定義是真陽性數除以真陽性數加上假陰性數的和，

12 F1度量

F1度量或F1分數是精度和召回率的調和平均值或加權平均值，它是評估多類別分類器的常用性能指標，在類別分布不均的情況下，這也是一個很好的度量，最好的F1分數是1，而最差的分數是0，一個好的F1度量意味著你有較低的假陰性和較低的假陽性，F1度量定義如下：

13 AUROC

接收者操作特征曲線下面積（AUROC）是評估二元分類器性能的常用指標，接收者操作特征曲線（ROC）是依據真陽性率與假陽性率繪制的圖，曲線下面積（AUC）是ROC曲線下的面積，

在對隨機陽性樣本和隨機陰性樣本進行預測時，將陽性樣本預測為陽性的概率假設為P0，將陰性樣本預測為陽性的概率假設為P1，AUC就是P0大于P1的概率，曲線下的面積越大（AUROC越接近1.0），模型的性能越好，AUROC為0.5的模型是無用的，因為它的預測準確率和隨機猜測的準確率一樣，

14 過擬合與欠擬合

模型性能差是由過擬合或欠擬合引起的，

過擬合是指一個模型太適合訓練資料，過擬合的模型在訓練資料上表現良好，但在新的、看不見的資料上表現較差，

過擬合的反面是欠擬合，由于擬合不足，模型過于簡單，沒有學習訓練資料集中的相關模式，這可能是因為模型被過度規范化或需要更長時間的訓練，

模型能夠很好地適應新的、看不見的資料，這種能力被稱為泛化，這是每個模型優化練習的目標，

防止過擬合的幾種方法包括使用更多的資料或特征子集、交叉驗證、洗掉、修剪、提前停止和正則化，對于深度學習，資料增強是一種常見的正則化形式，

為了減少欠擬合，建議選擇添加更多相關的特征，對于深度學習，考慮在一個層中添加更多的節點或在神經網路中添加更多的層，以增加模型的容量，

15 模型選擇

模型選擇包括評估擬合的機器學習模型，并嘗試用用戶指定的超引陣列合來擬合底層估計器，再輸出最佳模型，通過使用Spark MLlib，模型選擇由CrossValidator和TrainValidationSplit估計器執行，

CrossValidator對超引數調整和模型選擇執行k-fold交叉驗證和網格搜索，它將資料集分割成一組隨機的、不重疊的磁區，作為訓練和測驗資料集，例如，如果k=3，k-fold交叉驗證將生成3對訓練和測驗資料集（每一對僅用作一次測驗資料集），其中每一對使用2/3作為訓練資料，1/3用于測驗，

TrainValidationSplit是用于超引陣列合的另一種估計器，與k-fold交叉驗證（這是一個昂貴的操作）相反，TrainValidationSplit只對每個引陣列合求值一次，而不是k次，

關于作者：布奇·昆托（Butch Quinto），在銀行與金融、電信、政府部門、公共事業、交通運輸、電子商務、零售業、制造業和生物資訊學等多個行業擁有20多年的技術和領導經驗，他是Next-Generation Big Data（Apress，2018）的作者，也是人工智能促進協會（AAAI）和美國科學促進會（AAAS）的成員，

本文摘編自《基于Spark的下一代機器學習》，經出版方授權發布，