第一章緒論

1.2 基本術語

資料集 ，包含m個樣本的集合，
特征，樣本的屬性描述，
樣本空間 ，每個樣本有d個特征，特征張成的空間就是樣本空間，d就是維數；
訓練集，用到演算法里“學習”、“訓練”的資料樣本集合，
測驗集，模型學習好之后，使用它來預測，也就是測驗，被預測的樣本集合就是測驗集，
學習器，給定資料和引數的學習演算法，
標記（label），訓練樣本的結果，擁有label的樣本為樣例，
標記空間（label space），又“輸出空間”，所有標記的集合，
分類&回歸，分類：預測離散值，即label是離散的，eg.是否欺詐用戶；涉及兩個類別就是二分類，包括正類和反類，涉及多個類別的是多分類，回歸：預測連續值，eg.下雨的概率，這倆學習程序都是有監督學習，即有label，
聚類，將訓練集中的樣本分成若干個組，稱為簇，這些簇不具有標記資訊，故該學習程序為無監督學習，
泛化能力，模型適用于新樣本的能力；訓練樣本多—>泛化能力強—>很好適用于整個樣本空間，

從樣例中學習的程序就是“特殊—>一般”的歸納學習，狹義稱為概念學習，eg.布爾概念學習（0/1）；

學習的程序中不僅要判斷訓練集中已有的樣本情況，還要判段未知的情況，實際上，就是把所有可能的假設情況都列出，然后找到與訓練集匹配的，所有假設組成了假設空間，

留出法，將資料集一分為二，訓練集與測驗集互斥，一般是2/3~4/5樣本用于訓練，

需要分層采樣（資料分布盡量一致）、多次隨機劃分、重復實驗，最后結果取平均，

缺陷：訓練集樣本過少—>評估結果保真性低；測驗集樣本過少—>評估結果穩定準確性低，
交叉驗證法，把資料集劃分為k個互斥子集（同分布），輪流抽一個出來作為測驗集，其他為訓練集，k決定評估結果的保真性和穩定性，

同樣，需要隨機使用不同的劃分，重復p次，最終結果是p次k折交叉結果取均值，
自助法，有放回采樣m次，采出來的樣本作為訓練集，未被采的樣本作為測驗集，

缺陷：改變了資料集的分布，適合資料集較小時使用，

注意：測驗集評估模型的泛化能力，防止資訊泄露，但還需要有驗證集來調參、比較模型，也就是說訓練之前，還需要劃分出驗證集，

衡量模型泛化能力的評價標準；比較預測值和真實值，

回歸——均方誤差（各資料偏離真實值差值的平方和的平均數）

分類——錯誤率(error rate)&精度(accuracy)

查準率(precision)&查全率(recall)
P：預測為正例的樣本里，有多少是真的；
R：所有正例中，有多少被預測出來了；

比較學習器時，評估：
平衡點——P=R時的取值
F1——P和R的調和平均數

參考書籍:
[1]《機器學習》周志華
[2]《南瓜書》https://github.com/datawhalechina/pumpkin-book

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/294858.html

標籤：AI