第二章 2.3章末小結

機器學習模型按照使用的資料型別，可分為監督學習和無監督學習兩大類，

在這里插入圖片描述

線性：假設特征與分類結果存在線性關系，使用sigmoid函式映射到0～1，適合處理具有線性關系的資料，
在科學研究與工程實踐中可把線性分類器的表現作為基準，lr使用精確決議，SGD使用隨機梯度上升估計模型引數，耗時短，準確率略低

支持向量機：精妙的模型假設，線性假設，只用考慮兩個空間間隔最小的兩個不同類別的資料點，可以在高維資料中選擇最為有效的少數訓練樣本，這樣不僅節省了模型學習所需要的記憶體，而且也提高了模型的預測性能，但付出了計算資源和時間的代價，

樸素貝葉斯（naive bayes ）基于貝葉斯理論，前提：各個維度上的特征被分類的條件概率之間互相獨立，

k近鄰：不需要引數訓練，其屬于無引數模型，非常高的計算復雜度（平方級）和記憶體消耗，

決策樹：推斷邏輯直觀，有清晰的可解釋性，也方便模型的可視化，易描述非線性關系，模型在學習的時候，需要考慮特征節點的選取順序，
常用的度量方式包括資訊熵和基尼不純性，并不懂，，

集成模型：有代表性的隨機森林，同時搭建多個決策樹模型，開始投票，
決策樹可以隨機選取特征構建節點（隨機森林），或者按次序搭建分類模型（梯度提升決策樹GTB）
特點：訓練耗費時間，但是往往有更好的表現性能和穩定性，

我看分類這邊都在用線性的度量指標，

只是評估指標變了，在回歸中有R^2^，MS（平方）E 均方誤差，MA（絕對）E平方絕對誤差，
R^2^用來衡量模型回歸結果的波動可被真實值驗證的百分比，也暗示了模型在數值回歸方面的能力，

主流的k-means采用的迭代演算法，直觀易懂并非常實用，

主成分分析（PCA principal component analysis）
相較于損失的少部分模型性能，維度壓縮能夠節省大量模型訓練時間，

明天開始進階篇

隱隱約約感覺不太對，這個沒啥基礎啊全是呼叫

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/49854.html

標籤：其他

Python機器學習及實踐 課后小題