一、監督學習基礎知識

利用一組帶有標簽的資料，學習從輸入到輸出的映射，然后將這種映射關系應用到未知資料上，達到分類或回歸的目的

分類：當輸出是離散的，學習任務為分類任務

回歸：當輸出是連續的，學習任務為回歸任務

二、分類學習

1、輸入與輸出

輸入：一組有標簽的訓練資料(也稱觀察和評估)，標簽表明了這些資料（觀察）的所署類別輸出：分類模型根據這些訓練資料，訓練自己的模型引數，學習出一個適合這組資料的分類器，當有新資料（非訓練資料）需要進行類別判斷，就可以將這組新資料作為輸入送給學好的分類器進行判斷

2、分類任務

3、評價

訓練集(training set):顧名思義用來訓練模型的已標注資料，用來建立模型，發現規律

測驗集(testing set):也是已標注資料，通常做法是將標注隱藏，輸送給訓練好的模型，通過結果與真實標注進行對比，評估模型的學習能力

訓練集/測驗集的劃分方法：根據已有標注資料，隨機選出一部分資料（70%）資料作為訓練資料，余下的作為測驗資料，此外還有交叉驗證法，自助法用來評估分類模型

精確率：精確率是針對我們預測結果而言的，（以二分類為例）它表示的是預測為正的樣本中有多少是真正的正樣本，那么預測為正就有兩種可能了，一種就是把正類預測為正類(TP)，一種就是把負類預測為正類(FP)，也就是

召回率：是針對我們原來的樣本而言的，它表示的是樣本中的正例有多少被預測正確了，那也有兩種可能，一種是把原來的正類預測成正類(TP)，另一種就是把原來的正類預測為負類(FN)，也就是

假設我們手上有60個正樣本，40個負樣本，我們要找出所有的正樣本，分類演算法查找出50個，其中只有40個是真正的正樣本

TP: 將正類預測為正類數40

FN: 將正類預測為負類數20

FP: 將負類預測為正類數10

TN: 將負類預測為負類數30

準確率（accuracy）= (TP+TN)/(TP+FN+FP+TN) = 70%

精確率（precision）= TP/(TP+FP)=80%

召回率（recall）=TP/(TP+FN)=66.7%

4、sklearn庫

與聚類演算法被統一封裝在sklearn.cluster模塊不同，sklearn庫中的分類演算法并未被統一封裝在一個子模塊中，因此對分類演算法的import方式各有不同

Sklearn提供的分類函式包括：

k近鄰（knn）、樸素貝葉斯（naivebayes）、支持向量機（svm）、決策樹（decision tree）、神經網路模型（Neural networks）等，這其中有線性分類器，也有非線性分類器

5、應用

金融：貸款是否批準進行評估

醫療診斷：判斷一個腫瘤是惡性還是良性

欺詐檢測：判斷一筆銀行的交易是否涉嫌欺詐

網頁分類：判斷網頁的所屬類別，財經或者是娛樂？

三、回歸分析

1、基礎知識

統計學分析資料的方法，目的在于了解兩個或多個變數間是否相關、研究其相關方向與強度，并建立數學模型以便觀察特定變數來預測研究者感興趣的變數，回歸分析可以幫助人們了解在自變數變化時因變數的變化量，一般來說，通過回歸分析我們可以由給出的自變數估計因變數的條件期望

2、回歸任務

3、sklearn庫

Sklearn提供的回歸函式主要被封裝在兩個子模塊中，分別是sklearn.linear_model和sklearn.preprocessing

sklearn.linear_modlel封裝的是一些線性函式，線性回歸函式包括有：

普通線性回歸函式（ LinearRegression ）

嶺回歸（Ridge）

Lasso（Lasso）

非線性回歸函式，如多項式回歸（PolynomialFeatures）則通過 sklearn.preprocessing子模塊進行呼叫

4、應用

回歸方法適合對一些帶有時序資訊的資料進行預測或者趨勢擬合，常用在金融及其他涉及時間序列分析的領域：

股票趨勢預測

交通流量預測

資料來源：《Python機器學習應用》——禮欣，嵩天，北京理工大學，MOOC

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/141170.html

標籤：Python

上一篇：Python基礎-15模塊-包-庫

下一篇：Python的Cookie如何正確操作運用呢？案例詳解

監督學習與sklearn庫