主頁 >  其他 > 下班前幾分鐘,我徹底弄懂了P-R曲線、ROC與AUC

下班前幾分鐘,我徹底弄懂了P-R曲線、ROC與AUC

2022-03-05 08:20:00 其他

目錄

  • 一、均方誤差、精度與錯誤率
  • 二、查準率、查全率與 F 1 F1 F1
    • 2.1 查準率(Precision)與查全率(Recall)
    • 2.2 混淆矩陣的可視化
    • 2.3 P-R曲線與BEP
    • 2.4 F 1 F1 F1 F β F_{\beta} Fβ?
  • 三、ROC與AUC
    • 3.1 ROC(Receiver Operating Characteristic)
    • 3.2 AUC(Area Under roc Curve)
  • References

一、均方誤差、精度與錯誤率

對模型的泛化性能進行評估,我們需要有衡量模型泛化能力的評價標準,這就是性能度量(Performance Measure),

在評估同一個模型的泛化能力時,使用不同的性能度量往往會導致不同的評判結果,這意味著模型的 “好壞” 是相對的,什么樣的模型是好的,不僅取決于演算法和資料,還取決于性能度量,

在預測任務中,給定大小為 m m m 的資料集

D = { ( x 1 , y 1 ) , ? ? , ( x m , y m ) } D=\{(\boldsymbol{x}_1,y_1),\cdots,(\boldsymbol{x}_m,y_m)\} D={(x1?,y1?),?,(xm?,ym?)}

其中 y i y_i yi? x i \boldsymbol{x}_i xi? 的真實標記. 要評估模型 f f f 的性能,我們需要把預測結果 f ( x ) f(\boldsymbol{x}) f(x) 與真實標記 y y y 進行比較.

最簡單的性能度量有以下三種:

  • 均方誤差(MSE) m s e ( f ; D ) = 1 m ∑ i = 1 m ( f ( x i ) ? y i ) 2 \displaystyle mse(f;D)=\frac1m \sum_{i=1}^m (f(\boldsymbol{x}_i)-y_i)^2 mse(f;D)=m1?i=1m?(f(xi?)?yi?)2
  • 精度(Accuracy) a c c ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) = y i ) \displaystyle acc(f;D)=\frac1m \sum_{i=1}^m \mathbb{I}(f(\boldsymbol{x}_i)=y_i) acc(f;D)=m1?i=1m?I(f(xi?)=yi?)
  • 錯誤率(Error) e r r ( f ; D ) = 1 m ∑ i = 1 m I ( f ( x i ) ≠ y i ) \displaystyle err(f;D)=\frac1m \sum_{i=1}^m \mathbb{I}(f(\boldsymbol{x}_i)\neq y_i) err(f;D)=m1?i=1m?I(f(xi?)?=yi?).

其中 I ( ? ) \mathbb{I}(\cdot) I(?) 是指示函式,且精度和錯誤率滿足如下關系

a c c ( f ; D ) + e r r ( f ; D ) = 1 acc(f;D)+err(f;D)=1 acc(f;D)+err(f;D)=1

均方誤差常用于回歸任務,精度和錯誤率常用于分類任務,


sklearn.metrics 中提供了常見的性能度量,均方誤差、精度和錯誤率的實作如下:

""" 均方誤差 """
from sklearn.metrics import mean_squared_error
mse = mean_squared_error(y_true, y_pred)

""" 精度 """
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_true, y_pred)

""" 錯誤率 """
from sklearn.metrics import accuracy_score
err = 1 - accuracy_score(y_true, y_pred)

二、查準率、查全率與 F 1 F1 F1

2.1 查準率(Precision)與查全率(Recall)

錯誤率和精度雖然常用,但并不能滿足所有的任務需求,

考慮這樣一個場景,假定先前我們根據西瓜資料集訓練出了一個能夠判斷好瓜還是壞瓜的模型,現在又有一車新的西瓜,我們用訓練好的模型對這些西瓜進行判別,自然地,錯誤率衡量了有多少比例的瓜被判斷錯誤

但如果我們關心的是:

  • 挑出來的瓜(模型判斷出的好瓜)有多少比例是真的好瓜,
  • 所有真的好瓜中有多少比例被挑了出來(模型判斷為好瓜),

那么錯誤率顯然就不夠用了,因此有必要引入新的性能度量,

上面幾句話似乎有些繞口,接下來我們再用幾張圖去形象地闡釋一遍,

假定瓜農拉來的一車西瓜如下(只有6個):

西瓜上方是它的編號,下方是它的真實標簽,我們用學得的模型 f f f 對這六個西瓜的判斷結果如下:

可以看出,編號為 1 , 2 , 5 1,2,5 1,2,5 的西瓜都被判斷錯誤了,因此錯誤率為 3 / 6 = 0.5 3/6=0.5 3/6=0.5,精度也為 0.5 0.5 0.5.

  • 挑出來的瓜(即模型判斷出的好瓜)為 2 , 4 , 5 , 6 2,4,5,6 2,4,5,6,這四個被挑出來的瓜只有 4 4 4 6 6 6 是真的好瓜,占比 0.5 0.5 0.5
  • 所有真的好瓜為 1 , 4 , 6 1,4,6 1,4,6,這三個真的好瓜中,只有 4 4 4 6 6 6 被挑出來了(即模型判斷為好瓜),占比 0.67 0.67 0.67

接下來可以定義查準率和查全率了,不過在此之前,我們有必要引入混淆矩陣(Confusion Matrix),

對于二分類問題,可將樣例根據其真實類別與模型預測的類別組合劃分為四類:

  • T P TP TP(True Positive):真實標記為,預測標記也為
  • F P FP FP(False Positive): 真實標記為,但預測標記為
  • T N TN TN(True Negative):真實標記為,預測標記也為
  • F N FN FN(False Negative):真實標記為,但預測標記為

顯然有 T P + F P + T N + F N = m TP+FP+TN+FN=m TP+FP+TN+FN=m. 分類結果的混淆矩陣形式如下:

[ T N F P F N T P ] \begin{bmatrix} TN & FP \\ FN& TP \\ \end{bmatrix} [TNFN?FPTP?]

我們的查準率Precision)與查全率Recall)分別定義為:

P = T P T P + F P , R = T P T P + F N P=\frac{TP}{TP+FP},\quad R=\frac{TP}{TP+FN} P=TP+FPTP?,R=TP+FNTP?

例如,對于之前我們舉的例子,查準率和查全率分別為

P = 0.5 , R = 0.67 P=0.5,\quad R=0.67 P=0.5,R=0.67

現在計算混淆矩陣:

  • 真的好瓜,且被模型判斷為好瓜的是 4 4 4 6 6 6,因此 T P = 2 TP=2 TP=2
  • 真的壞瓜,且被模型判斷為好瓜的是 2 2 2 5 5 5,因此 F P = 2 FP=2 FP=2
  • 真的好瓜,且被模型判斷為壞瓜的是 1 1 1,因此 F N = 1 FN=1 FN=1
  • 對于最后一個,我們可以直接套用公式,即 T N = 6 ? T P ? F P ? F N = 1 TN=6-TP-FP-FN=1 TN=6?TP?FP?FN=1

從而混淆矩陣為

[ 1 2 1 2 ] \begin{bmatrix} 1 & 2 \\ 1& 2 \\ \end{bmatrix} [11?22?]


不難看出,查準率與查全率適用于分類任務,相應的實作如下:

""" 查準率 """
from sklearn.metrics import precision_score
precision = precision_score(y_true, y_pred)

""" 查全率 """
from sklearn.metrics import recall_score
recall = recall_score(y_true, y_pred)

對于本節一開始的例子,我們記好瓜為 1 1 1,壞瓜為 0 0 0,則:

from sklearn.metrics import precision_score, recall_score, accuracy_score

y_true = [1, 0, 0, 1, 0, 1]
y_pred = [0, 1, 0, 1, 1, 1]
print(accuracy_score(y_true, y_pred))
# 0.5
print(precision_score(y_true, y_pred))
# 0.5
print(recall_score(y_true, y_pred))
# 0.6666666666666666

結果與我們原先的計算相符,

2.2 混淆矩陣的可視化

對于二分類問題,我們的混淆矩陣是一個 2 × 2 2\times 2 2×2 矩陣,進而可知,對于 N N N 分類問題,我們的混淆矩陣是一個 N × N N\times N N×N 矩陣,

sklearn.metrics 中提供了計算混淆矩陣的函式:confusion_matrix(),我們依然使用 2.1 節中的例子,使用 confusion_matrix() 來計算相應的混淆矩陣:

from sklearn.metrics import confusion_matrix

y_true = [1, 0, 0, 1, 0, 1]
y_pred = [0, 1, 0, 1, 1, 1]
C = confusion_matrix(y_true, y_pred)
print(C)
# [[1 2]
#  [1 2]]

輸出結果與我們 2.1 節中計算的相同,

對于多分類問題, confusion_matrix() 回傳的混淆矩陣 C C C 滿足: C i j C_{ij} Cij? 代表真實類別為 i i i 但卻被模型預測為類別 j j j 的樣例個數,

為了更好的展示混淆矩陣,我們考慮三分類問題,相應的 y_truey_pred 設定為:

y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]

現在使用 ConfusionMatrixDisplay() 來實作混淆矩陣的可視化

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
C = confusion_matrix(y_true, y_pred)
disp = ConfusionMatrixDisplay(C)
disp.plot()
plt.show()

2.3 P-R曲線與BEP

查準率和查全率是一對矛盾的度量,一般來說,查準率高時,查全率往往偏低;查全率高時,查準率往往偏低,通常只有在一些簡單的任務中,才可能使得查準率和查全率都很高,

回到 2.1 節中的例子,我們根據西瓜資料集訓練出來的模型本質上是一個二分類器,事實上,許多二分類器的原理,就是設定一個閾值,然后對每一個樣例進行打分,分數大于等于該閾值的樣例被分為正類,分數小于該閾值的樣例被分為負類

例如,設定閾值為 0.5 0.5 0.5,對于一個新樣本(西瓜),若它的得分高于 0.5 0.5 0.5,則被認為是好瓜,否則認為是壞瓜,

事實上,上述提到的精度、查準率、查全率全都依賴于具體的閾值,有些時候,我們希望不固定閾值,而是根據實際需求去調整,

依然使用 2.1 節中的例子,假定閾值就是 0.5 0.5 0.5,我們的二分類器對于六個樣例的打分情況如下:

我們根據這六個西瓜的得分將它們從高到低進行排序:

現在,我們從上往下遍歷,對于第一行的樣例,設它的得分 0.88 0.88 0.88 為閾值,大于等于該閾值的預測為正例,小于該閾值的預測為反例,相應的結果如下:

計算可得查準率和查全率分別為 P = 1 , ? R = 0.33 P=1,\, R=0.33 P=1,R=0.33.

對于第二行的樣例,設它的得分 0.76 0.76 0.76 為閾值,大于等于該閾值的預測為正例,小于該閾值的預測為反例,相應的結果如下:

計算可得查準率和查全率分別為 P = 1 , ? R = 0.67 P=1,\, R=0.67 P=1,R=0.67.

以此類推,我們最終可以得到 6 6 6 ( R , P ) (R, P) (R,P) 值,代碼實作如下:

from sklearn.metrics import precision_score, recall_score

y_true = [1, 1, 0, 0, 1, 0]

for i in range(len(y_true)):
    y_pred = [1] * (i + 1) + [0] * (len(y_true) - i - 1)
    P = precision_score(y_true, y_pred)
    R = recall_score(y_true, y_pred)
    print((R, P))

輸出結果:

(0.3333333333333333, 1.0)
(0.6666666666666666, 1.0)
(0.6666666666666666, 0.6666666666666666)
(0.6666666666666666, 0.5)
(1.0, 0.6)
(1.0, 0.5)

我們將這六個點連起來繪制曲線:

from sklearn.metrics import precision_score, recall_score
import matplotlib.pyplot as plt

y_true = [1, 1, 0, 0, 1, 0]
R, P = [], []

for i in range(len(y_true)):
    y_pred = [1] * (i + 1) + [0] * (len(y_true) - i - 1)
    P += [precision_score(y_true, y_pred)]
    R += [recall_score(y_true, y_pred)]
    
plt.plot(R, P)
plt.xlabel('Recall')
plt.ylabel('Precision')
plt.show()    

上圖稱為 P-R圖,其中的曲線稱為 P-R曲線


P-R曲線的進一步討論:首先我們記真實標記為正和負的樣例個數分別為 m + m^+ m+ m ? m^- m?,即

m + = T P + F N , m ? = T N + F P m^+=TP+FN,\quad m^-=TN+FP m+=TP+FN,m?=TN+FP

查準率與查全率可以寫為

P = T P T P + F P , R = T P m + P=\frac{TP}{TP+FP},\quad R=\frac{TP}{m^+} P=TP+FPTP?,R=m+TP?

現在考慮更一般的情形,我們將 m m m 個西瓜的得分(之前是六個西瓜的得分)從高到低進行排列得到一個有序串列

s c o r e = [ h 1 h 2 ? h m ] \mathrm{score}= \begin{bmatrix} h_1 \\ h_2 \\ \vdots \\ h_m \end{bmatrix} score=??????h1?h2??hm????????

設閾值為 h h h,當 h > h 1 h>h_1 h>h1? 時,所有西瓜都會被預測為壞瓜,即沒有一個西瓜會被預測成好瓜,所以 T P = F P = 0 TP=FP=0 TP=FP=0,此時 P = 0 / 0 P=0/0 P=0/0 無意義,所以我們接下來的討論都將基于 h ≤ h 1 h\leq h_1 hh1?,一般而言,我們會把閾值 h h h 分別設定為每一個樣例的得分,從而會有 m m m 種閾值,

我們先取最小的閾值,即 h = h m h=h_m h=hm?,那么所有的瓜都會被預測成好瓜,即沒有一個瓜會被預測成壞瓜,所以 T N = F N = 0 TN=FN=0 TN=FN=0,此時有 T P = m + TP=m^+ TP=m+ F P = m ? FP=m^- FP=m?,從而 R = 1 R=1 R=1 P = m + / ( m + + m ? ) = m + / m P=m^+/(m^++m^-)=m^+/m P=m+/(m++m?)=m+/m,這反映在P-R曲線上最后一個點的坐標為

( 1 , m + m ) \Big(1,\frac{m^+}{m}\Big) (1,mm+?)

如果 ( 1 , m + / m ) → ( 1 , 0 ) (1,m^+/m)\to(1,0) (1,m+/m)(1,0),則有 m + ? m m^+\ll m m+?m,因此 m ? ? 0 m^-\gg0 m??0,結合上述的 T N = 0 TN=0 TN=0,這說明樣本中有大量的反例,且它們都被預測錯誤了,又因為 F N = 0 FN=0 FN=0,說明樣本中有少量的正例,且它們都被預測正確了,從而可知,如果P-R曲線的最后一個點趨于 ( 1 , 0 ) (1,0) (1,0),那么樣本分布極其不均衡(有著極多的反例和極少的正例),且分類器對于反例全部預測錯誤,對于正例全部預測正確,因此這種P-R曲線對應的分類器很糟糕

我們再取最大的閾值,即 h = h 1 h=h_1 h=h1?,那么只有第一個西瓜會被預測為好瓜,剩余的西瓜都被預測為壞瓜,我們分以下兩種情況討論:

  • 第一個西瓜本身就是好瓜,那么 T P = 1 TP=1 TP=1 F P = 0 FP=0 FP=0,從而 P = 1 P=1 P=1 R = 1 / m + R=1/m^+ R=1/m+,P-R曲線上第一個點的坐標為 ( 1 / m + , 1 ) (1/m^+,1) (1/m+,1)
  • 第一個西瓜本身就是壞瓜,那么 F P = 1 FP=1 FP=1 T P = 0 TP=0 TP=0,從而 P = R = 0 P=R=0 P=R=0,P-R曲線上第一個點的坐標為 ( 0 , 0 ) (0, 0) (0,0)

大多數情況下我們的資料集規模都比較大,即 m + ? 0 m^+\gg0 m+?0,所以,當得分最高的樣例為正例時,P-R曲線上第一個點的坐標非常接近 ( 0 , 1 ) (0,1) (0,1) 但不等于 ( 0 , 1 ) (0,1) (0,1)當得分最高的樣例為反例時,P-R曲線上第一個點的坐標 ( 0 , 0 ) (0,0) (0,0)

更直觀地來講,假設每一個 h i h_i hi? 都只對應一個瓜,當我們將 h h h h 1 h_1 h1? 依次下調至 h m h_m hm? 時,相應的P-R曲線會依次從第一個點繪制到最后一個點,當 h h h h i ? 1 h_{i-1} hi?1? 下調至 h i h_i hi? 時,若 h i h_i hi? 所對應的瓜本身是正例,則 T P ↑ TP \uparrow TP F P FP FP 不變, F N ↓ FN \downarrow FN,從而 P ↑ P\uparrow P R ↑ R\uparrow R,這反映在P-R曲線將會產生一條向右上方的線段,若 h i h_i hi? 所對應的瓜本身是反例,則 F P ↑ FP\uparrow FP T P TP TP 不變, F N FN FN 也不變,從而 P ↓ P\downarrow P R R R 不變,這反映在P-R曲線將會產生一條豎直向下的線段,

綜合以上討論可得出: 我們從 ( 0 , 0 ) (0,0) (0,0) ( 1 / m + , 1 ) (1/m^+,1) (1/m+,1) 開始,根據有序串列依次下調閾值,每當經過一個正例,我們繪制一條斜向右上的線段;每當經過一個反例,我們繪制一條豎直向下的線段,如此進行下去直到抵達 ( 1 , m + / m ) (1, m^+/m) (1,m+/m),此時P-R曲線繪制完畢,

從繪制程序可以看出,我們的P-R曲線是呈鋸齒狀的,且呈 “下降” 趨勢,


當然,sklearn.metrics 中提供了繪制P-R曲線的函式,我們將真實標簽串列 y_true 和 得分串列 y_score 傳入 precision_recall_curve() 中可得到查準率、查全率和閾值,如下:

from sklearn.metrics import precision_recall_curve

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
precision, recall, thresholds = precision_recall_curve(y_true, y_score)
print(precision)
# [0.6        0.5        0.66666667 1.         1.         1.        ]
print(recall)
# [1.         0.66666667 0.66666667 0.66666667 0.33333333 0.        ]
print(thresholds)
# [0.45 0.53 0.57 0.76 0.88]

然后使用 PrecisionRecallDisplay() 來進行繪制:

from sklearn.metrics import precision_recall_curve, PrecisionRecallDisplay
import matplotlib.pyplot as plt

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
precision, recall, _ = precision_recall_curve(y_true, y_score)
disp = PrecisionRecallDisplay(precision, recall)
disp.plot()
plt.show()

可能會有讀者疑惑,為什么這里的曲線和我們之前自己繪制的曲線不一樣,并且為什么 thresholds只有五個閾值呢?

我們先不用 PrecisionRecallDisplay(),只用 precision_recall_curve() 得到的結果去繪制:

from sklearn.metrics import precision_recall_curve
import matplotlib.pyplot as plt

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
precision, recall, _ = precision_recall_curve(y_true, y_score)
plt.plot(recall, precision)
plt.show()

可以看出這張圖和上一張圖相比,僅僅是連線的方式有所改變,PrecisionRecallDisplay() 中取消了斜向右上的這種連線方式,為了美觀起見采用 “橫平豎直” 的方式去繪制,我們再來看一下 PrecisionRecallDisplay()plot() 函式的部分原始碼:

def plot(self, ax=None, *, name=None, **kwargs):

	...
	line_kwargs = {"drawstyle": "steps-post"}
	...
	(self.line_,) = ax.plot(self.recall, self.precision, **line_kwargs)
	...
	return self

"step-post" 這一引數說明了P-R曲線將采用階梯形式進行繪制,詳情見檔案,

在上面的三張P-R圖中,我們已經知道了第二張圖和第三張圖僅僅是繪制方式的不同,接下來我們將第三張圖和第一張圖進行比較,

可以看到,相比于第一張圖,第三張圖去掉了最后一個點,并且在第一個點的前面加上了 ( 0 , 1 ) (0,1) (0,1) 這個點,這種做法的用意何在呢?

我們先來看下 precision_recall_curve() 的原始碼:

def precision_recall_curve(y_true, probas_pred, pos_label=None, sample_weight=None):
                           
    fps, tps, thresholds = _binary_clf_curve(y_true, probas_pred,
                                             pos_label=pos_label,
                                             sample_weight=sample_weight)

    precision = tps / (tps + fps)
    precision[np.isnan(precision)] = 0
    recall = tps / tps[-1]

    # stop when full recall attained
    # and reverse the outputs so recall is decreasing
    last_ind = tps.searchsorted(tps[-1])
    sl = slice(last_ind, None, -1)
    return np.r_[precision[sl], 1], np.r_[recall[sl], 0], thresholds[sl]

return 一行可以看出 ( 0 , 1 ) (0,1) (0,1) 這個點是強行加上去的,那原先P-R曲線上的最后一個點為什么會被去掉呢?

注意到這一行注釋:

# stop when full recall attained

即當 R = 1 R=1 R=1 時停止計算,而我們的第一張圖的最后兩個點的橫坐標都為 1 1 1,因此最后一個點不會被計算,相應的最低閾值也不會添加進 thresholds 中,

事實上可以證明,如果得分最低的樣例是反例,則最后兩個點的橫坐標都為 1 1 1;如果得分最低的樣例是正例,則倒數第二個點的橫坐標為 1 ? 1 / m + 1-1/m^+ 1?1/m+

至于為什么 ( 0 , 1 ) (0,1) (0,1) 會被強行添加至P-R曲線中,是因為 sklearn 想讓P-R曲線從 y y y 軸開始繪制,


為了方便接下來的敘述,我們將P-R曲線繪制成單調平滑的曲線(注意,現實任務中的P-R曲線通常是非單調,不平滑的,在很多區域有上下波動,可參考上圖),如下圖:

P-R 圖直觀地展示了分類器在樣本總體上的查全率與查準率,在進行比較時,若一個分類器的P-R曲線被另一個分類器的曲線完全包住,則可斷言后者的性能優于前者,例如,上圖中 B B B 的性能要優于 C C C

如果兩個分類器的P-R曲線發生交叉,例如上圖中的 A A A B B B,這時一個比較合理的判據是比較P-R曲線下面積的大小,它在一定程度上表征了分類器在查準率和查全率上取得相對 “雙高” 的比例,但這個值不容易估算,因此需要設計一些能綜合考察查準率和查全率的性能度量,

平衡點(Break-Even Point,簡稱BEP)就是這樣一種度量,它是 P = R P=R P=R 時的取值,對于本節一開始提到的例子,其平衡點為 0.67 0.67 0.67

2.4 F 1 F1 F1 F β F_{\beta} Fβ?

上述提到的BEP過于簡化了一些,我們更常用的是 F 1 F1 F1 度量,它是基于查準率和查全率的調和平均定義的:

1 F 1 = 1 2 ( 1 P + 1 R ) \frac{1}{F1}=\frac12\left(\frac1P+\frac1R\right) F11?=21?(P1?+R1?)

化簡得到

F 1 = 2 ? P ? R P + R F1=\frac{2\cdot P\cdot R}{P+R} F1=P+R2?P?R?

在一些應用中,我們對查準率和查全率的重視程度有所不同,因此需要引入 F 1 F1 F1 度量的一般形式—— F β F_{\beta} Fβ?,它能讓我們表達出對查準率 / / /查全率的不同偏好,它定義為查準率和查全率的加權調和平均

1 F β = 1 1 + β 2 ( 1 P + β 2 R ) , β > 0 \frac{1}{F_{\beta}}=\frac{1}{1+\beta^2}\left(\frac1P+\frac{\beta^2}{R}\right),\quad \beta>0 Fβ?1?=1+β21?(P1?+Rβ2?),β>0

化簡得到

F β = ( 1 + β 2 ) ? P ? R β 2 ? P + R , β > 0 F_{\beta}=\frac{(1+\beta^2)\cdot P\cdot R}{\beta^2\cdot P+R},\quad \beta>0 Fβ?=β2?P+R(1+β2)?P?R?,β>0

  • β = 1 \beta=1 β=1 F β F_{\beta} Fβ? 退化為 F 1 F1 F1
  • β > 1 \beta>1 β>1,查全率有更大影響;
  • β < 1 \beta<1 β<1,查準率有更大影響,

F 1 F1 F1 F β F_{\beta} Fβ? 是適用于分類任務的性能度量,相應的實作如下:

""" F1 """
from sklearn.metrics import f1_score
f1 = f1_score(y_true, y_pred)

""" Fbeta """
from sklearn.metrics import fbeta_score
fbeta = fbeta_score(y_true, y_pred, beta=0.5) # 以beta=0.5為例

三、ROC與AUC

3.1 ROC(Receiver Operating Characteristic)

此前我們已經提到,對 m m m 個樣例的得分從高到低排序可以得到一個有序串列,在不同的應用任務中,我們可根據任務需求來設定不同的閾值(截斷點),若更重視查準率,則可在串列中靠前的位置進行截斷;若更重視查全率,則可在串列中靠后的位置進行截斷,

因此,排序本身質量的好壞,體現了綜合考慮學習器在不同任務下的期望泛化性能的好壞,ROC曲線則是從這個角度出發來研究學習器泛化性能的有力工具,

ROC全稱是 受試者作業特征(Receiver Operating Characteristic),它源于二戰中用于敵機檢測的雷達信號分析技術,此后被引入機器學習領域中,

ROC曲線與P-R曲線很相似,在P-R曲線中,縱坐標采用的是查準率,橫坐標采用的是查全率,但在ROC曲線中,縱坐標采用的是真正例率(True Positive Rate,簡稱TPR),橫坐標采用的是假正例率(False Positive Rate,簡稱FPR),兩者分別定義為

T P R = T P T P + F N = R , F P R = F P T N + F P TPR=\frac{TP}{TP+FN}=R,\quad FPR=\frac{FP}{TN+FP} TPR=TP+FNTP?=R,FPR=TN+FPFP?

我們將諸 ( F P R , T P R ) (FPR,TPR) (FPR,TPR) 點用線段連接起來就得到了ROC曲線,


sklearn.metrics 中提供了實作ROC曲線的函式 roc_curve(),相應的用法如下:

from sklearn.metrics import roc_curve
import matplotlib.pyplot as plt

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
fpr, tpr, _ = roc_curve(y_true, y_score)
plt.plot(fpr, tpr)
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.show()

當然我們也可以直接用 RocCurveDisplay() 來快速繪制:

from sklearn.metrics import roc_curve, RocCurveDisplay
import matplotlib.pyplot as plt

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
fpr, tpr, _ = roc_curve(y_true, y_score)
disp = RocCurveDisplay(fpr=fpr, tpr=tpr)
disp.plot()
plt.show()

輸出結果和上圖是一致的,


從圖中可以看出,ROC曲線也呈鋸齒狀,且每一段都是橫平豎直的,此外,ROC曲線呈 “上升” 趨勢,它的第一個點和最后一個點一定會分別位于 ( 0 , 0 ) (0,0) (0,0) ( 1 , 1 ) (1,1) (1,1),學習器的性能越好,ROC曲線越接近圖中的左上角,

設當前閾值所對應的點為 ( x , y ) (x,y) (x,y),我們依次下調閾值,當經過一個正例時,下一個點的坐標為 ( x , y + 1 / m + ) (x,y+1/m^+) (x,y+1/m+);當經過一個反例時,下一個點的坐標為 ( x + 1 / m ? , y ) (x+1/m^-,y) (x+1/m?,y)

3.2 AUC(Area Under roc Curve)

在進行學習器的比較時,與P-R圖相似,若一個學習器的ROC曲線被另一個學習器的曲線完全包住,則可斷言后者的性能優于前者,如果兩個學習器的ROC曲線發生交叉,那么我們就要比較ROC曲線下的面積,即AUC(Area Under roc Curve),如下圖所示

假定ROC曲線是由坐標為 ( x 1 , y 1 ) , ( x 2 , y 2 ) , ? ? , ( x m , y m ) (x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m) (x1?,y1?),(x2?,y2?),?,(xm?,ym?) 的按序連接形成,其中 ( x 1 , y 1 ) = ( 0 , 0 ) , ? ( x m , y m ) = ( 1 , 1 ) (x_1,y_1)=(0,0),\,(x_m,y_m)=(1,1) (x1?,y1?)=(0,0),(xm?,ym?)=(1,1),則AUC為

A U C = ∑ i = 1 m ? 1 ( x i + 1 ? x i ) ? y i + 1 + y i 2 \mathrm{AUC}=\sum_{i=1}^{m-1}(x_{i+1}-x_i)\cdot \frac{y_{i+1}+y_i}{2} AUC=i=1m?1?(xi+1??xi?)?2yi+1?+yi??

sklearn.metrics 中的 auc() 就是根據上述公式進行計算的,相應代碼如下:

from sklearn.metrics import roc_curve, auc

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
fpr, tpr, _ = roc_curve(y_true, y_score)
print(auc(fpr, tpr))
# 0.7777777777777778

但上面這種做法需要先計算出橫縱坐標 fprtpr,更快捷的方法是使用 roc_auc_score():

from sklearn.metrics import roc_auc_score

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
print(roc_auc_score(y_true, y_score))
# 0.7777777777777778

如果我們想要在ROC曲線圖上顯示AUC,則需要將AUC傳入 RocCurveDisplay() 中的 roc_auc 中:

from sklearn.metrics import roc_curve, RocCurveDisplay, auc
import matplotlib.pyplot as plt

y_true = [1, 0, 0, 1, 0, 1]
y_score = [0.45, 0.53, 0.24, 0.88, 0.57, 0.76]
fpr, tpr, _ = roc_curve(y_true, y_score)
roc_auc = auc(fpr, tpr)
disp = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
disp.plot()
plt.show()

AUC的進一步討論:忽略不同樣例得分相同的情形,令 D + D^+ D+ D ? D^- D? 分別表示正、反例集合,且 ∣ D + ∣ = m + , ? ∣ D ? ∣ = m ? |D^+|=m^+,\, |D^-|=m^- D+=m+,D?=m?,則AUC可以表示成:

A U C = 1 m + m ? ∑ x + ∈ D + ∑ x ? ∈ D ? I [ f ( x + ) > f ( x ? ) ] \mathrm{AUC}=\frac{1}{m^+m^-}\sum_{\boldsymbol{x}^+\in D^+}\sum_{\boldsymbol{x}^-\in D^-}\mathbb{I}[f(\boldsymbol{x}^+)>f(\boldsymbol{x}^-)] AUC=m+m?1?x+D+?x?D??I[f(x+)>f(x?)]

從上面的運算式可以看出,AUC實際上反應了樣本中一個正例得分大于一個負例得分的概率,即樣本預測的排序質量

定義排序損失

? r a n k = 1 m + m ? ∑ x + ∈ D + ∑ x ? ∈ D ? I [ f ( x + ) < f ( x ? ) ] \ell_{rank}=\frac{1}{m^+m^-}\sum_{\boldsymbol{x}^+\in D^+}\sum_{\boldsymbol{x}^-\in D^-}\mathbb{I}[f(\boldsymbol{x}^+)<f(\boldsymbol{x}^-)] ?rank?=m+m?1?x+D+?x?D??I[f(x+)<f(x?)]

容易看出 A U C + ? r a n k = 1 \mathrm{AUC}+\ell_{rank}=1 AUC+?rank?=1,即 ? r a n k \ell_{rank} ?rank? 是ROC曲線上方的面積,

References

[1] 機器學習.周志華
[2] Metrics and scoring: quantifying the quality of predictions.
[3] 11565 P-R、ROC、DET 曲線及 AP、AUC 指標全決議(上).
[4] sklearn’s precision_recall_curve incorrect on small example.
[5] sklearn precision_recall_curve and threshold.
[6] How does sklearn select threshold steps in precision recall curve?

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/437972.html

標籤:AI

上一篇:OpenCV-人像—酷感冷艷濾鏡

下一篇:YOLOv4網路結構詳解

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more