關于model.compile方法中metrics評價函式的總結

問題引入

　　大家會發現我們在做實驗的程序中，經常會發現在Model.compile的程序中會需要寫一個引數比如：metrics=['accuracy']，那么這個時候一般情況下很少有文章或者代碼注釋中會提及這個引數選擇的原因或者意義，尤其是筆者前期是個小白，一開始接連做的都是幾個二分類的神經網路實驗，甚至一度以為只要一直寫metrics=['accuracy']就不會報什么錯，但這種想法其實是錯誤且荒謬的，這個引數其實在面對不同的資料集和問題的時候有著不同的選擇和作用，

簡單解釋評價函式

　　首先，這個引數的意義是定義評價函式，什么是評價函式呢，跑過模型的同學肯定都知道，在列印結果的時候你會看到每個epoch的acc和loss，其中acc和val_acc就是通過定義評價函式得到的，簡而言之，評價函式的選擇直接決定了你得到的準確度表達，

評價函式的種類（合理舉例輔助理解）

　　所以說對不同的問題選擇使用什么樣的評價函式將決定了你最終的訓練集得分，還是十分重要的，而且在調參程序中，有的小伙伴不喜歡看loss，而喜歡看驗證集得分val_acc那你也需要好好來了解一下評價函式的分類，

　　事實上Keras當中為我們定義了6種不同的accuracy，最常用的就是我剛剛舉例的accuracy，現在我們再舉一個更精確的例子：

　　accuracy真實標簽和模型預測均為標量，如果真實標簽序列為[1, 1, 3, 0, 2, 5]，預測序列為[1, 2, 3, 1, 2, 5]，此時可以看到命中了四個，則[accuracy] = 4/6 = 0.6667，

　　另外一種比較常見的評價函式是binary_accuracy，這種評價函式適用于二分類問題的處理，首先樣本集合應該有真實標簽序列，如[0, 1, 1, 0]，模型預測為概率序列，如[0.6, 0.7, 0.6, 0.9]，但是現在我們只有概率序列該怎么和標簽序列比較呢，該評價函式有一個threshold引數，引數的默認值為0.5，預測序列中概率 > threshold的設為1，< = threshold的設為0，所以模型預測會由[0.3, 0.7, 0.6, 0.9]轉換為[0, 1, 1, 1]，然后再第一種accuracy計算方法（命中了3/4，所以accuracy = 3/4 = 0.7500），

　　當面對多分類問題或者多標簽的任務時，評價函式通常可能會用到categorical_accuracy和 sparse_categorical_accuracy兩個函式，

　　首先是categorical_accuracy，首先真實值和預測值都是一個one-hot向量，這個評價函式的策略是比較兩個向量中最大元素的下標index值是否一致注意，這里只比較一個值，即最大的那個值的index，這對于多分類單標簽任務的是合適的，但并不適用于多標簽任務，舉個例子來說就好比真實值為[0, 0, 3, 1]而預測值為[0.2, 0.1, 0.9, 0.5]則視為預測準確，

　　而sparse_categorical_accuracy中真實值本身已經是下標index，而預測值仍然是個向量，比較真實值的下標值所對應的預測序列中的值是否為整個序列中最大的，如果是，則視為預測精準，比如真實值為2（注意下標從0開始），預測序列為[0.1, 0.38, 0.79, 0.5]，評價結果視為預測準確，

　　下面兩種評價函式要好好理解，二者核心思想其實就是：排名前k個預測序列元素下標能否包含真實值序列最大值的下標的評分函式，這句話聽完很抽象，沒關系我們慢慢舉例，

　　首先看top_k_categorical_accuracy它相當于在categorical_accuracy的基礎上加上top_k之后自然考慮的不再是單一序列下標號的比較，categorical_accuracy要求樣本在真值類別上的預測分數是在所有類別上預測分數的最大值，才算預測對，而top_k_categorical_accuracy只要求樣本在真值類別上的預測分數排在其在所有類別上的預測分數的前k名就行，

　　舉一個詳細的例子：比如有5個樣本，其真實值為[[0, 1, 0], [0, 0, 1], [0, 1, 0], [0, 1, 0], [1, 0, 0]]，預測序列為[[0.8, 0.2, 0.1], [0.3, 0.6, 0.1], [0.5, 0.4, 0.1], [0.3, 0.6, 0.1], [0.9, 0, 0.1]]，根據前面知識我們可以計算得到其categorical_accuracy=40%，但是如果你選擇的評價函式是top_k_categorical_accuracy答案就完全不一樣了，可以這么說，top_k有著更寬松的約束，因為相當于允許最大值只需要排進前k就算預測對了，當然這也就意味著預測準確與否跟k的取值息息相關，比如剛才這個例子，如果k取值 > = 3，其top_k_categorical_accuracy是100%，是因為每個向量里總共就3個類別，最大值肯定位于前3之內，那就是百分之百準確了沒有意義，所以設定k值小于向量元素長度3才有意義，比如如果我們設定k = 2，那么top_k_ accuracy=75%，具體計算方法為：1）首先，將真值序列轉為非onehot的形式，即[1, 2, 1, 1, 0]（就是取出最大值的下標index組成新的向量）2）計算預測值的top_k的label，比如k=2時，預測值的序列可以轉化為 = [[0, 1], [0, 1], [0, 1], [0, 1], [0, 2]]（即找到預測序列中前兩個比較大的值所對應的下標Index）3）根據每個樣本的真實標簽是否在預測標簽的top_k內來統計準確率，上述5個樣本為例，1在[0, 1]內，2不在[0, 1]內，1在[0, 1]內，1在[0, 1]內，0在[0, 2]內，5個樣本總共預測對了4個，因此k=2時top_k_categorical_accuracy=80%，注意在使用的程序中Keras默認的k值取為5，所以如果在呼叫時如果使用默認值，需要確保分類個數>5才行否則將出現命中率100%的情況，

　　sparse_top_k_categorical_accuracy與top_k_categorical_accurac也是一樣的思路，只不過sparse_top_k真值不是onehot的形式，（類比剛才多分類的兩個評分函式的區別來理解會有所幫助）

　　假設給定4個樣本，其真值序列為[2, 1, 2, 2]，預測序列為[[0.2, 0.5, 0.15], [0.5, 0.3, 0.1], [0.3, 0.7, 0.2], [0.9, 0.05, 0.4]]，計算sparse_top_k_categorical_accuracy的命中率應該按照如下方法：首先假設選擇k=2，則先將預測序列轉化成[[0, 1], [0, 1], [0, 1], [0, 2]]，我們可以通過剛才的方法來逐個查看，2不在[0, 1]中，1在[0, 1]中，2不在[0, 1]中，2在[0, 2]中，所以4個樣本命中了2個，命中率為50%，

　　其實可以發現當兩種top_k方法中當你把k設定為1時，top_k_categorical_accuracy和sparse_top_k_categorical_accuracy方法會由于k值太小而退化為前兩種categorical_accuracy以及sparse_categorical_accuracy方法，

總結使用場景

　　根據剛才我們介紹的原理，大家應該對6種不同的評價函式有了很好的理解，根據不同評價函式使用的特點，在此給出總結，當然首先值得一提的是keras中的accuracy metric用法很多，大家可以根據自己的實際情況選擇合適的accuracy metric，我們在這里討論的只是比較常見的幾種方法，

　　1) 如果真實值標簽和預測值都是具體的index值（如真值序列 = [1, 1, 1], y_pred=[0, 1, 1]）時，直接使用accuracy評價函式就可以滿足大部分情況，（即非常簡單的應用場景，資料集當中有明確的分類資訊label）

　　2) 如果真實值標簽是具體的index值，而預測值是向量形式，且問題為多分類問題（如真實值= [1, 1, 1], 預測序列=[[0.2, 0.3, 0.5], [0.45, 0.2, 0.35], [0, 0.24, 0.78]]）時，用sparse_categorical_accuracy評價函式可以解決問題，

　　3）如果真實值標簽是one-hot形式，而預測值是向量形式（如真實值 = [[0, 1, 0], [0, 0, 1], [1, 0, 0]], 預測值= [[0.52, 0.33, 0.15], [0.9, 0.1, 0], [0, 0.4, 0.6]]）時，用categorical_accuracy評價函式就可以，

　　目前，由于所做的實驗有限，所以理解也只是基于一個比較淺層的水平，本文主要目的還是為了幫助大家理解每種評價函式的原理，希望能夠有所幫助，當然筆者也是站在巨人的肩膀上學習，總結本篇用法，參考自三位大佬的博客：

　　https://blog.csdn.net/qq_36588760/article/details/105689736

　　https://blog.csdn.net/weixin_44866160/article/details/106437277

　　https://blog.csdn.net/qq_20011607/article/details/89213908

學無止境，向前輩致敬，希望大家一起加油，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/123295.html

標籤：其他

上一篇：K-Nearest Neighbor

下一篇：微軟與 OpenAI 達成合作，獲得 GPT-3 獨家使用授權！

【全面總結】model.compile方法中metrics評價函式

關于model.compile方法中metrics評價函式的總結

問題引入

簡單解釋評價函式

評價函式的種類（合理舉例輔助理解）

總結使用場景