【閱讀筆記】Grad-CAM：通過基于梯度的定位從深度網路得到可視化的解釋-有解無憂

Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization這篇文章主要介紹了一種梯度類加權激活映射（Gradient-weighted Class Activation Mapping，簡寫成Grad-CAM）方法，該方法可使用任意目標概念的梯度，然后將其流入最后的卷積層生成一個粗略的定位圖，以此來突出影像中重要區域，該區域即為輸出預測的依據，

Grad-CAM計算方法

在許多的文獻中已有如下結論：隨著卷積神經網路（CNN）層次的加深，系統對于輸入圖片（或者其他輸入）中某些類別的捕獲將更加的具體，上述陳述句筆者理解如下：若輸入一張圖片，需識別圖片中的貓，那么隨著卷積神經網路的加深，第 $l$ 層卷積層對貓的特征的捕獲是不如第 $l+1$ 層卷積層的，即在某個卷積神經網路中，最后的卷積層對圖片（或者其他輸入）特征的捕獲應該是最具體的，但是在具有全連接層的卷積神經網路中，最后的卷積層會將其激活值進行空間展開，因此會丟失其空間資訊，所以Grad-CAM使用流向CNN中最后卷積層的梯度資訊來理解每個神經元對于類別識別的重要性，對于類別c，最后卷積層中第k個神經元權重 $\alpha _{k}^{c}$ 的計算公式如下：

上述公式可理解為：取softmax層的輸入 $y^{c}$ ，對最后卷積層的第k個神經元的第ij個輸入像素值求偏導，然后進行全域平均池化，由此可得最后卷積層中第k個神經元權重 $\alpha _{k}^{c}$ ，對于類別c，分類定位圖 $L_{Grad-CAM}^{c}$ 計算公式如下：

上述公式可理解為：對最后卷積層不同神經元的輸入乘上各自的神經元權重，然后對所有神經元的對應值進行求和，其中ReLU函式起到保留對分類具有積極作用的像素值，抑制對分類具有消極作用的像素值，然后獲得一個粗糙的熱圖，即分類定位圖 $L_{Grad-CAM}^{c}$ ，效果如下圖中的(c)與(i)，其中(a)與(g)為原圖，第一行圖片是為了識別圖中的類別“貓”，第二行是為了識別圖中的類別“狗”，

Grad-CAM優勢

①適用于具有全連接層的卷積神經網路（如VGG）

②適用于具有結構化輸出的卷積神經網路（如字幕）

③適用于具有多模態輸入任務的卷積神經網路（如視覺問答）

Grad-CAM與其他方法的比較

①Grad-CAM是CAM（Class Activation Mapping）的一般化

CAM只適用于在預測之前對卷積映射進行全域平均池化的特定卷積神經網路架構（即conv feature maps -> global average pooling -> softmax layer），在某些任務上（如圖片分類），此架構與一般網路相比精度可能較低，或者根本不適用于任何其他任務（如字幕或視覺問答），對于適用CAM的網路架構，其預測原理如下：

上述公式可理解為：讓卷積神經網路的倒數第二層（即softmax層的前一層）產生k個特征圖，然后將這些特征圖分別進行全域平均池化，將不同神經元的特征圖乘上對應的權重再進行求和，即可產生類別c的分數 $S^{c}$ ， $S^{c}$ 即為判斷類別的依據，將上式交換求和順序，可得：

將不同神經元的特征圖乘上對應的權重，然后將不同神經元的特征圖按照像素點的位置進行相加，就可獲得CAM的分類定位圖 $L_{CAM}^{c}$ ，并非所有的體系結構都具有將特征映射和輸出連接起來的 $w_{k}^{c}$ ，而Grad-CAM使用 $\alpha _{k}^{c}$ 代替了 $w_{k}^{c}$ ，從而實作了將CAM一般化到Grad-CAM，

Guided Grad-CAM計算方法

文章中對于視覺可解釋性提出問題：What makes a good visual explanation?

針對此問題，文章中給出了兩點要求：

①類別可區分性（即定位影像中的類別）

②高解析度（即捕獲細粒度的細節）

根據上圖，我們可看出Grad-CAM（圖(c)與圖(i)）僅滿足要求①，可以很明顯看出導致最終的決策是由哪部分影像所決定的，但缺乏相關的細節，只得到一個粗糙的定位圖；然而導向反向傳播（Guided Backpropagation，圖(b)與圖(h)）僅滿足要求②，上圖中對“貓”類與“狗”類的分別決策不能看出是由哪部分所決定，但是它保留了足夠多的細節，因此，自然而然的想到將Grad-CAM與Guided Backprop結合起來，為保留二者的優點，從而引出Guided Grad-CAM，計算思路如下圖：

在計算出Grad-CAM與Guided Backprop（在文章上作者沒有提及此方法的具體計算方式）后，將二者的結果直接進行點乘就可獲得Guided Grad-CAM的輸出，

根據第一張圖片可以看出Guided Grad-CAM的輸出（圖(d)與圖(j)）成功保留了上面所提及的類別可區分性與高解析度，即Guided Grad-CAM可稱得上一種好的視覺解釋方法，

筆者水平有限，難免存在理解不當之處，歡迎批評指正，聯系郵箱：changhao1997@foxmail.com

參考文獻

Visual Explanations from Deep Networks via Gradient-based Localization

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/203834.html

標籤：其他

上一篇：兩個串列，都含有字典，想回圈對比，洗掉相同，要怎樣做？

下一篇：Qt Designer的tableWidget和verticalLayout