Non-local Neural Networks筆記-有解無憂

Non-local Neural Networks

非區域神經網路

- Non-local Neural Networks
- 1introduction
- 2.Related Work
- 3.Non-local Neural Networks
- - 3.1Formulation
  - 3.2Instantiations
  - 3.3Non-local Block

文章鏈接：2018cvprNon-local neural Network
摘要：所有的卷積和遞回操作單次使用都是通過一個區域鄰域來生成一個特征塊，這篇文章展示了一種提取遠距離關系的通用方法，靈感來源于計算機視覺領域的傳統方法非區域均值，**non-local計算所有位置特征的加權和來表示一個位置的相應，**此方法能夠即插即用到很多CV框架中，

1introduction

獲取遠距離資訊的互相關系在神經網路中是非常重要的，對于連續的資料，遞回作為主流的方法來建模長程關系，對于影像資料，遠距離的依賴關系通過堆疊卷積得到的大感受野來建模；不管是空間或者時間，卷積和遞回都處理的區域鄰域的資訊；因此只有通過重復這些操作，利用資料漸進的傳播信號才能提取到長程的依賴關系，反復的區域操作有以下幾點限制：1計算效率低，2優化困難需要非常細微的調整，3上述問題導致了多鏈接關系建模困難，
Non-local通過計算所有位置點在單個位置點的加權和來計算單個點的回應，這些位置可以是時間，空間，時空結合，這表示Non-local可以應用在影像，序列，和視頻問題，
使用Non-local的優點：1.與卷積和遞回等漸進提取長程關系的操作相反，Non-local無論兩個位置間的距離，都會直接計算兩個位置之間的關系，2.實驗表明，Non-local在很少的層也能達到很好的效果，3.并不改變變數的形狀，方便與其他操作結合使用，
本文展示了非區域操作在視頻分類應用中的有效性，在視頻中，長程關系出現在時間和空間距離都很大的兩個像素，本文的基礎單元是一個簡單的非區域塊，能夠以前饋的方式直接提取這種時空間的依賴關系，即使利用很少的非區域模塊，非區域結構比2D和3D網路卷積網路也更精確，另外，非區域神經網路比3D卷積的計算更經濟，

2.Related Work

非區域均值影像處理：非區域均值是一種傳統的濾波演算法用于計算一副影像中所有像素的加權平均值，考慮遠距離像素對于相似的區域塊在過濾后回應的影響，這種非區域濾波的思想后來發展成BM3D(3D塊匹配),此操作對一組相似但非區域的塊進行濾波，BM可以與神經網路一起進行影像去噪，非區域匹配也是紋理合成，超分辨，影像修復演算法的本質，
**圖形模型：**長程相關性能夠通過圖形模型建模如條件隨機場(CRF);在深度神經網路的背景關系中，神經網路語意分割的預測部分可以通過CRF做后處理，相反本文的方法是用于計算非區域濾波的簡單的前向傳播塊，不同于用于分割的方法本文的組件用于分類和檢測，這些方法和本文的方法都與圖神經網路有關，
**序列的前饋建模：**在使用前饋網路對語音和語言的序列建模方法中，長程依賴關系被非常深的一維卷積的大感受野捕獲，前饋模型易于并行實作且比遞回模型更有效
自注意力機制： 本文的方法與用于機器翻譯的自注意力機制有關，自注意力機制通過關注所有位置并在嵌入空間中取他們的加權平均來計算序列中一個位置的回應，以此來看，本文的作業是將機器翻譯中的自注意力機制與非區域濾波結合起來用于計算機視覺中的影像和視頻問題，
互動網路IN： IN被提出用于物理系統建模，對成對互動的目標圖進行操作，Hoshen在多智能體預測建模的環境中提出了更有效的頂點注意力，IN的另一個變體是關系網路，在所有的輸入位置對中計算特征嵌入函式，本文方法同樣處理所有的成對資料，盡管本文的非區域網路與這些方法都有聯系，但本文的實驗表明模型的 非區域性 與注意力/互動/關系的思想正交，也是他們成功的關鍵，非區域建模是影像處理一個長期的關鍵因素，但在最近的計算機視覺神經網路中卻被忽略了，
視頻分類架構： 視頻分類的一個自然解決方案是將影像的神經元網路和序列的神經元網路的成功結合起來，相比之下，前饋模型是通過時空中的3D卷積(C3D)實作的，而3D濾波器可以通過“膨脹”預先訓練的2D濾波器來形成，除了對原始視頻輸入進行端到端建模之外，還發現光流和軌跡可能會有所幫助，流程和軌跡都是現成的模塊，可能會發現遠程、非區域的依賴性，

3.Non-local Neural Networks

3.1Formulation

神經網路中的非區域操作可定義為：
y i = 1 C ( x ) ∑ ? j f ( x i , x j ) g ( x j ) y^{i}= \frac{1}{C\left ( x \right )}\sum_{\forall j}^{}f\left ( x^{i},x^{j} \right )g(x_{j}) yi=C(x)1?∑?j?f(xi,xj)g(xj?) （1）

i表示一個輸出位置的索引，其回應可通過所有位置的資訊來計算，j表示所有位置的索引，x是輸入信號，y為輸出信號和x有相同的尺寸，函式f計算i和j之間的相關性，g計算位置j的輸入信號表示，C(x)表示歸一化因子，
公式(1)中的非區域操作考慮了所有位置資訊，相比之下，卷積運算是對區域鄰域的資訊進行加權求和，
非區域操作不同于全連接層，公式1基于不同位置之間的聯系來計算新的回應，而FC使用學習到的權重，換句話說，Xj和Xi之間的關系并不是輸入資料在FC中的一個函式，此外，非區域操作支持可變大小的輸入，且在輸出時大小不變，而FC層需要固定大小的輸入和輸出，且會丟失位置的相關性資訊，
非區域操作是靈活的模塊，能夠和的卷積遞回一起使用，可以將其添加到神經網路的淺層，不想FC層通常用于網路末端，這種特點使得能夠通過區域和非區域資訊建立更豐富的層次結構，

3.2Instantiations

以下表示幾個不同版本的映射函式f和g，實驗表2a表明，非區域模型對這些映射并不敏感 ，這意味著通常非區域行為是模型提升的主要原因，
簡單起見，本文只考慮線性嵌入形式的映射函式 g ( x j ) = W g X j g\left(x_{j}\right)=W_{g}X_{j} g(xj?)=Wg?Xj?這里的 W g W_{g} Wg?指的是要學習的權重矩陣，比如空間中的 11 卷積和時空中的 11*1 的卷積，
接下來討論成對函式f的選擇：
高斯函式 和非均值濾波與雙邊濾波類似，f選擇高斯函式，如下：
f ( x i , x j ) = e x i T x j f\left(x_{i},x_{j}\right)=e^{x^{T}_{i}x_{j}} f(xi?,xj?)=exiT?xj?
x i T x j x^{T}_{i}x_{j} xiT?xj?表示點積相似性，歐式距離同樣適用，但點積在深度學習平臺中更容易實作，歸一化因子設定為
C ( x ) = ∑ ? j f ( x i , x j ) C(x)=\sum_{\forall j}f(x_{i},x_{j}) C(x)=∑?j?f(xi?,xj?),
嵌入高斯函式 對高斯函式的簡單擴展，計算嵌入空間中的相似性，本文考慮：
f ( x i , x j ) = e θ ( x i T ) ? ( x j ) f\left(x_{i},x_{j}\right)=e^{\theta (x^{T}_{i}) \phi (x_{j})} f(xi?,xj?)=eθ(xiT?)?(xj?)
θ ( x i T ) = W θ x i \theta (x^{T}_{i})=W_{\theta}x_{i} θ(xiT?)=Wθ?xi?和 ? ( x j ) = W ? x j \phi(x_{j})=W_{\phi}x_{j} ?(xj?)=W??xj?,為兩種不同的嵌入，另外設定 C ( x ) = ∑ ? j f ( x i , x j ) C(x)=\sum_{\forall j}f(x_{i},x_{j}) C(x)=∑?j?f(xi?,xj?),以下表明，機器翻譯提出的自注意力機制模塊是嵌入高斯版本是非區域操作的特殊情況，給一個i， 1 C ( x ) f ( x i , x j ) \frac{1}{C(x)}f(x_{i},x_{j}) C(x)1?f(xi?,xj?)來沿著維度j計算權重，因此本文有 y = s o f t m a x ( x T W θ T W ? x ) g ( x ) y=softmax(x^{T}W^{T}_{\theta}W_{\phi}x)g(x) y=softmax(xTWθT?W??x)g(x),本文的作業是通過將自注意力機制和傳統的計算視覺演算法非區域均值結合來提供新的方法，并將自注意力機機制擴展到計算機視覺中用于影像/視頻的通用空間/時空的非區域網路，盡管與自注意力機有關，但在我們的研究中注意力分配并不重要，通過以下兩個非區域操作的替代版本來證明：
點積運算：
f f f可以被定義為點積相似性， f ( x i , x j ) = θ ( x i T ) ? ( x j ) f\left(x_{i},x_{j}\right)=\theta (x^{T}_{i}) \phi (x_{j}) f(xi?,xj?)=θ(xiT?)?(xj?)，采用嵌入版本，設定 C ( x ) = N C(x)=N C(x)=N,N表示x中位置的數量，點積和嵌入高斯核的不同在于softmax，它起到激活函式的作用，
鏈接
鏈接由關系網路中的成對函式用于視覺推理，本文也構造了鏈接形式的f:
f ( x i , x j ) = R e L U ( w f T [ θ ( x i ) , ? ( x j ) ] ) f(x_{i},x_{j})=ReLU(w^{T}_{f}[\theta(x_{i}),\phi(x_{j})]) f(xi?,xj?)=ReLU(wfT?[θ(xi?),?(xj?)]) [.,.]表示拼接， w f w_{f} wf?表示權重向量將拼接的向量投影到標量上， C ( x ) = N C(x)=N C(x)=N.采用ReLU函式作為映射函式f，以上幾個變體展示了非區域操作的靈活性，相信這些版本都有可能提升結果，

3.3Non-local Block

定義非區域模塊為：
z i = w z y i + x i z_{i}=w_{z}y_{i}+x_{i} zi?=wz?yi?+xi?, y i y_{i} yi?(6)
來自公式(1), + x i +x_{i} +xi?表示殘差鏈接，殘差鏈接可以使非區域塊插入到任何預訓練模型中，成對計算可以通過簡單的矩陣相乘來完成，而拼接操作直接采用前向鏈接，
非區域塊的成對計算在高層級采樣特征映射時是輕量級的，通過矩陣乘法完成的成對計算呢與標準網路中的卷積相當，本文采用以下方法進一步提高效率：
非區域塊的實作：
設定 W g , W θ , W ? W_{g},W_{\theta},W_{\phi} Wg?,Wθ?,W??的通道數為輸入x的一半，遵循了瓶頸設計原則將計算量減少了一半，權重矩陣 W z W_{z} Wz?計算 y i y_{i} yi?上的位置嵌入，將通道數和x的通道數匹配，通過對 x j x_{j} xj?進行池化二次采樣可以進一步減少計算量，此技巧不改變非區域的操作，但可以是計算更加的稀疏，通過添加最大池化層來實作，

轉載請註明出處，本文鏈接：https://www.uj5u.com/ruanti/233539.html

標籤：其他

上一篇：單例模式之列舉實作

下一篇：03-Debezium的載體Kafka Connect