視頻超分：RBPN（Recurrent Back-Projection Network for Video Super-Resolution）-有解無憂

在這里插入圖片描述
論文：用于視頻超分的回圈反向投影網路
文章檢索出處： 2019 CVPR

摘要和簡介

針對視頻超解析度問題，我們提出了一種新穎的體系結構，使用回圈編碼器/解碼器模塊將連續視頻幀的空間和時間背景關系進行整合，該模塊將多幀資訊與目標幀的單幀超分網路融合在一起，與大多數以前通過堆疊或扭曲將幀合并在一起的作業不同，我們的模型是回圈反向投影網路(RBPN)，將每個背景關系幀視為單獨的資訊源，
這些源組合在一個迭代的框架中，該框架受多圖超分中反投影概念的啟發，通過顯式表示相對于目標的估計幀間運動，而不是顯式對齊幀，我們提出了一個新的視頻超分基準，可以進行更大范圍的評估并考慮不同運動方式下的視頻，實驗結果表明，我們的RBPN在多個資料集上均優于現有方法，

回圈反向投影網路

網路結構

RBPN的作業可分為三個階段：初始特征提取、多次投影和重建，
初始特征提取：在輸入 I t I_t It?進入投影模塊之前，將其映射為LR特征 L t L_t Lt?，對于每個相鄰幀 I t ? k I_{t-k} It?k?，將其與預先計算的 I t I_t It?和 I t ? k I_{t-k} It?k?的密集運動流圖 F t ? k F_{t-k} Ft?k?和 I t I_{t} It?一起串聯起來，然后將這個8個通道的影像映射到鄰居特征張量 M t ? k M_{t-k} Mt?k?，
多次投影：在這里，我們通過集成SISR和MISR來提取目標幀中的缺失細節，然后生成精煉的HR特征張量，該階段接收 I t ? k ? 1 I_{t-k-1} It?k?1?和 M t ? k M_{t-k} Mt?k?，并輸出HR特征張量 H t ? k H_{t-k} Ht?k?，
重建：將所有的特征圖串聯饋入到重構模塊中， S R t = f r e c ( [ H t ? 1 , H t ? 2 , . . . , H t ? n ] ) {SR}_t = f_{rec}([H_{t-1},H_{t-2},...,H_{t-n}]) SRt?=frec?([Ht?1?,Ht?2?,...,Ht?n?])，其中 f r e c f_{rec} frec?為單卷積層，

多次投影

RBPN的多重投影階段使用編碼器/解碼器模塊的回圈鏈，跨時間幀共享的投影模塊有兩個輸入： L t ? n ? 1 ∈ R M l x N l x C l L_{t-n-1} \in \mathbb{R}^{M^l \mathsf{x} N^l \mathsf{x} C^l } Lt?n?1?∈RMlxNlxCl和 M t ? n ∈ R M l x N l x C m M_{t-n} \in \mathbb{R}^{M^l \mathsf{x} N^l \mathsf{x} C^m } Mt?n?∈RMlxNlxCm，然后產生兩個輸出： L t ? n L_{t-n} Lt?n?和 H t ? n ∈ R M h x N h x C h H_{t-n} \in \mathbb{R}^{M^h \mathsf{x} N^h \mathsf{x} C^h } Ht?n?∈RMhxNhxCh其中 c l , c m , c h c^l,c^m,c^h cl,cm,ch是相應圖的通道數，
編碼器會產生從投影到特定鄰居幀的估計HR特征的隱藏狀態，
解碼器解密相應的隱藏狀態，作為編碼器模塊的下一個輸入，