
論文:用于視頻超分的再審視時空模型
文章檢索出處: 2020 BMVC
摘要和簡介
在這項作業中,我們仔細研究和比較了三種實作視頻超分的時間建模方法(早期融合2DCNN,緩慢融合3DCNN和RNN),
我們提出了一種新穎的遞回殘差網路(RRN),以實作有效的視頻超分,其中利用殘差學習來穩定RNN的訓練并同時提高超解析度性能,大量實驗表明,與其他時間建模方法相比具有更好的細節, 此外,所提出的方法實作了SOTR,
作者于 2020-10-08 upload 了原始碼
方法
overview
整個系統由兩部分組成:一個以連續幀為輸入并將其與參考幀集成的時間建模網路,以及一個通過隱式方式利用運動資訊優化網路的損失函式, 三種時間建模方法與本文所提出的方法的示意圖為:
2DCNN
受 EDSR 的啟發,我們設計了帶有幾個修改后的2D殘差塊的2DCNN,這種模型將2T +1個連續幀作為輸入,
聚合程序可以表述為: R t = W n e t 2 D { W f u s i o n 2 D [ I t ? T , . . . , I t + T ] } R_t = W_{net2D}\{W_{fusion2D}[I_{t-T},...,I_{t+T}]\} Rt?=Wnet2D?{Wfusion2D?[It?T?,...,It+T?]} W f u s i o n 2 D W_{fusion2D} Wfusion2D?的輸入張量形狀為NC x H x W,N = 2T + 1,生成的殘差圖的形狀為 R t R_t Rt?為 H x W x C r 2 r^2 r2,其中r為比例因子, 高解析度殘差圖 R t ↑ R_t^↑ Rt↑?通過depth-to-space獲得,最后,高解析度影像 y ^ t \hat y_t y^?t?為預測的高解析度殘差圖 R t ↑ R_t^↑ Rt↑?加bicubic上采樣的高解析度參考圖 I t ↑ I_t^↑ It↑?,
3DCNN
我們將2D殘差塊中的2D卷積層修改為3x3x3卷積層,聚合程序可以表述為: R t = W f u s i o n 3 D { W n e t 3 D { I t ? T : t + T } } R_t =W_{fusion3D}\{W_{net3D}\{I_{t-T:t+T}\}\} Rt?=Wfusion3D?{Wnet3D?{It?T:t+T?}} W n e t 3 D W_{net3D} Wnet3D?的輸入張量形狀為C x N x H x W,N = 2T + 1, 為了防止幀數減少,我們在時間軸上添加兩個像素值為零的幀,
RRN
在時間步t處的隱藏狀態將三部分作為輸入:(1)先前的輸出 o t ? 1 o_{t-1} ot?1?(2)先前的隱藏狀態 h t ? 1 h_{t-1} ht?1?(3)兩個相鄰幀 I { t ? 1 , t } I_{\{t-1,t\}} I{t?1,t}?,先前VSR中的RNN遭受梯度消失的困擾, 為了解決這個問題,我們提出了一種新穎的遞回網路,稱為殘留遞回網路(RRN),它具有殘差映射和跳過連接,在時間t:
>其中 g ( x ^ k ? 1 ) g(\hat x_{k-1}) g(x^k?1?)表示身份殘差塊中的身份映射,也就是 g ( x ^ k ? 1 ) g(\hat x_{k-1}) g(x^k?1?)= x ^ k ? 1 \hat x_{k-1} x^k?1?, F ( x ^ k ? 1 ) F(\hat x_{k-1}) F(x^k?1?)表示第k層的殘差映射,
實驗
資料集
在這項作業中,我們采用Vimeo-90k作為訓練集, 通過將 σ \sigma σ = 1.6的高斯模糊應用于高解析度幀并進一步以4比例因子進行下采樣來獲得大小為64x64的低解析度影像, 我們在Vid4,SPMCS和UDM10資料集上評估開發的模型,
細節和實驗
對于本實驗不同的模型,其中S和L分別代表五個模塊和十個模塊,2DCNN和3DCNN的通道大小設定為128,為了與基于CNN的方法進行合理比較,我們還分別采用了五個和十個殘留塊作為RRN-S和RRN-L的隱藏狀態, 每個塊包括一個卷積層,一個ReLU層以及另一個卷積層,卷積層的通道大小設定為128,在時間步 t 0 t_0 t0?,先前的估計被初始化為零, 為了訓練基于CNN的模型,將2DCNN和3DCNN的初試學習率分別設定為 1 1 1x 1 0 ? 4 10^{-4} 10?4和 1 1 1x 1 0 ? 3 10^{-3} 10?3,并在10個epochs后乘以0.1, 訓練步驟在30個epochs后完成, 為了訓練基于RNN的模型,學習率最初設定為 1 1 1x 1 0 ? 4 10^{-4} 10?4,然后每60個epochs乘0.1直到結束(70個epochs), 設定 β 1 \beta_1 β1? = 0.9, β 2 \beta_2 β2? = 0.999和權重衰減為 5 5 5x 1 0 ? 4 10^{-4} 10?4,使用Adam優化器對所有模型進行逐像素L1損失函式監督, 對于基于CNN和基于RNN的方法,我們分別將mini-batch的大小設定為64和4,
對比實驗:
模型PSNR隨資訊流變化:
RNN中不同層數以及是否使用殘差塊的消融實驗,其中" ? * ?"代表出現梯度消失:
有其他模型的量化評估:
僅供學習使用,請勿轉載,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/171765.html
標籤:其他




>其中


