視頻超分：RRN（Revisiting Temporal Modeling for Video Super-resolution）-有解無憂

在這里插入圖片描述

論文：用于視頻超分的再審視時空模型
文章檢索出處： 2020 BMVC

摘要和簡介

在這項作業中，我們仔細研究和比較了三種實作視頻超分的時間建模方法（早期融合2DCNN，緩慢融合3DCNN和RNN），
我們提出了一種新穎的遞回殘差網路（RRN），以實作有效的視頻超分，其中利用殘差學習來穩定RNN的訓練并同時提高超解析度性能，大量實驗表明，與其他時間建模方法相比具有更好的細節，此外，所提出的方法實作了SOTR，
作者于 2020-10-08 upload 了原始碼

方法

overview

整個系統由兩部分組成：一個以連續幀為輸入并將其與參考幀集成的時間建模網路，以及一個通過隱式方式利用運動資訊優化網路的損失函式，三種時間建模方法與本文所提出的方法的示意圖為：

2DCNN

受 EDSR 的啟發，我們設計了帶有幾個修改后的2D殘差塊的2DCNN，這種模型將2T +1個連續幀作為輸入，
聚合程序可以表述為： R t = W n e t 2 D { W f u s i o n 2 D [ I t ? T , . . . , I t + T ] } R_t = W_{net2D}\{W_{fusion2D}[I_{t-T},...,I_{t+T}]\} Rt?=Wnet2D?{Wfusion2D?[It?T?,...,It+T?]} W f u s i o n 2 D W_{fusion2D} Wfusion2D?的輸入張量形狀為NC x H x W，N = 2T + 1，生成的殘差圖的形狀為 R t R_t Rt?為 H x W x C r 2 r^2 r2，其中r為比例因子，高解析度殘差圖 R t ↑ R_t^↑ Rt↑?通過depth-to-space獲得，最后，高解析度影像 y ^ t \hat y_t y^?t?為預測的高解析度殘差圖 R t ↑ R_t^↑ Rt↑?加bicubic上采樣的高解析度參考圖 I t ↑ I_t^↑ It↑?，

3DCNN

我們將2D殘差塊中的2D卷積層修改為3x3x3卷積層，聚合程序可以表述為： R t = W f u s i o n 3 D { W n e t 3 D { I t ? T : t + T } } R_t =W_{fusion3D}\{W_{net3D}\{I_{t-T:t+T}\}\} Rt?=Wfusion3D?{Wnet3D?{It?T:t+T?}} W n e t 3 D W_{net3D} Wnet3D?的輸入張量形狀為C x N x H x W，N = 2T + 1，為了防止幀數減少，我們在時間軸上添加兩個像素值為零的幀，

RRN

在時間步t處的隱藏狀態將三部分作為輸入:（1）先前的輸出 o t ? 1 o_{t-1} ot?1?（2）先前的隱藏狀態 h t ? 1 h_{t-1} ht?1?（3）兩個相鄰幀 I { t ? 1 , t } I_{\{t-1,t\}} I{t?1,t}?，先前VSR中的RNN遭受梯度消失的困擾，為了解決這個問題，我們提出了一種新穎的遞回網路，稱為殘留遞回網路（RRN），它具有殘差映射和跳過連接，在時間t:
>其中 g ( x ^ k ? 1 ) g(\hat x_{k-1}) g(x^k?1?)表示身份殘差塊中的身份映射，也就是 g ( x ^ k ? 1 ) g(\hat x_{k-1}) g(x^k?1?)= x ^ k ? 1 \hat x_{k-1} x^k?1?， F ( x ^ k ? 1 ) F(\hat x_{k-1}) F(x^k?1?)表示第k層的殘差映射，

實驗

資料集

在這項作業中，我們采用Vimeo-90k作為訓練集，通過將 σ \sigma σ = 1.6的高斯模糊應用于高解析度幀并進一步以4比例因子進行下采樣來獲得大小為64x64的低解析度影像，我們在Vid4，SPMCS和UDM10資料集上評估開發的模型，

細節和實驗

對于本實驗不同的模型，其中S和L分別代表五個模塊和十個模塊，2DCNN和3DCNN的通道大小設定為128，為了與基于CNN的方法進行合理比較，我們還分別采用了五個和十個殘留塊作為RRN-S和RRN-L的隱藏狀態，每個塊包括一個卷積層，一個ReLU層以及另一個卷積層，卷積層的通道大小設定為128，在時間步 t 0 t_0 t0?，先前的估計被初始化為零，為了訓練基于CNN的模型，將2DCNN和3DCNN的初試學習率分別設定為 1 1 1x 1 0 ? 4 10^{-4} 10?4和 1 1 1x 1 0 ? 3 10^{-3} 10?3，并在10個epochs后乘以0.1，訓練步驟在30個epochs后完成，為了訓練基于RNN的模型，學習率最初設定為 1 1 1x 1 0 ? 4 10^{-4} 10?4，然后每60個epochs乘0.1直到結束(70個epochs)，設定 β 1 \beta_1 β1? = 0.9， β 2 \beta_2 β2? = 0.999和權重衰減為 5 5 5x 1 0 ? 4 10^{-4} 10?4，使用Adam優化器對所有模型進行逐像素L1損失函式監督，對于基于CNN和基于RNN的方法，我們分別將mini-batch的大小設定為64和4，
對比實驗：
模型PSNR隨資訊流變化：

RNN中不同層數以及是否使用殘差塊的消融實驗，其中" ? * ?"代表出現梯度消失：

有其他模型的量化評估：
僅供學習使用，請勿轉載，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/171765.html

標籤：其他

上一篇：看看專科程式員與本科程式員之間，到底有什么區別？

下一篇：使用FreePic2Pdf軟體后，制作好的pdf檔案中，書簽正確顯示，但是點擊書簽無法實作跳轉原因記錄