Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

【知乎的一篇介紹，寫的很詳細】
【代碼、論文】

概述：
CVPR2021的文章，也是自監督學習中pretext task的設計，其中的思考很值得咀嚼吸收，
通篇提到的background，應該既有背景的意思，也有場景的意思
上面的知乎鏈接介紹了文章的動機：

【知乎原文】… 如果一個模型過多關注空間資訊，則很容易產生誤判【比如只關注一幀影像】
Background是雙刃劍，過多或者過少關注都不好～
目前常用的資料集中含有大量類別其動作語意和物體及場景強相關，比如通過是否看到吉他來判斷是否為“彈吉他”動作，通過是否看到足球場地來判斷是否為 "踢足球"動作，這種運動類別和靜態物體以及靜態場景強相關的現象稱之為 Implicit Bias …

【下面是我的轉述】
在上述的資料集訓練 CNN 的時候，那些跟【場景/背景、物體】關聯性很高的類別（踢足球、彈吉他）就有比較好的分類效果，比較新奇或者要依靠時序資訊才能分辨的類別，就難整了；
針對這個問題，傳統的雙流法 (rgb + flow)有幫助，因為RGB流、Flow流本身就較好地利用了 spatial 和 temporal 資訊，但現在主流方法更多的使用 end-to-end 的3D網路，網路很容易陷入到 implict bias 中，

一、神奇的想法：通過添加background來去掉background

小標題可能不好理解，但其實就是上面提到的“文章的動機”：Background是雙刃劍，過多或者過少關注都不好，那我在視頻資料中加一些圖片背景多樣而相似的視頻（給圖片背景加噪），網路的泛化性就會更好，
作者提到用GAN、VAE去生成背景相似的圖片，我理解應該是當作/替換視頻幀去訓練，但太復雜了，轉而想到我給背景加噪，別的幀也完全能當作噪聲，比如當前視頻幀的像素分布可以認為是IID的，那么+上某幀生成的視頻就會有background perturbation，但motion規律基本不會變（對時間微分不會變）

BE：Background Erasing的公式就應運而生了，即第j幀圖片加spatial background noise作為新生成的視頻幀，自然有選擇這個noise的方法，在知乎上有比較，最終用的是當前視頻的某一幀
x d = ( 1 ? λ ) ? x ( j ) + λ ? δ , j ∈ [ 1 , T ] x^d = (1-\lambda)\cdot x^{(j)} + \lambda \cdot \delta,\ \ \ j\in [1,T] xd=(1?λ)?x(j)+λ?δ, j∈[1,T]

看完應該就能回答這幾個問題：

視頻的背景在動作識別中有什么幫助？為什么要去掉視頻的背景？
怎么樣去除掉視頻的背景？
為什么這樣的想法叫 remove the background by adding the background？
我是理解成 remove the negative impact of background by adding the background noise

二、結合自監督學習、對比學習

在這里插入圖片描述
1.網路的訓練思路就是上圖的拉近加噪、不加噪的視頻特征之間的距離，這樣確實會少些空間方面的資訊，但預訓練模型之后再到資料集微調，空間資訊就能找回來一些

2.文章的思路融合到自監督學習、對比學習中，我理解則是：
（1）自監督學習的loss，既有判斷是否對樣本進行了上述add background的操作的交叉熵loss，也有1中說的特征之間的L2 loss
（2）結合對比學習，則是從視頻樣本中抽取了正樣本、負樣本（相似樣本、不相似樣本），相應的增大、減小特征的相似度，用的是InfoNCE loss，名字唬人，公式不復雜，然后抽取負樣本，既能選擇別的視頻，也能從當前的視頻中選擇不同的clip，

在這里插入圖片描述

三、實驗、分析
論文在后面還有詳盡的分析自己的網路到底學到了什么，這里不贅述了，但確實干貨多

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/286852.html

標籤：其他

上一篇：AVProVideo??（一）支持的平臺與插件功能

下一篇：unity學習筆記-特效篇

視頻中的自監督學習：Removing the background忽略視頻的背景，學習robust的特征

Removing the Background by Adding the Background: Towards Background Robust Self-supervised Video Representation Learning

一、神奇的想法：通過添加background來去掉background

二、結合自監督學習、對比學習