Self-supervised Spatio-temporal Representation Learning for Videos by Predicting Motion and Appearance Statistics
2019年的CVPR文章,作者所設計的pretext task是由運動、顏色衍生出來的統計量(具體來說是最大的動作位置以及方向,顏色改變最大 / 最小的位置以及顏色的值),在文章的Introduction中作者提到了動作的表示在人的視覺系統中是基于一系列learned patterns,文章的思路跟這息息相關,
The idea is inspired by Giese and Poggio’s work on human visual system [14], in which the representation of motion is found to be based on a set of learned patterns.
These patterns are encoded as sequences of snapshots of body shapes by neurons in the form pathway, and by sequences of complex optic flow patterns in the motion pathway.
一、整體框架

- 網路的motion branch:首先是提取光流,然后計算了x y方向上的梯度以消除camera motion;為了統計幀上最大的動作出現在什么位置,作者還把圖片分成了好幾個block,運用了不同的pattern(如上圖所示3種pattern),
然后,以塊為單位,計算像素的動作magnitude并求平均——這里應該就是所有幀的光流求平均,數值最大的位置即為label;同時在最大的位置對每個像素的動作方向做sum,策略是360°方向分成8份,出現最多的方向就是dominant orientation的label,
最后,作者還弄了個label預測最大的motion frame,
總的來說是用光流圖去算這個label,并且會有水平、豎直兩個分量,故在一種劃分圖片的pattern中,label有2(兩個分量)x 2(動作最大的位置和動作的方向) = 4個,
-
Apperance branch:整體策略是以塊為單位求RGB值變化的IoU,IoU大的顏色變化就小,and vice versa,根據IoU確定顏色變化最大、最小的位置,以及對應的值(作者說也把3D的RGB空間劃分成了8塊,塊的編號作為dominant color的值,但沒具體說咋分的),作為4個label,
同樣的,作者也求了一個整個視頻的 dominant color作為label, -
從上圖能夠看出,自監督的時候,對于一個視頻整個網路的label是motion branch的14維,和apperance branch的13維,用MSE loss來訓練,
二、訓練策略


轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/275884.html
標籤:其他
