目錄
- Background
- Motivation
- Related Work
- Problem Definition
- Methodology
- Per-Camera Multi-Task Learning
- Multi-Camera Multi-Lable Learning
- Curriculum Cyclic Association
- Multi-Label Learning
- Evaluation
- Datasets
- Evaluation Indexes
- Main Results & Analysis
- Discussion
- Further Research
本文是 IJCV 2021 Intra-Camera Supervised Person Re-Identification 的論文筆記,參考我愛計算機視覺https://blog.csdn.net/moxibingdao/article/details/112792563

論文鏈接:https://arxiv.org/abs/2002.05046.
Background

什么是Re-ID?
行人重識別(Person re-identification,簡稱Re-ID)是利用計算機視覺技術判斷影像或者視頻序列中是否存在特定行人的技術,廣泛被認為是一個影像檢索的子問題,
即給定一個監控行人影像,檢索跨設備下的該行人影像,
如左圖,對于某一感興趣的行人c,依次經過camera a和camera b,而Re-ID的任務就是已知行人c在camera a下的圖片,需要檢索出該行人在camera b中出現的圖片,或者說是否存在于b中,
實際生活中有許多不同視角不同位置的攝像頭,通過Re-ID可以確定行人的行動路線和行動時間,
為什么要用Re-ID?
旨在彌補目前固定的攝像頭的視覺局限,區分于人臉檢測,不需要用戶配合 去擺正臉或側臉,而是在被檢測方毫無察覺的情況下即可完成,并可與行人檢測/行人跟蹤技術相結合,可廣泛應用于智能視頻監控、智能安保等領域,

Re-ID的五大步驟:
- 資料采集,一般來源于監控攝像機的原始視頻資料;
- 行人框生成,從視頻資料中,通過人工方式或者行人檢測或跟蹤方式將行人從圖中裁切出來,影像中行人將會占據大部分面積;
- 訓練資料標注,包含相機標簽和行人標簽等其他資訊;
- 重識別模型訓練,設計模型(主要指深度學習模型),讓它從訓練資料中盡可能挖掘“如何識別不同行人的隱藏特征表達模式”;
- 行人檢索,將訓練好的模型應用到測驗場景中,檢驗該模型的實際效果,

Re-ID技術識別困難存在的挑戰:
- 低解析度導致的特征提取困難
- 目標遮擋導致部分特征丟失;
- 不同攝像視角造成行人外觀的巨大變化;
- 不同的光照導致同一目標的特征差異;
- 不同目標衣服顏色近似、特征近似導致區分度下降,
Motivation

(a)行人重識別的挑戰,每一個由虛線框包圍的三元組都顯示了一個人從不同相機視角拍攝的影像,
(b)跨鏡頭視圖手動關聯身份的說明,虛線箭頭表示兩個身份之間的比較,相同的身份以紅框為界,
行人重識別考慮的是一個跨鏡頭關聯目標人物的問題,對于傳統的全監督行人重識別,為了訓練得到一個性能較好的模型,大量標注好的行人資料是必不可少的,但是標注行人重識別資料是一個耗時又耗力的作業,這極大限制了在實際應用中的可擴展性,這也是此文的motivation之一,
針對這個問題,無監督(unsupervised)和跨領域無監督(unsupervised domain adaption)行人重識別演算法在近幾年得到了越來越多的關注也獲得了很大的進步,但是相比于全監督行人重識別模型而言,無監督模型的性能依然有一定的差距,
基于這兩個motivation,作者提出了一種在全監督和無監督之間的方法—攝像機域內監督行人重識別,這消除了最耗時、最繁瑣的攝像頭間身份標識程序,顯著減少了人工標注的作業量,
Related Work

行人重識別領域的相關作業分為這幾類:有監督、半監督、弱監督、無監督
當前的Re-ID模型大多是有監督的,
-
有監督:
用有標簽的資料訓練
優點:顯著的性能提升
缺點:費時費力,限制實際生活的實用性和擴展性 -
半監督:
將有監督最小化的顯著趨勢是半監督,有一部分資料的標簽未知,通常是兩階段的訓練,先用(較小規模的)有標簽資料訓練一個 Teacher 模型,再用這個模型對(較大規模的)無標簽資料預測偽標簽,作為 Student 模型的訓練資料
優點:有部分的標簽未知
缺點:顯著的性能下降以及仍需相當大比例的資料標注損耗 -
弱監督:
在未經處理的視頻層面添加 ID 標簽,即已知某段視頻中的所有行人的 ID,求與之一一匹配的標簽(如圖)
優點:減少部分作業
缺點:這種設定沒有很大的意義,因為主要標注損失來自跨鏡頭匹配身份類別,而不是描繪行人邊界框 -
無監督:
用無標簽的資料訓練,最直接的避免收集大量有標簽訓練資料的程序中產生巨大損耗的方法是無監督學習,有兩個關于無監督Re-ID的熱門研究方向- 基于無監督域適應的方法,這類方法從一個在源域上通過有監督的方式訓練好的模型開始,在目標域資料上通過無監督的方式實作模型的域適應,嚴格來講,這類方法并不能算作完全無監督,
優點:表現優于早期的無監督學習方法
缺點:需要源域和目標域之間有相似資料的分布,也就是說,兩個域之間要出現一定數量的相同行人,這限制在實際生活中的可擴展性 - 基于跟蹤的方法,這類方法需要一個較好的多目標跟蹤模塊,先在視頻中運行多目標跟蹤,然后將提取到的每個跟蹤軌跡列為一個單獨的ID,得到 ID之后,再通過度量學習計算相似度來訓練模型,理論上來說,也依靠一種偽標簽的分配,只不過這里的偽標簽是通過跟蹤得來的,
優點:在視頻資料存在時方案基本可行
缺點:具有無約束動力學的噪聲軌跡會導致方案性能不高
- 基于無監督域適應的方法,這類方法從一個在源域上通過有監督的方式訓練好的模型開始,在目標域資料上通過無監督的方式實作模型的域適應,嚴格來講,這類方法并不能算作完全無監督,
Problem Definition
那 什么是攝像機域內監督行人重識別呢
為了簡化問題,我們可以把全監督行人重識別的資料標注程序分為兩個階段:
- 攝像機域內行人圖片標注;如實線
- 攝像機之間個體關聯,如虛線
對于攝像機域內行人圖片的標注,除了人工標注我們還可以利用一些性能較好的跟蹤演算法進行初步標注,然后人工進行圖片的選取和核對,從而大大降低資料標注的作業量,
但是對于攝像機之間的行人,由于攝像機和攝像機之間可能存在比較大的差異,比如室內和室外的光照差異,攝像機視角差異等等,這些原因導致了跟蹤演算法往往不能夠成功地跨鏡頭跟蹤目標人物,這也是行人重識別問題提出來的原因之一,
因此,對于攝像機之間的行人關聯往往需要人工的參與,這是一個比較復雜的程序,對于每一個需要關聯的行人,我們需要將他與其他攝像頭下所有未標注的行人進行比對,此外,還需要保證不同的標注員標注相同行人時給的是同一個標簽,

圖片表示了傳統全監督行人重識別資料和攝像機域內監督行人重識別資料的差異,相比于全監督資料,攝像機域內監督資料只提供了每個攝像機下 行人照片的標簽資訊,而沒有提供相同行人在不同攝像機下的關聯標簽,因此在創建 攝像機域內監督行人資料集時可以減少跨鏡頭標注的作業量,

- 圖(a)傳統的全監督行人重識別資料集標注程序,多個標注員在標注程序中需要交流討論,確保給同一行人賦予相同的標簽
- 圖(b)攝像機域內監督行人重識別資料集標注程序中,多個標注員可以同時進行標注,因為沒有跨鏡頭的身份關聯,只需要標注單個鏡頭下的行人即可
根據資料集 中 標簽的特性,攝像機域內監督行人重識別問題需要解決以下兩個任務:
- 如何利用在每個攝像機下所提供的標簽資訊;
- 如何讓模型挖掘不同攝像機下同一行人影像之間隱藏的身份關聯資訊,
為了評估模型自動關聯不同攝像機下相同行人的質量,作者在創建資料集時,除了提供每個攝像機下的行人標簽,也提供了攝像機之間相同行人的關聯標簽,
Methodology

這篇論文介紹了一種新穎的 ICS (攝像機域內監督)深度學習方法,能夠進行多任務多標簽(MATE)模型學習,充分利用獨立的每個攝像頭行人身份標簽空間,
特別地,MATE通過將兩個互補的學習組件整合到一個統一的方案中,解決了上述兩個挑戰:
如圖是提出的多任務多標簽(MATE)深度學習方法概覽
給定每個攝像頭獨立標記的訓練影像,MATE的目標是學習一個身份判別特征表示模型,這是通過設計兩個學習組件來實作的:
- (b)每個攝像頭多任務學習,將每個攝像頭視圖作為一個獨立的學習任務,具有自己的身份類空間,并在公共特征表示上優化這些攝像頭特定的任務
- (c)組件跨鏡頭多標簽學習,通過回圈關聯 自我發現跨鏡頭視圖的潛在身份匹配關系,
- 并設計一種多標簽優化演算法,在模型訓練期間利用這些發現的跨鏡頭關聯資訊,
這兩個組成部分被整合在單個的MATE中,從而形成一個端到端的可訓練模型,
Per-Camera Multi-Task Learning

攝像機域內監督多任務學習是對應解決此前提到的第一個任務,即如何利用在每個攝像機下所提供的標簽資訊
在這個模塊中我們采用一個多任務學習深度模型,設計的基本思想是每個攝像機對應一個行人分類任務,所有的這些任務共用一個特征提取模塊,再把輸出特征作為全連接層的輸入,每個攝像機對應后面的一個全連接層,
對于損失函式,僅僅是采用最簡單的 Softmax Cross-Entropy
- softmax把分類輸出 標準化成 概率分布,cross-entropy(交叉熵)刻畫 預測分類 和 真實結果 之間的相似度,
Multi-Camera Multi-Lable Learning

多攝像機多標簽學習模塊是對應解決之前提到的第二個任務,即讓模型自動關聯不同攝像機下相同的行人并且利用這些自動關聯上的標簽,
在這個模塊里又設計了兩個子模塊:
- 攝像機間的相同行人關聯模塊
- 多標簽學習模塊
Curriculum Cyclic Association

攝像機間相同行人關聯模塊主要是基于一個相同行人圖片在不同圖片類中互為最相似的思想,
這個也是受啟發于 CycleGan,但是 CycleGan 是 Pixel Level 的,而我們這里是 Feature Level 的,
- 首先明確我們需要獲得的資訊是:cam 1中的第二張圖片p2,與cam2中的第三張圖片p3 所包含的是同一行人
那么也就是:
*)在cam2采集的行人圖庫中與cam1的p2最為相似的是p3
*)在cam1采集的行人圖庫中與cam2的p3最為相似的是p2
我們只需要獲得這兩條資訊就能成功跨鏡頭匹配這位行人 - 接下來就是分步獲取,計算cam2下每張圖片與cam1中的p2的相似度,得到相似度最高的是cam2下的p3
- 再對cam1做相同操作
- 不斷迭代直至遍歷完cam1下的所有圖片,就可以將cam1和cam2下所有同一行人的影像一一對應
Multi-Label Learning

將兩個行人關聯上后,我們就采用多標簽的方法在標簽層面上讓這兩個行人關聯上,具體做法是把關聯上的圖片的標簽分別復制給對方,
這樣經過多標簽處理后,不同攝像機下的相同行人就會擁有完全一樣的多標簽,如圖所示
經過上面兩個模塊的處理后,就可以關聯上不同攝像機下的相同行人并且關聯上的行人都會擁有新的標簽,我們把這些新的標簽更新到訓練資料集中,并且再次采用softmax cross-entropy 來對模型進行再次更新:公式9、10
最終的模型損失函式是這兩個模塊損失函式的線性疊加:公式11
Evaluation
Datasets
資料集包含Market-1501、DukeMTMC-reID、MSMT17,

Market-1501 在清華大學校園中采集,在 2015 年構建并公開,其中包含了1501個ID,每個ID都有來自六個不同攝像頭的幾張影像,該資料集還包括來自 DPM(資料處理機 Data Processing Machine) 的2793個假警報,作為干擾來模擬真實場景,
Zheng, L., Shen, L., Tian, L., Wang, S., Wang, J., & Tian, Q. (2015). Scalable person re-identification: A benchmark. In Proceedings of the IEEE International Conference on Computer Vision (pp. 1116-1124).

DukeMTMC-reID 在 2017 年構建并公開,是一種大規模的多目標多攝像頭跟蹤資料集,總共有超過2700人在8個攝像頭上被貼上了獨特的身份標簽,
Gou, Mengran and Karanam, Srikrishna and Liu, Wenqian and Camps, Octavia and Radke, Richard J. “DukeMTMC4ReID: A Large-Scale Multi-Camera Person Re-Identification Dataset.” CVPR Workshops (2017).

MSMT17(Multi-Scene Multi-Time)在 2018 年公開,資料集采用了安防在校園內的15個攝像頭網路,其中包含12個戶外攝像頭和3個室內攝像頭,為了采集原始監控視頻,在一個月里選擇了具有不同天氣條件的4天,每天采集3個小時的視頻,涵蓋了早上、中午、下午三個時間段,MSMT17采取資料的方式多場景多時段,更接近真實場景,
Wei, L., Zhang, S., Gao, W., & Tian, Q. (2018). Person Transfer GAN to Bridge Domain Gap for Person Re-Identification. Computer Vision and Pattern Recognition, IEEE International Conference on, 2018.
Evaluation Indexes
Re-ID采用Rank n和平均平均精度(mAP)指標進行模型績效測量,

Rank-n
搜索結果中 置信度最高 最靠前的n張圖,有正確結果的概率,
例如: lable為m1,在100個樣本中搜索,
若識別結果是m2、m3、m4、m5、m1……,則此時rank-1,rank-2的正確率為0%;而rank-5的正確率為100%
這種評估指標對每一個集合的結果可能有很大的差異,需要mAP來評估整個模型的總體效果,
mAP(Mean Average Precision)
對于圖片1,在檢索結果中正確影像分別排在1,3,6,9,10的位置,
對應的查準率是查詢結果中正確影像/總的影像,如回傳圖片3,此前的正確影像是1和3,總的影像是1,2,3,所以查準率是2/3
分別計算五張正確影像的precision
召回率是查詢結果中正確數量/總的positive數量,如回傳圖片6,查詢結果中正確影像是1,3,6,所以召回率是3/5
對圖片一中所有正確結果計算精度的平均值,表示圖片1的所有正確結果的準確率,
對于圖片2做相同操作,mAP就是對以上兩個檢索精度求平均,表示所有查詢對應的準確率,
衡量ReID時,要求被檢索人在底庫中所有的圖片都排在最前面,這時候mAP的指標才會高,
因為mAP要求是非常高的,所以是比較能夠綜合體現模型真實水平的指標,
Main Results & Analysis

作者將現有的行人重識別作業進行了分類,分為無監督,基于跟蹤演算法,跨域無監督,攝像機域內監督,半監督和全監督行人重識別,
從表格可以看出本文的 MATE 模型在 Market1501 的性能還是很有競爭性的,但在MSMT17資料集上表現不優,
Discussion
ICS 行人重識別問題是一個為了降低資料集構建的復雜性而提出的一個折中方案,
-
論文在評審中一個 reviewer 說這個方案是:a sweet compromise between unsupervised and fully supervised person re-id,該論文目前剛被 IJCV接收,
-
關鍵動機:消除跨鏡頭手動關聯身份的繁瑣且昂貴的程序,
-
方法:制定了一個多任務多標簽(MATE)學習模型,能夠充分利用每個攝像頭的標簽資訊,同時自我發現跨鏡頭身份關聯,
-
部署:ICS 這一新問題可以很容易地從現有的全監督資料集上過渡過來:只需要在全監督資料集上去掉攝像機間的行人關聯標簽就可以,另外 MATE 模型在演算法上也比較好實作,沒有涉及復雜的損失函式,
-
性能:但是在攝像機數量比較多的資料集上,比如MSMT17,性能和全監督模型依然存在著比較大的差距,
Further Research

根據一開始提到的行人重識別的5個步驟,我們可以把現有的Re-ID方法分為兩種主要趨勢: closed-world and open-world,如表1總結的,對二者主要區別進行了對比
- closed-world中只考慮資料是單一模態的,
而在實際應用中,資料可能是異構的,比如影像、文本、視頻,不同解析度以及不同光譜, - closed-world person Re-ID在訓練和測驗中通常基于生成的bounding boxes來完成,
相反,一些實際的開放世界應用程式需要從原始影像或視頻中進行端到端的人員搜索, - 對于第三步中的訓練資料標注,closed-world person Re-ID通常假設我們有足夠的帶標注的訓練資料來進行全監督的reid模型訓練,
但是,在每一個新環境下重新進行標注都是費時費力的,成本也很高在open-world的場景中,我們可能沒有足夠的標注資料,甚至沒有任何標簽資訊, - 現有的closed-world人員Re-ID系統通常假設所有的標注都是正確的,有干凈的標簽,
但實際應用中經常存在 標注錯誤所引發的標注噪聲 或 檢測/跟蹤結果不完善導致的樣本噪聲,且標注噪聲往往是不可避免的, - 在第5步的行人檢索階段,現有的大多數closed-world的person Re-ID通過計算Rank n和mAP,假設查詢必須發生在gallery集,
相對的,在許多場景中,查詢人員可能不會出現在圖庫集合中,或者我們需要執行驗證而不是檢索,
Deep Learning for Person Re-identification: A Survey and Outlook
目前closed-world的re-id性能都已經飽和,未來可以研究open-world re-id的這五個方向,
參考文獻
[1]Xiangping Zhu, Xiatian Zhu, Minxian Li, Vittorio Murino, and Shaogang Gong. “Intra-camera supervised person re-identification: A new benchmark.” InProceedings of the IEEE International Conference on Computer Vision Workshops, pp. 0-0. 2019.
[2]Xiangping Zhu, Xiatian Zhu, Minxian Li, Pietro Morerio, Vittorio Murino, and Shaogang Gong. "Intra-Camera Supervised Person Re-Identification."arXiv preprint arXiv:2002.05046(2020),accepted to IJCV 2021.
轉載請註明出處,本文鏈接:https://www.uj5u.com/ruanti/279635.html
標籤:其他
