CVPR 2021預講：前沿視覺技術如何在實踐中落地（內含視頻&PPT）-有解無憂

CVPR是世界頂級的計算機視徑訓議，CVPR 2021大會將于6月19日至25日在線上舉行，美團共有5篇論文被本屆CVPR大會收錄，內容覆寫實體分割、表情識別、快速影像分割、特征選擇和對齊等多個技術領域，近日，美團與智源社區聯合主辦了CVPR 2021預講 · 美團專場論文分享活動，本文系本次分享活動的視頻和內容整理，

關注「美團技術團隊」，在對話框回復「CVPR2021」，即可獲取本次活動的演講稿合集，

開場致辭

美團視覺智能中心負責人魏曉林為本次活動做了開場致辭，他表示，美團是一家科技驅動型公司，現在研發團隊已經遠超1萬人，其中人工智能是美團最重要的技術方向之一，在人才和科研合作上都有持續的投入，

美團視覺智能中心負責人魏曉林

目前，美團與國內外超過20所知名高校及科研機構建立了交流和合作機制，圍繞人工智能、無人駕駛、運籌優化、大資料、資訊基礎設施等研究領域開展了多項課題合作，在人才培養方面，特別是高層次人才，我們建立了美團博士后作業站；面向在校大學生，我們有「北斗」高精尖校招計劃，每年會有大量的校招實習生加入美團，他們會在真實的業務場景中開展學術研究，且取得了很多落地的科研成果，

豐富多樣的應用場景

魏曉林說，很多同學加入美團之后，都會感受到很大的幸福感，而這種幸福感主要來自于兩個方面：一方面是感覺上的「反差」，美團是一家比較低調的公司，但是大家加入美團之后，會發現美團在視覺AI的學術研究上已經做了很多的作業，可能會遠超自己的預期，另一方面，美團豐富的線上和線下業務中有眾多的真實應用場景，這也讓做視覺的同學們產生了幸福感，比如，美團的線上場景有搜索、推薦、廣告、內容安全審核、地圖、相機掃一掃等；線下場景有配送、智慧門店、智慧倉儲物流、無人車、無人機等等，這些場景中都大量用到了視覺AI技術來實作數字化甚至是自動化，

這些場景可以讓各種視覺技術能夠迅速落地并且快速得到驗證，美團真正提供了一個可持續的研發環境，比如今年被CVPR收錄的這5篇論文，雖然看起來也都是在一些經典資料集上去做一些實驗和驗證，但是這些論文背后都對應著美團真實的應用場景，而且論文的價值最終也會在美團業務上得到很好的體現，

積極探索前沿科技

美團視覺智能中心一直都在關注視覺領域的前沿科技，比如近幾年的自監督學習、多模態學習、Visual Transformer、AutoML等領域，美團都做了很多研究和探索作業，同時，公司也鼓勵同學們將這些前沿的研究成果發表在各種國際頂會上，

美團今年在CVPR發表的這些論文，涵蓋了視頻實體分割、弱監督語意分割、實時語意分割、人臉表情建模以及多模態域適應的研究，從論文研究方向的多樣性也可以看出，美團在視覺的各個領域都有一定的積累和沉淀，從另一個角度來看，這5篇論文來自美團不同的技術部門，有視覺智能中心、無人車配送中心，還有大眾點評技術部，側面說明整個美團技術團隊對科技前沿都是非常重視的，美團也歡迎更多優秀的人才加入，一起在真實場景中探索科技前沿，

| 論文一：End-to-End Video Instance Segmentation with Transformers

| 王鈺晴，美團無人車配送中心演算法工程師

| 報告視頻（B站）

| 內容簡介：本文是第一個將Transformers應用于視頻分割領域的方法，視頻實體分割指的是同時對視頻中感興趣的物體進行分類，分割和跟蹤的任務，現有的方法通常設計復雜的流程來解決此問題，本文提出了一種基于Transformers的視頻實體分割新框架VisTR，該框架將視頻實體分割任務視為直接端到端的并行序列解碼和預測的問題，給定一個含有多幀影像的視頻作為輸入，VisTR直接按順序輸出視頻中每個實體的掩碼序列，該方法的核心是一種新的實體序列匹配和分割的策略，該策略在整個序列級別上對實體進行監督和分割，VisTR將實體分割和跟蹤統一到了相似度學習的框架下，從而大大簡化了流程，在沒有任何trick的情況下，VisTR在所有使用單一模型的方法中獲得了最佳效果，并且在YouTube-VIS資料集上實作了最快的速度，

| 論文二：Feature Decomposition and Reconstruction Learning for Effective Facial Expression Recognition

| 報告視頻（B站）

| 阮德蓮，廈門大學碩士生

| 內容簡介：考慮到不同類別的表情之間存在著相似性，本文認為人臉表情資訊由不同表情之間的共享資訊與每個表情的特定資訊組成，提出了一種基于特征解構與重構學習的人臉表情識別方法，具體地，首先使用特征分解網路將基本特征分解為一系列能夠感知面部動作的潛在特征，這些潛在特征有效地建模了表情中的共享資訊，然后，特征重構網路分別對這一系列潛在特征向量進行特征內部和特征之間的相關性建模，從而學習表情的特有資訊，實驗結果表明該方法在三個室內資料集（包括 CK+、 MMI 和 OuluCASIA）和兩個室外資料集（包括 RAFDB 和 SFEW）上都有優越的性能表現，

| 論文三：Rethinking BiSeNet For Real-time Semantic Segmentation

| 報告視頻（B站）

| 范銘源，美團視覺智能中心演算法工程師

| 內容簡介：本文從減少深度模型的結構性冗余的角度重新思考了經典的快速影像分割方法BiSeNet，從而對基礎網路結構和解碼器部分同時進行改進，在基礎網路部分，提出了一種高效的短時密集連接網路，在不降低性能的情況下，大幅度提升推理速度，在解碼器部分，通過使用細節引導模塊加強淺層特征來代替細節分支，進一步減少了網路的結構性冗余，該模型在快速影像分割領域取得了領先水平，在相同性能下，速度比當前最好方法快45%以上，在美團的場景下，此項技術已經應用在影像水印去除中，用于獲取水印Mask，未來也會應用在需要快速語意分割的場景，比如地圖建設中的場景決議，

| 論文四：Embedded Discriminative Attention Mechanism for Weakly Supervised Semantic Segmentation

| 報告視頻（B站）

| 吳桐，美團視覺智能中心實習生，北京理工大學碩士生

| 內容簡介：使用影像級標注的弱監督語意分割通常將分類網路的類別激活圖（CAM）視為語意分割的偽標簽，然而這些激活圖通常僅僅突顯區域的具有區分性的區域，而不是語意分割所要求的物體的完整區域，為了生成更加完整的類別激活圖，我們提出了Embedded Discriminative Attention Mechanism （EDAM）將類別激活圖的生成直接融合進了分類網路中，具體來說，我們使用了一個Discriminative Activation（DA）層來生成類別獨立的掩膜，并通過這些掩膜提取出各個類別獨立的特征，隨后我們通過Collaborative Multi-Attention （CMA）機制，聚合圖片內和圖片間的背景關系資訊，我們的方法在PASCAL VOC 2012的測驗集上取得了70.6%的mIoU，達到了最優性能，

| 論文五：Partial Feature Selection and Alignment for Multi-Source Domain Adaptation

| 報告視頻（B站）

| 張明，點評事業部實習生，電子科技大學碩士生

| 內容簡介：現有的多源域適應設定和方法常常忽略了兩個方面的「部分性」，一是目標域的類別標簽空間不完全包含于源域，二是源域特征中只有部分是與目標域高度相關的，我們提出了一個更加一般的多源域適應研究主題，名為多源部分域適應（MSPDA），同時提出一個部分特征選擇和對齊框架網路（PFSA）能夠處理傳統MSDA問題和新提出的MSPDA問題，框架利用源域和目標域特征之間的相似性對源域特征進行選擇，得到源域特征中與目標域更相關的部分，然后通過多種對齊損失實作了類別級別上的對齊，我們的方法在MSDA和MSPDA兩個場景中的分類問題上都取得了領先，

招聘資訊

視覺智能中心

視覺智能中心面向美團多樣化的生活服務場景，通過計算機視覺技術提升業務價值，愿景是「打造生活服務場景下領先的視覺智能引擎，建成行業一流的視覺AI團隊，以視覺技術來拓展商業邊界」，

目前專案及業務包括細粒度影像識別、商品檢索、人臉識別、活體驗證、刷臉支付、文字識別、視頻理解與生產、內容安全審核、AR導航、相機掃一掃、地圖視覺應用、移動端推理、大規模自監督學習、模型壓縮、AutoML等，視覺智能中心既深耕主線視覺技術方向，也推動新視覺方向的研發與落地，來提高業務流程效率和提升用戶體驗，踐行「幫大家吃得更好，生活更好」的企業使命，