主頁 >  其他 > CVPR2021 Oral | HOTR:不再需要后處理!Kakao Brain提出端到端Human-Object互動檢測模型...

CVPR2021 Oral | HOTR:不再需要后處理!Kakao Brain提出端到端Human-Object互動檢測模型...

2021-10-30 11:04:33 其他

關注公眾號,發現CV技術之美


本文分享 CVPR2021 Oral 論文『HOTR: End-to-End Human-Object Interaction Detection with Transformers』,由 Kakao 提出端到端的Human-Object 互動檢測模型《HOTR》不再需要后處理步驟!

詳細資訊如下:

e025552ee960dd97b5d90756ed00d007.png

  • 論文鏈接:https://arxiv.org/abs/2104.13682

  • 專案鏈接:https://github.com/kakaobrain/HOTR

導言:

7c35dfd6ddc2de79adf2239d1ea5714d.png

Human-Object Interaction(HOI)檢測是識別影像中“人-物-互動”的任務,涉及到:1)互動作用中的主體(人)和目標(物件)的定位;2)以及互動標簽的分類, 大多數現有的方法都通過檢測人和物件實體,然后單獨推斷檢測到的每一對實體的關系來間接解決這個任務,

在本文中,作者提出了一個新的框架HOTR,直接基于Transformer編碼器-解碼器結構從影像中預測一組<人、物件、互動>的三元組,通過集合預測,本文的方法有效地利用了影像中固有的語意關系,不需要耗時的后處理步驟,大大提高了該任務的速度,本文提出的演算法在兩個HOI檢測基準資料集測驗中實作了SOTA的性能,并且在目標檢測之后的處理時間只需要1ms,

01

Motivation

Human-Object互動(HOI)檢測任務為預測影像中的<人、物件、互動>三元組的任務,以前的方法通過首先執行目標檢測,并將檢測到的<人、物件>對進行單獨的后處理來預測互動關系,來間接地解決這個任務,但是這種方式非常耗時,并且計算量也非常大,

為了克服HOI檢測器中的冗余計算,最近的方法也提出了并行的HOI檢測器,這些方法可以顯式地定位與任何一個檢測框的互動,通過將區域相互作用與目標檢測結果相關聯,以完成<人、物體、相互作用>三元組的生成,然而,這種方法這種依賴于一些啟發式的設計,比如距離、IoU,來進行human和object之間的匹配,

目前的HOI檢測作業主要存在兩方面的局限性:1)它們需要額外的后處理步驟 ,如抑制相近的重復預測和啟發式的閾值,2)雖然物件之間的建模關系有助于目標檢測,但目前HOI檢測的作業仍然沒有考慮物件之間高級和復雜的互動

基于上面的問題,本文提出了一種快速、準確的HOI演算法HOTR(Human-Object interaction TRansformer),它用DETR中集合預測的方法同時預測場景中的人-物件互動,作者設計了一種基于Transformer的編碼器-解碼器結構來預測一組HOI三元組,這使模型能夠克服以前作業的兩個局限性,

  1. 首先,直接的集合預測使HOTR能夠消除手工設計的后處理階段 ,本文的模型以一種端到端方式訓練,通過與Ground-Truth的<人,物體,互動>集合的匹配預測損失函式來優化模型,

  2. 其次,Transformer的自注意機制使該模型利用了人和物件之間的背景關系關系以及它們的互動作用 ,從而使得本文的模型更適用于復雜的場景理解,

01cb13b2f7b0447b7dd5968cc98134f0.png

作者在兩個HOI檢測基準資料集(V-COCO和HICO-DET資料集)上評估了本文的模型,與順序和并行的HOI檢測器相比,本文提出的模型在這兩個資料集上實作了SOTA的性能,此外,本文的方法比的其他HOI檢測演算法要快得多,因為它通過直接集合預測消除了耗時的后處理,結果如上圖所示,


02

方法


本文的目標是以端到端的方式建模?人、物件、互動? 之間固有的語意關系,來預測一組?人、物件、互動? 三元組,為了實作這一目標,作者將HOI檢測表述為集合預測問題(類似DETR),在本節中,作者首先討論如何將用于目標檢測的集合預測結構直接擴展到HOI檢測的問題

然后,作者提出了本文結構HOTR,它并行地預測一組檢測的 目標 ,并將互動作用中的人和物件關聯起來,而Transformer中的自注意用于互動作用之間的關系建模,最后,作者給出了本文模型的訓練細節,包括用于HOI檢測的匈牙利匹配和本文的損失函式

2.1. Detection as Set Prediction

Object Detection as Set Prediction

DETR將目標檢測作為一個集合預測問題來進行訓練,由于目標檢測包括每個物件的分類和定位,因此DETR中的transformer編碼器-解碼器結構將N個query轉換為了N個目標類別和邊界框的預測,

HOI Detection as Set Prediction

與目標檢測類似,HOI檢測可定義為一組預測問題,其中每個預測包括人區域(即,互動主體)和物件區域(即,互動目標)的定位,以及互動型別的多標簽分類,一個簡單的方法是修改DETR的MLP head,從而使得模型能夠預測來人檢測框、物件檢測框和動作分類,

然而,這種結構帶來了一個新的問題,即同一物件的定位需要通過多個query進行冗余的預測(例如,如果同一個人坐在椅子上在計算機上作業,則兩個不同的查詢必須推斷出同一個人的冗余回歸),

2.2. HOTR architecture

0e2d1d871eb75f7c22e0ae19b265366d.png

本文的HOTR結構如上圖所示,是一個Transformer編碼器-解碼器結構,具有共享的編碼器和兩個并行的解碼器(即實體解碼器和互動解碼器),基于兩個解碼器的結果,使用本文提出的HO指標(HO Pointers) 生成最終HOI三元組,

Transformer Encoder-Decoder architecture

770d4564bb3488a026e1919f5ce79371.png

與DETR類似,全域背景關系特征由主干CNN和共享編碼器從輸入影像中提取,隨后,將兩組查詢向量(即,實體查詢和互動查詢)送到兩個并行解碼器(即,實體解碼器和互動解碼器)中,實體解碼器將實體查詢轉換為實體表示以進行目標檢測 ,而互動解碼器將互動查詢轉換為互動表示用于互動檢測

作者將前饋網路(FFN)用于互動表示,并獲得人指標(Human Pointer)、物件指標(Object Pointer)和互動型別(interaction type),如上圖所示,也就是說,互動表示通過使用人指標和物件指標(HO指標)指向相關實體表示來定位人員和物件區域,而不是直接回歸邊界框,與直接回歸方法相比,這樣的結構有幾個優點:

  1. 在直接回歸方法中,相同物件的定位因互動的不同會存在不同 ,本文的結構通過使用單獨的實體和互動表示并使用HO指標將它們關聯起來來解決這個問題,

  2. 此外,本文的結構允許更有效地學習目標和人的定位,而無需在每次互動中重復學習定位

HO Pointers

上圖展示了HO指標如何關聯實體解碼器和互動解碼器的預測結果,HO指標(即人指標和物件指標)包含互動中人和物件的對應實體表示的索引,當互動解碼器將K個互動查詢轉換為K個互動表示之后,互動表示送入到兩個前饋網路,獲得向量和,人指標和物件指標分別代表與所有實體特征表示相似度最高的人和物件的下標 ,計算如下:

1325197018a9d8bc6fe2a492d015bed5.png

0484e41f93d6ae465b2a9107d29dc0ca.png


Recomposition for HOI Set Prediction

到目前為止,我們已經計算出了以下變數:1)N個實體特征表示;2)K個互動特征表示和相對應的HO指標,在給定γ互動類的情況下,用于檢測框回歸和動作分類的前饋網路分別表示為:和:γ,然后,通過以下方式獲得第i個互動表示的最終HOI預測:

f45dffd5dc4162f527a10acce6f56173.png

這樣,我們就得到了HOTR最終預測,形式上是K個三元組的集合,,,分別表示?人、物件、互動?,

2.3. Training HOTR

在本節中,作者首先介紹了本文用到的匈牙利匹配演算法,用于獲得Ground Truth HOI三元組和HOI集合預測之間的唯一匹配,然后,基于匹配結果,定義HO指標與最終訓練的損失函式

Hungarian Matching for HOI Detection

HOTR預測了K個HOI三元組,它由human box、object box和a個類別的動作分類組成,其中,K的值通常大于影像中互動對的數量,這一點與DETR相似,

設Y表示Ground Truth的HOI三元組的集合,代表模型的K個預測,由于K的數量通常比圖片中的互動數量要多,所有Y中不足的部分會用?來進行pad,為了找到這兩個集合之間的二部匹配,作者搜索了K個元素的排列:

9fd97ea16f36b0352669cc43b1731beb.png

其中,是Ground Truth和下標為σ的預測之間的成對匹配損失,然而,采用?hbox、obox、action?的形式,而σ采用?hidx,oidx,action?的形式,因此我們需要修改一下損失函式,

設:為ground- truth ?hidx,oidx?到ground-truth ?hbox,obox?的映射函式,用于目標檢測的最優分配,使用逆映射:,可以從ground-truth ?hbox,obox?得到ground- truth ?hidx,oidx?,

設表示一組歸一化的實體表示μμ,為Human Pointer的softmax預測集合,計算如下:

5546a8580b6c26bc6e605105aa6d8d7f.png

的表示Object Pointer的softmax預測集合,定義與Human Pointer相似,

給定ground-truth,,,并將ground-truth box轉換為下標:???,匹配損失函式計算如下:

b68430725782d38094b8cdfc9b34db1f.png

Final Set Prediction Loss for HOTR

然后,作者計算了以上所有匹配對的匈牙利損失,其中HOI三元組的損失具有定位損失和動作分類損失,如下所示:

31c6c96e700586417859c94ed0346e28.png

定位損失的具體計算如下:

747dc34291b78dbdee394aa6cfd74b5a.png

其中τ是控制損失函式平滑度的超引數,

Defining No-Interaction with HOTR

在DETR中,最大化無物件類的Softmax輸出的概率自然會抑制其他類的概率,然而,在HOI檢測中,動作分類是多標簽分類,其中每個動作被視為單獨的二分類,由于缺少可以抑制冗余預測的顯式類,HOTR會得到同一個?human,object?對的多個預測,因此,HOTR設定學習互動性的顯式類(如果對之間存在互動,則為1,否則為0),抑制低互動性分數的冗余對的預測,


03

實驗


3.1. Quantitative Analysis

ffbce616dbb1daa4108d2e66c8976133.png

上表顯示了本文方法在V-COCO資料集上和其他SOTA方法的對比,可以看出,本文的方法在性能上遠超以前的SOTA方法,

61ebb08cff9ebe72f09df8b834ed8a9a.png

上表顯示了本文方法在HICO-DET資料集上和其他SOTA方法的對比,在全體測驗集和常見的樣本上,本文方法的性能都比以前的方法要好,但是在出現比較少的樣本上,本文的方法不如一些以前的方法,

3.2. Ablation Study

6ef5eb1362bc5a98d258b86adeab78d6.png

With vs Without HO Pointers

在HOTR中,互動表示通過使用人指標和物件指標(HO指標)指向相關實體表示來定位人和物件區域,而不是直接回歸邊界框,從上表可以看出,HO指標對于性能的提升還是非常重要的,

Shared Encoder vs Separate Encoders

在本文中,作者采用了共享的Encoder,為了探究共享Encoder的作用,作者還試了用分開的Encoder,結果如上圖所示,可以看出,共享的Encoder能夠達到更高的性能,

With vs Without Interactiveness Suppression

HOTR設定了一個學習互動性的顯式類,來抑制對概率較低的冗余對的預測,上表顯示,為互動性設定顯式類有助于提升最終的性能,


04

總結


本文提出了用于解決human-object互動問題中的第一個基于Transformer的集合預測方法HOTR,HOTR的集合預測方法消除了以前HOI檢測器手工設計的后處理步驟,同時能夠對相互作用之間的相關性進行建模,

為了使得Transformer能夠適應HOI檢測任務,作者提出了多種HOTR的訓練和推理技術:采用并行解碼器進行HOI分解訓練 ,基于相似度的層重組進行推理 ,以及抑制互動性,作者還開發了一種新的基于集合的匹配來檢測HOI,它將互動表示與實體表示相關聯,在HOI檢測任務中,HOTR在兩個基準資料集上實作了SOTA的性能,并且推理時間低于1ms,明顯快于以前的并行HOI檢測器(5~9ms),

個人覺得,這篇文章與EMNLP2021的《On Pursuit of Designing Multi-modal Transformer for Video Grounding》有異曲同工之妙,避免了以前方法手工設計的后處理模塊,基于DETR的思想,將整個任務處理為一個端到端的方式,大大提升了模型的精度和推理速度,

作者簡介

研究領域:FightingCV公眾號運營者,研究方向為多模態內容理解,專注于解決視覺模態和語言模態相結合的任務,促進Vision-Language模型的實地應用,

知乎/公眾號:FightingCV

efaf211db53194fe6c27c35db606ba83.png

END

歡迎加入「人物互動交流群👇備注:HOI

7068c95a2fa301e0f490c5f09d5c6382.png

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/341993.html

標籤:其他

上一篇:有了這個方法群聊斗圖你就不會輸了(Python imageio制作gif動圖)

下一篇:論文閱讀: Spatial transformer networks

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more