主頁 >  其他 > 【CoSOD】Re-thinking Co-Salient Object Detection

【CoSOD】Re-thinking Co-Salient Object Detection

2020-12-08 08:15:24 其他

Re-thinking Co-Salient Object Detection

原始檔案:https://www.yuque.com/lart/papers/feumut

image.png

CoSOD最近的一篇綜述, 梳理了該領域的方法, 提出了一個資料集, 在CVPR版本基礎上進一步提出了一個新方法.

CoSOD

是什么

  • As a extension of this, co-salient object detection (CoSOD) emerged recently to employ a set of images.
  • The goal of CoSOD is to extract the salient object(s) that are common
  • within a single image (e.g., red-clothed football players in Fig. 1 (b))
  • or across multiple images (e.g., the blue-clothed gymnast in Fig. 1 (c)).
  • Two important characteristics of co-salient objects are local saliency and global similarity.

image.png

應用前景

  • collection-aware crops

    • Cosaliency: Where people look when comparing images
  • co-segmentation

    • Higher-order image co-segmentation
    • Object-Based Multiple Foreground Video Co-Segmentation via Multi-State Selection Graph
  • weakly supervised learning

    • Capsal: Leveraging captioning to boost semantics for salient object detection
  • image retrieval

    • A model of visual attention for natural image retrieval
    • Salientshape: group saliency in image collections
  • video foreground detection

    • Cluster-based co-saliency detection

現有資料集

  1. MSRC [Object categorization by learned universal visual dictionary] and_** Image Pair**_ [A co-saliency model of image pairs] are two of the earliest ones.

    1. MSRC was designed for recognizing object classes from images and has spurred many interesting ideas over the past several years. This dataset includes 8 image groups and 240 images in total, with manually annotated pixel-level ground-truth data.
    2. Image Pair, introduced by Li et al. [29], was specifically designed for image pairs and contains 210 images (105 groups) in total.
  2. The iCoSeg [icoseg: Interactive co-segmentation with intelligent scribble guidance] dataset was released in 2010. It is a relatively larger dataset consisting of 38 categories with 643 images in total.

    1. Each image group in this dataset contains 4 to 42 images,
    2. rather than only 2 images like in the Image Pair dataset.
  3. The THUR15K [Salientshape: group saliency in image collections] and CoSal2015 [Co-saliency detection via looking deep and wide] are two large-scale publicly available datasets, with CoSal2015 widely used for assessing CoSOD algorithms.

  4. Different from the above-mentioned datasets, the WICOS [Co-saliency detection within a single image] dataset aims to detect co-salient objects from a single image, where each image can be viewed as one group.

存在的問題

  • Although the aforementioned datasets have advanced the CoSOD task to various degrees, they are severely limited in variety, with only dozens of groups. On such small-scale datasets, the scalability of methods cannot be fully evaluated.
  • Moreover, these datasets only provide object-level labels. **None of them provide rich annotations such as bounding boxes, instances, etc., ** which are important for progressing many vision tasks and multi-task modeling. Especially in the current deep learning era, where models are often data-hungry.
  • Most CoSOD datasets tend to focus on the appearance-similarity between objects to identify the co-salient object across multiple images. However, this leads to data selection bias [Salient objects in clutter: Bringing salient object detection to the foreground], [Unbiased look at dataset bias] and is not always appropriate, since, in real-world applications, the salient objects in a group of images often vary in terms of texture, scene, and background, even if they belong to the same category.

CoSOD的評估

現有評估方式的局限

  • 評價全面性(Completeness), 建議引入更多的指標, 例如S-measure, E-measure.
  • 評價合理性(Fairness), 對于F-measure需要使用二值預測結果的特性, 不同的二值策略導致不同的結果, 所以需要一套公用的基準代碼來評估.

To address the aforementioned limitations, we argue that integrating various publicly available CoSOD algorithms, datasets, and metrics, and then providing a complete, unified benchmark, is highly desired.

CoSOD與SOD評估方式的差異

CoSOD涉及到分組, 也就是以每一組內(這些影像內普遍出現的目標往往就是Co-salient Obejct)統計各個指標的結果, 但是這里有個細節需要注意:

  • 對于直接可獲得的數值指標(例如MAE、S-measure、weighted F-measure、adaptive F-measure和adaptive E-measure)而言, 就是各組內計算平均值后, 所有組的結果再一起計算一次均值.
  • 但是對于需要通過變化閾值來計算的指標(例如max F-measure、mean F-measure、max E-measure和mean F-measure)而言, 就是各組內平均得到256長度的序列后, 再所有組一起算一次均值. 對于最終得到的腸胃256序列的結果取最大或者均值便可以得到對應的指標值.

關于各個指標具體的定義細節可見本人的python代碼或者是Fan提供的matlab代碼.

  • https://github.com/lartpang/PySODMetrics
  • https://github.com/DengPingFan/CODToolbox

注意, 這里提供的鏈接是針對SOD或者COD任務的資料的指標計算代碼.

對于CoSOD任務的分組計算的特性, 需要進行調整, 具體可見Fan提供的另一份計算CoSOD的代碼, 但是他其中的指標計算并不全面, 代碼還有部分錯誤(與這里指出的是相同的錯誤:https://github.com/DengPingFan/CODToolbox/issues), 但是計算的邏輯是可以參考的:

  • http://dpfan.net/wp-content/uploads/CoSalBenchmark-EvaluationTools.zip

我近期已經整理了一份python的實作, 暫時沒有公開, 指標更加全面(按照本文的內容來看, SOD的指標實際上都可以被用到CoSOD上), 速度更快.

關于我對于E-measure計算的加速的思考可見以下兩篇文章:

  • 我是如何使計算時間提速25.6倍的:https://www.yuque.com/lart/blog/aemqfz
  • 我是如何使計算提速>150倍的:https://www.yuque.com/lart/blog/lwgt38

本文的貢獻

  • 提出了CoSOD3k資料, 包含13個超類, 160組, 3316張圖.
  • 整理了34篇相關作業, 評估了16個模型, 提供了一套評估代碼.
  • 提出了一個簡單有效的CoSOD框架, 基于現有的SOD方法實作了CoSOD的有效處理.
  • 分析了結果, 對未來的作業提出了一些建議.

CoSOD3k

看文字分析不如圖表來的直接.

image.png

不同資料集中資料屬性的統計, 可見本文提出的資料集包含的豐富的注釋型別

image.png

不同資料集中目標屬性的統計

image.png

CoSOD3k類別資訊統計

image.png

The overall dataset mask (the right of Fig. 7) tends to appear as a center-biased map without shape bias. As is well-known, humans are usually inclined to pay more attention to the center of a scene when taking a photo. Thus, it is easy for a SOD model to achieve a high score when employing a Gaussian function in its algorithm.

CoEG-Net

image.png

本文提出了一個兩分支的框架以一種多重獨立的方式(in a multiply independent fashion)分別捕獲并發依賴(concurrent dependencies)和顯著性前景. 通過上面的分支獲得co-attention maps和下面分支獲得的saliency prior maps之間相乘(element-wise)來產生最終的co-saliency prediction.

  • 下面的顯著性分支較為簡單, 直接使用了DUTS上訓練好的EGNet來收集多尺度顯著性先驗. 這可以在不利用跨影像資訊的前提下幫助識別影像中的顯著性區域.
  • 上面分支以一種無監督的方式生成co-attention map. 這部分需要細講一下.

Co-attention Projection for Co-saliency Learning

這里的設計受CAM[Learning deep features for discriminative localization]的啟發:

  • 給定輸入影像\(\mathbf{I}^n\), 對應影像類別(keywords labeling)為\(c\)
  • 從VGG最后的卷積層中獲得特征激活圖\(\mathbf{X}^n\)
  • \(c\)通過類別監督可以獲得(例如從分類任務的全連接層對應的引數獲得)對應與卷積特征激活輸出各個通道的權重\(\omega\)
  • 可以得到最終的類別特定的attention map:\(\mathbf{M}^n_c=\sum^K_{k=1}\omega^c_k\mathbf{X}^n\)
  • 針對特征圖\(\mathbf{X}^n\)上的每一個位置, 可以得到更加具體的計算方式:\(\mathbf{M}^n_c(i, j)=(\omega^c)^\top \cdot \mathbf{x}^n(i, j)\)

因此CAM實際上實作了一種從特征\(\mathbf{x}^n(i, j)\)到類別特定激活圖\(\mathbf{M}^n_c(i, j)\)的線性變換.

本文延續這種思路, 并且根據自身沒有類別標簽的情況進行了進一步無監督學習的探索.

作者給出了自己的分析:

Ideally, the unknown common object category among a group of associated images \(\{\mathbf{I}^n\}^N_{n=1}\) should corresponds to a linear projection that results in high class activation scores in the common object regions, while having low class activation scores in other image regions.

From another point of view, the common object category should correspond to the linear transformation that generates the highest variance (most informative) in the resulting class activation maps.

Follow the idea in coarse localization task [Unsupervised object discovery and co-localization by deep descriptor transformation], we achieve this gold by exploring the classical principle component analysis (PCA) method [LIII. On lines and planes of closest fit to systems of points in space], which is the simplest way of revealing the internal structure of the data in a way that best explains the variance in the data.

我覺的這個解釋有點牽強. 感覺邏輯有點不夠連貫: high class activation scores =?>the highest variance (most informative)

接下來就是溫習PCA的階段了:

  • 給定\(\{\mathbf{I}^n\}\), 可以得到\(\{\mathbf{X}^n\}\)
  • 旨在獲得一個變換, 可以從\(\{\mathbf{X}^n\}\)獲得一個有著最大方差的co-attetion maps\(\{\mathbf{A}^n\}\), 注意這里是一組結果, 這個變換則通過分析特征描述子\(\{\mathbf{x}^n(i, j)\}\)的協方差矩陣獲得
  • 計算均值:\(\bar{\mathbf{x}} = \frac{1}{Z}\sum_n\sum_{i, j}\mathbf{x}^n(i, j)\)獲得, 這里的Z是一個\(N \times H \times W\)的張量
  • 通過對\(\mathbf{x}^n(i, j)\)去均值處理獲得零均值版本的描述子\(\hat{\mathbf{x}}^n(i, j)\)
  • 進一步獲得協方差矩陣:

image.png

(雖然原文是這么給的, 但是為什么還要再減均值呢?)

  • 這里通過獲得Cov的最大的特征值對應的特征向量得到對應的線性變換:

image.png

這里的\(\xi^*\)表示對應的特征向量

image.png

可視化結果

這里需要注意, 得到的attention maps本身是灰度的, 具有極高的模糊性. 為了將其集成到已經由EGNet得到的saliency prior map上, 需要先對其進行處理, 文中使用了densecrf和manifold ranking來進一步細化.

實驗結果

image.png

image.png

也嘗試了基于其他SOD方法的實驗

討論和建議

  • SOD方法的良好表現并不一定意味著當前的資料集不夠復雜, 或者直接使用SOD方法可以獲得良好的性能: From the evaluation, we observe that, in most cases, the current SOD methods can obtain very competitive or even better performances than the CoSOD methods. However, this does not necessarily mean that the current datasets are not complex enough or using the SOD methods directly can obtain the good performances—the performances of the SOD methods on the CoSOD datasets are actually lower than those on the SOD datasets.

  • CoSOD的研究還存在一些問題: Consequently, the evaluation results reveal that many problems in CoSOD are still under-studied and this makes the existing CoSOD models less effective.

    • Scalability: 現有方法很難應對更大的組的資料同時處理, 如何降低由于組內影像數量造成的計算損耗, 是實際應用需要考慮的關鍵問題.
    • Stability: 一些方法對于陣列組內樣本的順序有依賴, 這損害了模型性能的穩定性(如果改變順序或者劃分的子組有變換, 可能性能有變化). 這會限制實際的應用.
    • Compatibility: 在CoSOD框架中引入SOD方法被本文證明了有效性, 但是如何實作更加高效(時間消耗)端到端可訓練的檢測是一個值得研究的問題.
    • Metrics: 現有指標主要基于單影像的目標的預測評估, 沒有考慮跨影像的目標預測的評估.

相關鏈接

  • 論文:https://arxiv.org/abs/2007.03380
  • 主頁:https://dpfan.net/CoSOD3K/
  • CoSOD論文匯總:https://hzfu.github.io/proj_cosal_review.html

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/231373.html

標籤:其他

上一篇:容器網路(六)準備 macvlan 環境【49】

下一篇:云服務器的選型

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more