SCO模型閱讀筆記

論文：Learning Semantic Concepts and Order for Image and Sentence Matching
發表會議：CVPR2018
作者：在這里插入圖片描述

一、為什么看？

好多關于影像-文本檢索的文章，但是大多數都忽略了影像的語意順序，當語意順序被忽略時，會造成檢索不準確，影像和文本的語意完全相反，
看點：影像的語意順序如何構建
應用：于跨模態影像-文本檢索

影像語意之間存在差距，特別是像素級影像缺乏語意資訊，本文提出語意增強影像和句子匹配模型，來通過學習語意概念和用一個正確的順序語意順序提高影像表示，
在這里插入圖片描述

給定一張影像，用多區域多標簽CNN預測語意概念，包括物件、屬性、動作；
由于區域沒有順序，如何給這些語意概念排序，將全域背景關系和語意概念融合；
對應的句子用LSTM生成，并且對融合后的句子進行監督，對比相似度，
在這里插入圖片描述

為什么要提取語意概念？
語意概念是影像與句子匹配的基本內容，像素級無法完成；

為什么不直接用影像描述？
影像描述和匹配是有區別的，影像匹配重點實在細粒度上找最相似的，影像描述體現在語意上，它不一定能夠捕獲到影像的細節，

為什么不從語意概念上直接學習語意順序？
不同的順序就有不同的意義，語意上有意義但可能是錯誤的順序，

句子表示學習：
一個完整的句子包括名詞、動詞和形容詞，分別對應語意概念中的物件、動作和屬性，對于一個句子，語意相關詞的概念本質上表現為句子的順序性，
采用傳統的LSTM來捕獲語意相關的詞和構建語意順序，
在這里插入圖片描述

影像的語意概念提取：
目前存在的資料集中，只有影像和匹配的句子，資料集不能提供物件、屬性和動作的資訊，所以必須用多區域多標簽的CNN進行預測，（被faster R-CNN取代） 預測語意概念等價于多標簽分類問題，
在這里插入圖片描述

只挑選句子中的名詞、形容詞、動詞和數字，洗掉同一語意相關的詞，忽略頻率低的詞，

影像語意順序學習
使用影像全域背景關系為參考和句子生成為監督，
影像全域背景關系
將全域背景關系和語意概念全部疊加在一起，不可取，因為語意概念和全域是的重要性是不相同的，
在這里插入圖片描述
生成的句子為監督

損失函式：

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/159306.html

標籤：其他