主頁 >  其他 > EMNLP 2020最佳論文榮譽提名:視覺信號輔助的自然語言文法學習

EMNLP 2020最佳論文榮譽提名:視覺信號輔助的自然語言文法學習

2020-12-20 11:05:07 其他

點擊藍字

關注我們

AI TIME歡迎每一位AI愛好者的加入!

長久以來,自然語言的文法學習(Grammar Learning)只考慮純文本輸入資料,我們試圖探究視覺信號(Visual Groundings),比如影像,對自然語言文法學習是否有幫助,為此,我們提出了視覺信號輔助下的概率文法的通用學習框架,

該框架依賴于概率文法模型(Probabilistic Context-Free Grammars),具有端到端學習、完全可微的優點,其次,針對視覺輔助學習中視覺信號不足的問題,我們提出在語言模型(Language Modeling)上對概率文法模型進行額外優化,我們通過實驗驗證視覺信號以及語言模型的優化目標有助于概率文法學習,

趙彥鵬:愛丁堡大學語言、認知和計算研究所博士生,導師是Ivan Titov和Mirella Lapata教授,他的研究興趣是結構預測和隱變數模型,現在主要關注語言結構和影像結構的學習,以及二者之間的聯系,

一、 背景

本次分享內容是,用視覺信號來輔助概率文法學習的一個通用學習框架,我們關注的問題是,視覺信號能否幫助我們來推理出自然語言的句法結構?

接下來我將從以下幾個部分展開,

首先介紹視覺信號輔助下的概率文法學習的一些背景知識和現有的一些作業,

然后介紹本文提出的Visually Grounded Compound PCFGs (VC-PCFGs),

最后實驗驗證VC-PCFGs的有效性,

首先了解問題定義:給定一張圖片以及它的自然語言描述,比如這里有一張鴿子的圖片,它的語言描述是a white pigeon sniffs flowers,我們的目標是通過圖片和文字兩個輸入,得到對應句子的句法結構,也就是右邊的圖,句法結構由不同的詞組嵌套而成,每個詞組可能有不同的型別,它可以是一個名詞詞組或者是一個動詞的組,在學習程序中,這種詞組的類別資訊依賴于文法模型的選擇,但是評測的時候一般會忽略,

為什么視覺信號可以幫助文法結構的學習?這依賴于如下觀測:給定一個句子,如果相鄰的兩個詞組,比如white和pigeon,對應/關聯于圖片中一個相同的區域,那么就有理由相信它們更有可能形成一個大的詞組,進而把它們合并起來,接下來的問題是如何表示這種相關性資訊?我們的想法是通過相似度來量化相關性,

如何去學習相似度?之前的模型應用對比學習的方式(Contrastive Learning),首先給定一張圖片以及句子,然后通過文法模型,得到句子的句法結構的表示,剛才已經提到句法結構對應的就是一些嵌套的詞組,我們可以把這些詞組提取出來,和相應的圖片組成詞組圖片對,稱之為正樣本,

然后固定一個詞組,從資料集里面隨機采樣一些圖片,并將采樣得到的圖片和當前固定的詞組同樣組成新的詞組圖片對,作為負樣本,對比學習的優化目標就是使正樣本的得分比負樣本的得分高,類似的,我們也可以固定圖片,從其他句子里面隨機的采樣一些詞組,和當前圖片組合構成負樣本,這樣就完整定義了一個詞組圖片對的損失函式,

因為一個句子可以包含多個不同的詞組,那么在所有的詞組圖片對上加和,就可以得到一個句子圖片對的損失函式,需要注意的是這里提到的這些詞組是來自于一個句法結構,這個句法結構是從一個文法模型里面采樣得到的,

我們已經能夠表示和學習這種相似度,接下來如何從相似度學習文法模型?

首先了解一下之前的作業,其選擇了一個貪心文法模型,所謂貪心就是每次它只會選擇最有可能合并到一起的兩個詞組,進行合并,其次,貪心意味著它只能去采樣,不能夠在有限時間內列舉所有可能的句法結構,所以它學習就依賴于強化學習的方法,直觀理解是,如果當前合并起來的兩個詞組和給定的影像相似度很高,那么有理由相信它們更有可能被合并,我們應用之前定義的詞組圖片對之間的相似度,作為一個reward,強化合并操作,

雖然這樣一個模型比較直觀,但是還有下列這些缺陷,首先強化學習依賴于采樣,所以在優化程序中,即評估梯度的時候會有很大的噪聲,

其次對于視覺信號輔助下的自然語言文法學習,有一個本質的問題,即有些句法結構的資訊在相應的圖片里面是找不到支撐資訊的,比如這里稍微改變一下這個句子, a white pigeon is sitting in the grass peacefully,我們很難去找到sitting這樣一個動詞以及peacefully這樣一個副詞在這個圖片里面所對應的視覺信號是什么,觀察之前的文章作者匯報的一些結果,我們發現他們的模型在名詞詞組,即NPs,相對于在動詞VPs上的結果要好很多,為了緩解這個問題,他們不得不借助于語言特定的先驗資訊,

二、我們的模型:VC-PCFGs

那么我們是如何解決這些問題的呢?首先,對于強化學習帶來的梯度評估中的噪聲問題,我們提出把貪心文法模型替換為概率文法模型,即PCFGs,替換之后我們可以將采樣操作去掉,同時優化程序是完全可微的,我們稱之為,Visually Grounded Compound PCFGs,至于compound這個名詞的解釋稍后會提到,

其次是視覺信號不充分的問題,對于一個概率文法模型,只給定純文本,而沒有視覺信號的情況下,我們可以通過優化語言模型的目標函式來學習概率文法模型,所以我們提出在語言模型目標函式上對概率文法模型進行優化,

也就是說我們的模型包含兩部分,首先是引入視覺信號的概率文法模型的學習,其次在語言模型目標上來優化概率文法模型,值得注意的是,這兩個程序都是完全可微的,接下來我們詳述這兩部分,

首先回顧視覺信號輔助的文法模型學習中的一個重要的損失函式,在之前的作業中,給定一個文法模型,即parser,采樣得到一個句法結構,通過列舉這個句法結構所定義的所有詞組,之后在詞組圖片對上把它們的loss加和,得到一個句子圖片對上的loss,我們的目標是把這樣一個采樣程序去掉,也就意味著必須想辦法計算句法結構分布下的損失函式的期望值,

期望可以寫成加和的形式,給定一個句子的話,這個句法結構空間是指數級別的,我們不可能列舉所有句法結構,但是我們可以把這個式子中的兩個加法操作交換順序,第一個加法操作是列舉所有的句法結構,第二個加法是要列舉句法結構中所有的詞組,交換順序之后做一些簡單的推導,就可以得到最右邊的等式,這個等式意味著只需要列舉給定句子的所有的詞組,這是很容易做到的,因為其所有的詞組數目也就N平方級別,

接下來問題轉換成如何來評估條件概率?即給定一個句子,其中一個詞組的條件概率是什么?這就是通常所說的后驗評估的問題,其次,還需要得到這個詞組Span c的表示,我們需要用它和影像做一個相似度的計算,最終的問題可以劃分成兩個部分:后驗評估和Span的表示,

首先第一個部分,后驗評估,我們選擇了一個概率文法模型,PCFG parser,因為用這樣一個概率文法模型的話,可以通過動態規劃的方法方便地計算后驗概率,然后通過計算句法樹分布下的損失函式期望值,得到去除采樣程序的損失函式,同時它的優化是完全可微的,其次,因為概率文法模型的優化本身可以不依賴于視覺信號,所以我們可以直接去優化它的語言模型上的目標函式,這個程序同樣是完全可微的,同時緩解了視覺信號不充分的問題,

對于概率文法模型,我們選擇了當前最好的一個概論文法模型,即Compound PCFGs,需要指出的就是Compound PCFGs只是PCFGs的一個擴展,所以之前提到的關于PCFGs的所有的優點它都是具備的,這樣便得到我們的完整模型,即Visually Grounded Compound PCFGs,

接下來來看第二個模塊,第二個模塊是給定一個句子如何來表示它的詞組,我們這里選擇了雙向的LSTM模型,對于一個句子中所有不同長度的詞組,我們在詞組級別上做編碼,得到詞組的向量化表示,這樣一個模型能夠保證當前詞組的表示,不會用到詞組之外的資訊,通過一些代碼實作上的技巧,我們可以在線性時間復雜度內得到所有詞組的表示,

三、結論驗證

最后是實驗部分,

實驗部分使用了MSCOCO資料集,每個圖片對應有一個自然語言的描述,由于資料集中的自然語言描述沒有真實的句法結構標注,為了評測,我們使用了當前最好的一個有監督的文法模型,得到自然語言描述的句法結構,對于影像的編碼,我們沿用之前作業的方法,對每個模型用預練好的,ResNet-101,把每個圖片編碼成一個向量的表示,

評測中,我們在每一種設定下重復運行模型4次并取平均,每次使用了不同的亂數種子,評測指標使用句子級別的F1評測,模型之間的對比,這里主要有三組模型:

1.第一組是很簡單的對比模型,比如Left Branching, Right Branching, Random Trees,

2.第二組是之前模型,即VG-NSL,我們對比它在使用和不使用語言特定先驗下的結果,

3.第三組是我們的模型,因為這里主要評測兩個模塊:

a)僅應用語言模型的目標函式,對應Compound PCFGs(C-PCFGs),

b)只應用視覺信號,也就第二個without language mode objective(w/o LM),

最后是我們完整的模型VC-PCFG,既用語言模型的目標函式,又用視覺信號資訊,

接下來看一下整體結果,首先是Right-branching模型表現強勢,只有Compound PCFG以及VC-PCFG,遠遠的超過了它,其他模型都比這個簡單的模型表現要差,

這里對比C-PCFG和VC-PCFG,模型如果額外使用視覺信號的話,可以帶來接近6%的提升,

這里對比只使用視覺信號的模型(w/o LM)與加入語言模型目標函式的完整模型(VC-PCFG),我們可以看出語言模型目標函式帶來將近9%的一個提升,

我們想知道這些模型提升主要來自于哪一種型別的詞組?我們這里選擇了測驗集里面四個頻率比較高的詞組型別,首先第一個是名詞詞組,然后第二個是動詞詞組,第三個是介詞詞組,第四個是連詞詞組,因為模型在介詞和連詞上的性能和在動詞詞組上的性能比較類似,接下來我們只在名詞詞組和動詞詞組上做比較,

首先先看一下之前的模型VG-NSL,這里重新驗證了作者的實驗結果,VG-NSL在NP上的性能超過VP上的性能大于35%,

這里顯示的是我們的完整模型,VC-PCFG對應的是紅色柱狀圖,可以看出相對于其他模型,它的效果雖然不是最好的,但是它整體來說是較好的,然后在VP上,相對于之前的VG-NSL,我們的模型比它高出了55%,

接下來驗證視覺信號的有效性,沒有用視覺信號的是黃色柱狀圖,使用了視覺信號的是紅色柱狀圖,在NP上,使用視覺信號可以帶來將近11%的一個提升,也就是說視覺信號對NP是有幫助的,

這里驗證語言模型的目標函式的有效性,同樣我們發現語言模型目標函式也是在NP上帶來一個很大的提升,提升了大概19%,

最后我們從另外一個角度來分析模型,即這些模型在不同長度的詞組上的效果如何,這張圖首先可以看有一個明顯的差別:上面兩個對應的是C-PCFG以及VC-PCFG,這兩個模型明顯是要優于之前的VG-NSL,

具體來說的話,當詞組的長度大于4的時候,這兩個模型始終是優于之前的VG-NSL,即便之前的VG-NSL加了一個語言特定的先驗知識,

這里對比視覺信號是否有幫助,藍色是是我們完整的模型,橙色的是沒有加入視覺信號的模型,我們發現當詞組的長度小于5的時候,藍色對應的模型,即使用了視覺信號模型是要顯著優于不用視覺信號的模型,所以我們結論是視覺信號對于短的一些詞組是有幫助的,然而我們發現這些短詞組占了整個資料集所有詞組大概75%,而在75%里面又有60%是名詞詞組,所以我們可以說視覺信號對于文法學習的幫助主要體現在名詞詞組上,

四、結論

我們提出了VC-PCFGs,它應用Compound-PCFGs作為文法模型,是一個端到端可微,在視覺信號輔助下的文法學習通用框架,

VC-PCFGs允許我們額外優化一個語言模型的目標函式,進而緩解視覺信號不充分的問題,

我們實驗驗證了視覺信號以及語言模型的優化目標函式對于文法學習都有幫助,

相關資料

論文鏈接:

https://www.aclweb.org/anthology/2020.emnlp-main.354.pdf

代碼鏈接:

https://github.com/zhaoyanpeng/vpcfg

整理:閆 昊

排版:岳白雪

審稿:趙彥鵬

本周直播預告:

AI TIME歡迎AI領域學者投稿,期待大家剖析學科歷史發展和前沿技術,針對熱門話題,我們將邀請專家一起論道,同時,我們也長期招募優質的撰稿人,頂級的平臺需要頂級的你!

請將簡歷等資訊發至yun.he@aminer.cn!

微信聯系:AITIME_HY

AI TIME是清華大學計算機系一群關注人工智能發展,并有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、演算法、場景、應用的本質問題進行探索,加強思想碰撞,打造一個知識分享的聚集地,

更多資訊請掃碼關注

(直播回放:https://b23.tv/nvMcWg)

(點擊“閱讀原文”下載本次報告ppt)

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/237585.html

標籤:AI

上一篇:極客日報第 30 期:Google回應全球宕機:磁盤滿了;摩拜App昨晚正式停止服務

下一篇:西瓜視頻穩定性治理體系建設一:Tailor 原理及實踐

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more