論文筆記整理:胡楠,東南大學博士,
來源:ISWC 2020
動機
像Wikidata這樣的現代知識圖已經捕獲了數十億個RDF三元組,但是它們仍然缺乏對大多數關系的良好覆寫,同時在NLP研究的最新進展表明,可以輕松地查詢神經語言模型以獲得相關知識而無需大量的訓練資料,這項論文作業綜合這些進展通過在知識圖譜的頂部創建一個結合BERT的混合查詢應答系統來改善補全查詢結果,將知識圖譜中的有價值的結構和語意資訊與語言模型中的文本知識相結合,以達到高精度查詢結果,當前處理不完整知識圖譜的標準技術是(1)需要大量訓練資料的關系提取,或者(2)知識圖譜嵌入,這些知識在簡單的基準資料集之外就難以成功,論文為此提出的混合系統KnowlyBERT僅需要少量的訓練資料,并且在Wikidata上進行實驗,結果表明優于最新技術,
模型
系統概述圖如上所示,作為KnowlyBERT的輸入,用戶可以向系統提出以物體為中心的SPARQL查詢,首先,查詢語言模型(a);然后,對不完整的知識圖譜進行查詢,并獲得結果(b);另外SPARQL查詢被翻譯成多種自然語言陳述句,這些語言陳述句在“關系模板生成”步驟中由語言模型完成;語言模型回傳多個單詞串列以及每個單詞(c)的置信度值;然后將這些串列合并為一個串列(d),并根據知識圖譜型別資訊(e)使用我們的語意過濾步驟進行過濾,此外,執行閾值處理,削減不相關的結果(f);最后,將語言模型和知識圖譜的結果合并(g)并回傳給用戶,
關系模板生成
作為查詢語言模型以獲取相關知識的第一步,需要將SPARQL查詢轉換為帶有[MASK]標記的自然語言陳述句,在這項作業中采用自動生成的句子思想,并在預處理步驟中針對知識圖譜的每個關系自動提取候選句子并對其進行評分,以生成相關句子模板,這樣的模板可以具有以下格式:“[S]出生于[O]”,用于出生地關系,而[S]被查詢的主題物體替換,或[O]被物件替換,生成句子模板不是在查詢時執行,而是一個預處理步驟,
附加背景關系段落,通過向查詢陳述句提供額外的背景關系資訊,可以進一步提高語言模型的預測質量,對于查詢中的每個物體,文章已經從相應的Wikipedia摘要中提取了前五個句子,并使用BERT的[SEP]令牌將其添加到了生成模板中,與現有作業相比,文章將自動模板生成和背景關系段落檢索結合在一起,從而提高了結果質量,
查詢語言模型并組合結果
現在使用多個句子模板以及相應的背景關系段落,以從語言模型中獲得對應查詢的可能答案,由于可能的答案物體標簽可能包含多個單詞,因此文章使用單個[MASK]標記構成查詢以回傳可能的單個單詞物體,還要使用多個[MASK]標記進行查詢,文中將結果串列中所有可能的單詞組合連接起來,并檢查是否已創建知識圖譜中的有效物體標簽,這一步能夠過濾掉大部分無法映射到任何物體的預測單詞,
匯總來自多個模板的結果,單個查詢的不同句子模板導致每個結果物體具有不同概率值的獨立結果串列,文中首先簡單地合并串列,如果一個物體出現在多個串列中,則選擇最大概率,此外,還比較在多個串列中出現的每個物體的最大概率和最小概率,如果它們的差值超過設定的閾值,則該物體不會進入最終結果串列,
語意型別過濾
大多數知識圖譜為物體提供了非常詳細的型別層次結構,文章將其用于進一步過濾語言模型結果,在語意型別過濾步驟之后,仍然可以得到具有相同物體標簽的多個可能的答案物體,對于此類罕見情況,文中執行了額外的物體消歧步驟,使用流行度過濾器排除了極為罕見的物體,具體為,當物體在整個知識圖中從不出現為物件物體時,將其排除;如果存在多個同音異義詞,則回傳最流行的物體作為答案,
閾值設定與結果回傳
作為回傳結果串列之前的最后一步,文中執行閾值確定程序以確保僅將高質量結果回傳給用戶,文中執行了兩種不同的閾值機制,通過預測值之間的統計例外值分析為每個查詢動態選擇第一閾值,如果語言模型未回傳正確答案,則動態閾值方法將不起作用,因此還選擇了一個對所有查詢均有效的附加靜態閾值,該閾值是通過對不完整知識圖中已經存在的已知結果的概率求平均,也可以對語言模型結果串列中的已知結果概率求平均值,最后,文中將不完整知識圖譜的結果串列與基于語言模型的管道的結果串列結合在一起,并消除重復項,
實驗
資料集基于2020年2月6日的Wikidata Truthy dump,實驗僅對三元組進行評估,其中主語和賓語是具有rdf : label關系的物體,實驗通過查詢語言模型并洗掉不完整的KG中已經存在的答案三元組來分別評估每個查詢,對于其余的其他結果計算精度和召回率值,報告的結果是回傳其他結果的所有查詢的平均精度和召回值,
表1概述了KnowlyBERT和兩個基線系統的精度和召回率,最后一行中描述了的總精度和召回率值,KnowlyBERT的平均精度達到47.5%,比其他兩種方法的精度高出30%以上,與關系提取基準(RE)相比,該方法極大地提高了精度,但是與RE基準的17.6%相比,方法的召回率略低,為10.1%,在表2中給出了各種關系比較的實驗結果,
總結
這項作業中提出了一種混合的語言知識模型查詢系統,該系統使用語言模型來應對現實世界中知識圖譜的不完整性問題,該作業不會像以前的作業那樣污染知識圖譜的質量,并且在必要時仍可以幫助提供完整的結果,在現實知識圖譜上的查詢實驗表明,語言模型是減少不完整知識圖譜和完整結果集之間差距的一種很有前途的方法,
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜資料的開放與互聯,促進知識圖譜和語意技術的普及和廣泛應用,
點擊閱讀原文,進入 OpenKG 網站,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/223251.html
標籤:其他
上一篇:openvn 安裝和配置
