【代碼注釋自動生成方法綜述】
這些評測指標主要來自機器翻譯和文本總結等研究領域,可以評估候選文本(即基于代碼注釋自動方法而生成)和參考文本(即基于手工方式而生成)的相似度.
BLEU指標[?[88](javascript:void(0);)^?]^:其全稱是bilingual evaluation understudy.該指標是最早用于評估機器翻譯的評測指標.用于比較候選文本和參考文本里n元詞組(n-gram)的重合程度.其中,BLEU-1/2/3/4分別對應一元詞組、二元詞組、三元詞組和四元詞組的重合程度.其中,BLEU-1可以用于衡量單詞翻譯的準確性,而隨著n的取值增大,BLEU指標則可以進一步衡量文本的流暢性.不難看出,BLEU指標的取值越高,即n元詞組的重合程度越高,則認為候選文本的質量也越高.
但BLEU指標更偏重查準率,而忽略了查全率(即參考文本中未在候選文本中出現的n元詞組).雖然可以通過引入長度懲罰因子(brevity penalty)來懲罰候選文本過短的問題,但從整體上來看,BLEU評測指標更偏向于較短的候選文本.
(2) METEOR指標[?[89](javascript:void(0);)^?]^:其全稱是metric for evaluation of translation with explicit ordering.其使用Word Net等知識源來擴充同義詞集,同時考慮了單詞的詞形.在評價句子流暢度時,使用了chunk(即候選文本和參考文本能夠對齊的,并且空間排列上連續的單詞形成一個chunk)的概念,chunk的數目越少,意味著每個chunk的平均長度越長,即候選文本和參考文本的語序越一致.
(3) ROUGE指標[?[90](javascript:void(0);)^?]^:其全稱是recall-oriented understudy for gisting evaluation.與BLEU指標相似,但BLEU指標面向的是查準率,而ROGUE指標面向的是查全率.該指標在文本摘要研究中被經常使用,又可以細分為ROUGE-N和ROUGE-L.其中,ROUGE-N指標以n元詞組為基本單元,計算兩個句子之間n元詞組的重合率.而ROUGE-L指標與ROUGE-N指標相似,但是針對的是最長公共子序列(longest common subsequence)的重合率.
(4) CIDER指標[?[91](javascript:void(0);)^?]^:其全稱是consensus-based image description evaluation.一般用于影像字幕生成問題.該評測指標可以認為是BLEU指標和向量空間模型的集合.其將每個句子視為檔案,然后計算出n元詞組的tf-idf值,通過余弦夾角計算出候選文本和參考文本之間的相似度.最后,基于不同長度的n元詞組計算出平均取值,并作為最終結果.
不難看出,BLEU、METOR和ROUGE指標的取值范圍介于0~1之間,并經常以百分比的形式給出.而CIDER指標對的取值范圍并不在0~1之間,因此經常以實數的形式給出.
?
GAS消耗
和Solidity對比
邀請人測驗
轉載請註明出處,本文鏈接:https://www.uj5u.com/qukuanlian/544729.html
標籤:區塊鏈
上一篇:基于NOSTR協議的“公有制”版本的Twitter,去中心化社交軟體Damus用后感,一個極端走向另一個極端
下一篇:solidity注解標簽