【編者按】2020 年12 月31 日,谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布訊息,宣布實作了新的
SOTA(state of the art 即實作該領域已知的最好效果)
作者 | 八寶粥
出品 | CSDN(id:CSDNnews)
“哦我親愛的老伙計,感謝我們的王,,,同學,他及時的提交讓我們 Google Brain 起碼在 2020 年還能在 SuperGLUE 榜首霸占 12 個小時.”
你肯定會說, 鮑曼教授,你可真是謙虛,如果配合前一天他發的狀態,我覺得這位教授有點“心機”,
我們來看看前一天天他發了什么:

12 月 30 日,他向大家介紹了來自微軟的 DeBERTa 團隊取得了明顯進展,并在評論當中對 T5 模型進行簡單的評價,如果沒猜錯的話,當時內心的想法可能是,“我今天把你夸一夸,明天坐等我們家霸榜”,(也許他也不知道第二天微軟團隊也會上榜)
果然,31 日,來自 Zirui Wang 同學的 T5 和 Meena 結合的模型占領榜首,總得分 90.0 分,以 0.1 分的優勢超越了 DeBERTa 團隊的組合模型,看起來很小,可是微軟比 SuperGLUE 人類基線也之只多了 0.1 分,

SuperGLUE 是什么?
說了這么多, SuperGLUE 到底是什么呢?當然,肯定不會是強力膠,
SuperGLUE 是 Facebook 人工智能研究中心、Google DeepMind、華盛頓大學以及紐約大學在 2019 年 8 月共同推出的用于衡量現在高性能語意理解 AI 的基準測驗,它的前身是 18 年 4 月紐約大學、華盛頓大學和 Google DeepMInd 共同組建的基準測驗 GLUE (General Language
Understanding Evaluation 自然語言理解評估) benchmark,兩個網站頁面基本相似,只是后者多了 Facebook 人工智能研究中心和三星研究院,不過評價指標就不相同,GLUE 基準測驗包含了9個陳述句理解任務,分別是單句任務(CoLA,語言可接受語料庫;SST-2 斯坦福情緒樹庫)、相似性和外派任務(MRPC,微軟研究釋義語料庫;QQP, Quora問答;STS-B, 語意文本相似性基準)以及推理任務(MNLI,多體自然語言推理語料庫;QNLI,斯坦福問答資料集;RTE,識別文字蘊含; WNLI,威諾格拉德自然語言推理) 而且,在榜單當中, GLUE 還提供了一個人類性能基準 (GLUE Human baselines) 一度成為各大模型的頭號目標,而現在,human baselines 已經被超越了,目前排名 14 ,該榜單名氣之大,我國包括高校和名企都來挑戰,不斷重繪紀錄,包括阿里、平安、華為等等不斷前來挑戰,就為一個榜首之位,

后來,GLUE 難度不夠了,又冒出來一個 SuperGLUE, 增加了 Facebook 人工智能和三星研究院的支持,但是基準測驗的難度大大提高了,
![[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-424Yvlqa-1609844515329)(image/20210105_141501_77.png)]](https://img.uj5u.com/2021/01/06/212525061005355.png)
兩個基準測驗在網頁上并無太大差別,改變的就是測驗任務,如果 GLUE 的難度是語言理解的“十八銅人陣”,打敗 GLUE baselines 就印上青龍白虎,那 SuperGLUE 就得是“八大派圍攻光明頂”,沒有三五年年內功別想活著下山,SuperGLUE human baseline 89.8 分在那邊守著,Google 自己家 T5 都還有差距,這個英雄榜,真的不是誰都能上的,這些可能不太直觀,舉個例子就好了, GPT-3 流弊吧,71.8分,BERT 厲害吧,69分,問世間,是否此山最高?人們一度懷疑,難道 SuperGLUE Human Baselines 就是個神之存在嗎?
誰占了榜首?
此前一直是 SuperGLUE Human baselines 占據榜首,就在 2020 年12 月30 日,Google 團隊的 T5+Meeena 模型和微軟 DeBERTa 團隊同時上榜,分別摘得第一第二名,得分90.0,89.9,從此,SuperGLUE Human baselines 不再是不可逾越的高峰,
仔細看圖就會發現,不怪大家打不過,人家SuperGLUE Human baselines 就是個爸爸,不對,是個 Bug 呀,COPA(選擇合理的替代方案)滿分,WSC(威諾格拉德模式挑戰)滿分,CB(一個短文本語料庫,包含從句)98.9分,,,,真的很難打,不過,一切都很難說,2019年,埃魯德·基普喬格不也是跑進了 2 小時,突破了人類馬拉松的極限了嘛~
有興趣的同學可以查看官方網站進行探索,也許下一個得此成就的就是你!
【參考資料】
微軟 DeBERTa 模型論文 https://arxiv.org/abs/2006.03654
supergluebenchmark 官網:https://super.gluebenchmark.com/
SuperGLUE 論文鏈接 https://arxiv.org/abs/1905.00537
gluebenchmark 官網 https://gluebenchmark.com/
GLUE 論文鏈接:https://arxiv.org/abs/1804.07461
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/245171.html
標籤:其他
上一篇:2020-記錄不平凡的一年
下一篇:程式員不要總想著四兩撥千斤

