谷歌大腦組合模型霸榜 SuperGLUE，什么模型這么高？-有解無憂

【編者按】2020 年12 月31 日，谷歌大腦的研究科學家 Adams Wei Yu 在社交媒體發布訊息，宣布實作了新的
SOTA（state of the art 即實作該領域已知的最好效果）

作者 | 八寶粥
出品 | CSDN(id:CSDNnews)

“哦我親愛的老伙計，感謝我們的王，，，同學，他及時的提交讓我們 Google Brain 起碼在 2020 年還能在 SuperGLUE 榜首霸占 12 個小時.”

你肯定會說，鮑曼教授，你可真是謙虛，如果配合前一天他發的狀態，我覺得這位教授有點“心機”，

我們來看看前一天天他發了什么：
在這里插入圖片描述
12 月 30 日，他向大家介紹了來自微軟的 DeBERTa 團隊取得了明顯進展，并在評論當中對 T5 模型進行簡單的評價，如果沒猜錯的話，當時內心的想法可能是，“我今天把你夸一夸，明天坐等我們家霸榜”，（也許他也不知道第二天微軟團隊也會上榜）

果然，31 日，來自 Zirui Wang 同學的 T5 和 Meena 結合的模型占領榜首，總得分 90.0 分，以 0.1 分的優勢超越了 DeBERTa 團隊的組合模型，看起來很小，可是微軟比 SuperGLUE 人類基線也之只多了 0.1 分，

在這里插入圖片描述

SuperGLUE 是什么？

說了這么多， SuperGLUE 到底是什么呢？當然，肯定不會是強力膠，

SuperGLUE 是 Facebook 人工智能研究中心、Google DeepMind、華盛頓大學以及紐約大學在 2019 年 8 月共同推出的用于衡量現在高性能語意理解 AI 的基準測驗，它的前身是 18 年 4 月紐約大學、華盛頓大學和 Google DeepMInd 共同組建的基準測驗 GLUE (General Language
Understanding Evaluation 自然語言理解評估) benchmark，兩個網站頁面基本相似，只是后者多了 Facebook 人工智能研究中心和三星研究院，不過評價指標就不相同，GLUE 基準測驗包含了9個陳述句理解任務，分別是單句任務（CoLA，語言可接受語料庫；SST-2 斯坦福情緒樹庫）、相似性和外派任務（MRPC，微軟研究釋義語料庫；QQP， Quora問答；STS-B, 語意文本相似性基準）以及推理任務（MNLI,多體自然語言推理語料庫;QNLI,斯坦福問答資料集;RTE,識別文字蘊含; WNLI,威諾格拉德自然語言推理）而且,在榜單當中, GLUE 還提供了一個人類性能基準 (GLUE Human baselines) 一度成為各大模型的頭號目標，而現在，human baselines 已經被超越了，目前排名 14 ，該榜單名氣之大，我國包括高校和名企都來挑戰，不斷重繪紀錄，包括阿里、平安、華為等等不斷前來挑戰，就為一個榜首之位，

在這里插入圖片描述

后來，GLUE 難度不夠了，又冒出來一個 SuperGLUE, 增加了 Facebook 人工智能和三星研究院的支持，但是基準測驗的難度大大提高了，

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-424Yvlqa-1609844515329)(image/20210105_141501_77.png)]

兩個 GLUE 的網頁對比，
兩個基準測驗在網頁上并無太大差別，改變的就是測驗任務，如果 GLUE 的難度是語言理解的“十八銅人陣”，打敗 GLUE baselines 就印上青龍白虎，那 SuperGLUE 就得是“八大派圍攻光明頂”，沒有三五年年內功別想活著下山，SuperGLUE human baseline 89.8 分在那邊守著，Google 自己家 T5 都還有差距，這個英雄榜，真的不是誰都能上的，這些可能不太直觀，舉個例子就好了， GPT-3 流弊吧，71.8分，BERT 厲害吧，69分，問世間，是否此山最高？人們一度懷疑，難道 SuperGLUE Human Baselines 就是個神之存在嗎？

誰占了榜首？

此前一直是 SuperGLUE Human baselines 占據榜首，就在 2020 年12 月30 日，Google 團隊的 T5+Meeena 模型和微軟 DeBERTa 團隊同時上榜，分別摘得第一第二名，得分90.0，89.9，從此，SuperGLUE Human baselines 不再是不可逾越的高峰，

仔細看圖就會發現，不怪大家打不過，人家SuperGLUE Human baselines 就是個爸爸，不對，是個 Bug 呀，COPA(選擇合理的替代方案)滿分，WSC(威諾格拉德模式挑戰)滿分，CB（一個短文本語料庫，包含從句）98.9分，，，，真的很難打，不過，一切都很難說，2019年，埃魯德·基普喬格不也是跑進了 2 小時，突破了人類馬拉松的極限了嘛～

有興趣的同學可以查看官方網站進行探索，也許下一個得此成就的就是你！

【參考資料】

微軟 DeBERTa 模型論文 https://arxiv.org/abs/2006.03654
supergluebenchmark 官網：https://super.gluebenchmark.com/
SuperGLUE 論文鏈接 https://arxiv.org/abs/1905.00537
gluebenchmark 官網　https://gluebenchmark.com/
GLUE 論文鏈接：https://arxiv.org/abs/1804.07461

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/245171.html

標籤：其他

上一篇：2020-記錄不平凡的一年

下一篇：程式員不要總想著四兩撥千斤