主頁 >  其他 > AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語言模型(LLMs)的簡介、發展以及未來趨勢

AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語言模型(LLMs)的簡介、發展以及未來趨勢

2022-02-11 08:04:02 其他

AI:大力出奇跡?Bigger is better?AI下一代浪潮?—人工智能的大語言模型(LLMs)的簡介、發展以及未來趨勢

目錄

人工智能的大語言模型(LLMs)—AI下一代浪潮?Bigger is better?大力出奇跡?

單體模型VS混合模型

大模型的意義

大模型的局限性

大模型的四個障礙

未來的AI藍圖要擁抱綠色低碳

2017年以來,大規模語言模型發展史

未來趨勢


人工智能的大語言模型(LLMs)—AI下一代浪潮?Bigger is better?大力出奇跡?

大型語言模型(LLMs)是在包含巨大資料量的大規模資料集上訓練的,中國工程院院士王恩東表示:“人工智能如何發展出像人類具備邏輯、意識和推理的認知能力,是人工智能研究一直探索的方向,目前來看,通過大規模資料訓練超大引數量的巨量模型,被認為是非常有希望實作通用人工智能的一個重要方向,”隨著巨量模型的興起,巨量化已成為未來人工智能發展非常重要的一個趨勢,而巨量化的一個核心特征就是模型引數多訓練資料量大
2018 年谷歌發布BERT,從此,預訓練模型(Pre-trained Models, PTMs)逐漸成為自然語言處理領域的主流,當然,預訓練模型如今已經成為深度學習研究中的一種主流范式
2020年,GPT-3 橫空出世,這個具有 1750 億引數規模的預訓練模型所表現出來的零樣本與小樣本學習能力重繪了人們的認知,作為一個語言生成模型,GPT-3 不僅能夠生成流暢自然的文本,還能完成問答、翻譯、創作小說等一系列 NLP 任務,甚至進行簡單的算術運算,并且其性能在很多任務上都超越相關領域的專有模型,達到 SOTA 水平,從此,OpenAI開始引爆了 2021 年 AI 大模型研究的熱潮,大模型成為幾乎所有全球頭部AI公司的追逐目標,

在大模型的賽道上,算力公司、演算法公司、資料公司,研究機構正在展開新一輪競賽
2021年,人工智能正式邁向“煉大模型”階段,開展了超大規模預訓練模型的“軍備競賽”,這一年,也被很多業界同行稱為超大規模預訓練模型的“爆發之年”,自去年 OpenAI 發布英文領域超大規模預訓練語言模型 GPT-3 后,中文領域同類模型的訓練行程備受關注,
國內外AI頭部公司,包括谷歌、微軟、英偉達、智源人工智能研究院、阿里、百度、華為、騰訊、浪潮等國內外科技巨頭和機構紛紛展開大模型研究和探索,近年來人工智能的發展,已經從“大煉模型”逐步邁向了“煉大模型”的階段,通過設計先進的演算法,整合盡可能多的資料,匯聚大量算力,集約化地訓練大模型,供大量企業使用,這是必然趨勢
2021年1月,Google 推出的 Switch Transformer 模型以高達 1.6 萬億的引數量打破了 GPT-3 作為最大 AI 模型的統治地位,成為史上首個萬億級語言模型,
2021年6月,北京智源人工智能研究院發布了超大規模智能模型“悟道 2.0”,達到1.75 萬億引數,超過 Switch Transformer 成為全球最大的預訓練模型,
隨著處理能力和資料源的增長,深度學習中曾經的趨勢已經成為一個原則:越大越好,近年來,語言模型的規模越來越大,只有像Google、Microsoft、NVIDIA等大公司才可以玩轉千億/萬億級的大模型,而且事實證明以大模型為基礎探索通用智能的道路也遠遠沒有到盡頭,國內產業和學術界在對大模型的探索上也亦步亦趨,大規模的AI設備集群和通用性的軟硬體生態協同越來越成為資訊時代急需的基礎設施,未來制約人工智能發展的不僅僅是對人才的競爭,大科學裝置和對多場景應用的通用全堆疊式技術生態的不斷發展進化,也越來越重要,

單體模型VS混合模型

現在業界提高模型引數量有兩種技術路線,產生兩種不同的模型結構,一種是單體模型,一種是混合模型,如華為的盤古大模型、百度的文心大模型、英偉達聯合微軟發布的自然語言生成模型 MT-NLG 、浪潮的源大模型等走的都是單體模型路線;而智源的悟道模型、阿里 M6 等走的是混合模型路線,

大模型的意義

  • 大模型被大多數專家認為是走向AGI的重要途徑之一,超大規模預訓練模型是從弱人工智能向通用人工智能的突破性探索,解決了傳統深度學習的應用碎片化難題,引發科研機構和企業重點投入,
  • 大模型可以吸收海量知識,從里面提高模型的泛化能力,可以減少對領域資料標注的依賴,
  • 超大規模預訓練模型在海量通用資料上進行預先學習和訓練,能有效緩解AI領域通用資料的激增與專用資料匱乏的矛盾,具備通用智能的雛形,
  • 預訓練大模型普適性強,可滿足垂直行業的共性需求,預訓練大模型遷移性好,可滿足典型產品的技術要求,GPT-3凸顯了一種小樣本學習以及泛化能力,而且兩個層面的能力都非常優秀,
  • 大模型承上啟下,深刻影響底層技術和上層應用的發展;向下驅動資料技術和計算架構能力的提升,支撐模型訓練、部署和優化,向上支撐上層應用的服務轉型,
  • 模型的引數規模越大,優勢越明顯
  • AIGC(AI生成內容)就是大模型落地的一個重要方向(內容消費/創意設計),

大模型的局限性

  • 資本門檻:大模型的訓練,以GPT-3為例,訓練一次的成本是1200萬美金;
  • 技術門檻:AI框架的深度優化和并行能力要求很高,
  • 跨領域門檻:大模型多方向問題亟待解決,生態建設不容小覷,未來預訓練大模型將重點解決應用、可信、跨學科合作、資源不平衡和開放共享等問題,

大模型的四個障礙

Andrew NG 認為,構建越來越大的模型的努力帶來了自己的挑戰,龐大模型的開發人員必須克服四個巨大的障礙,

  • 資料:大型模型需要大量資料,但網路和數字圖書館等大型來源可能缺乏高質量資料,例如,研究人員發現 BookCorpus 是一個包含 11,000 本電子書的集合,已被用于訓練 30 多個大型語言模型,可能會傳播對某些宗教的偏見,因為它缺乏討論基督教和伊斯蘭教以外信仰的文本, AI 社區越來越意識到資料質量至關重要,但尚未就編譯大規模、高質量資料集的有效方法達成共識,
  • 速度:今天的硬體難以處理龐大的模型,當位反復進出記憶體時,這些模型可能會陷入困境,為了減少延遲,Switch Transformer 背后的 Google 團隊開發了一種方法,可以為每個令牌處理模型層的選定子集,他們最好的模型的預測速度比引數數量只有其 1/30 的模型快 66%,同時,微軟開發了 DeepSpeed 庫,它并行處理資料、單個層和層組,并通過在 CPU 和 GPU 之間劃分任務來減少冗余處理,
  • 能源:訓練如此龐大的網路會消耗大量的電能, 2019 年的一項研究發現,使用化石燃料,在 8 個 Nvidia P100 GPU 上訓練一個 2 億引數的變壓器模型,在五年的駕駛程序中排放的二訊訓碳幾乎與一輛普通汽車一樣多,新一代有望加速人工智能的芯片,如 Cerebras 的 WSE-2 和谷歌最新的 TPU,可能有助于減少排放,同時風能、太陽能和其他清潔能源增加以滿足需求,
  • 交付:這些龐大的模型太大而無法在消費者或邊緣設備上運行,因此大規模部署它們需要互聯網訪問(較慢)或精簡實施(能力較弱),

未來的AI藍圖要擁抱綠色低碳

不可否認,資料集和模型規模的增長,帶來了多種語言任務上準確率的顯著提升,并通過NLP 基準任務上的全面改進證明了這一點,

眾所周知,全球變暖是人類的行為造成地球氣候變化的后果,2020年9月,中國提出努力爭取在2060年前實作碳中和,為了能夠早日實作我國關于“碳中和”以及“碳達峰”的戰略目標,在今后的40年當中,中國在產業、消費、能源以及區域結構等方面都會做出重大整頓,

隨著“碳中和”逐步被提高到國家戰略的高度之上,人工智能行業,包括機器學習模型當然也要倡導追求碳中和,不應該把模型性能當作唯一標準,未來的AI藍圖要擁抱綠色低碳,助力實作碳達峰碳中和目標,

針對該問題,來自谷歌和美國加州大學伯克利分校的研究人員最近聯合發表一項研究論文,著重評估并比較了 5 個大型自然語言處理(NLP)模型的能耗和碳排放量,其中包括 T5、Meena、GShard、Switch Transformer 和 GPT-3,該論文提出,如果推出同時考量模型準確性和碳排放的標準,我們就可以想象一個良性回圈,通過加速演算法、系統、硬體、資料中心以及碳中和在效率和成本方面的創新,即可級訓機器學習任務碳足跡的日益增長,

相關文章
《Carbon Emissions and Large Neural Network Training》 http://arxiv.org/abs/2104.10350v2

2017年以來,大規模語言模型發展史

發布時間

大模型

引數量

訓練資料

多模態

功能

機構

2017年GPT-11.1億文本OpenAI

2018年

10月

Bert3.4億文本Google

2019年

08月

GPT-215億文本OpenAI

2019年

08月

MegatronLM83億文本NVIDIA
2020年01月Turing-NLG170 億文本Microsoft
2020年05月GPT-31750 億45TB文本NLU,文本生成OpenAI
2020年06月GShard6190 億比擁有 1750 億引數的 GPT-3 消耗的能源少約 53 倍,凈碳排放量少約 127 倍,這主要得益于 GShard 在演算法+硬體上的多重優化,Google
2021 年 01月Switch Transformer1.6萬億Google
2021年03月

CPM-1

(悟道2.0,文源)

26億文本NLU,文本生成智源研究院

2021年04月

PLUG

270億

>1.1TB high-quality

文本

NLU,文本生成

阿里

2021年04月

盤古-α

2000億

1.1TB high-quality
80TB raw

文本

NLU,文本生成

華為&回圈智能

2021年04月

孟子(BERT, T5,Oscar)

10億

300GB

文本,影像

NLU,文本生成
影像生成文本

瀾舟科技

2021年06月

M6

1000億

1.9TB images
292GB texts

文本,影像

NLU,文本生成
影像生成文本文本生成影像

阿里

2021年06月

CPM-2

(悟道2.0)

CPM-MoE

總共1.75萬億

其中110億中文模型

110億中英模型

1980億中英MoE模型

2.3TB Chinese
300GB English

文本

NLU,文本生成

智源研究院

2021年06月

CogView(悟道-文匯)

40億

30 million high-quality (Chinese) text-image pairs

文本,影像

文本生成影像
影像生成文本

智源研究院

2021年07月

ERNIE3.0

100億

4TB text and KG

文本

NLU,文本生成

百度

2021年09月

源1.0

2457億

5TB high-quality

文本

NLU,文本生成

浪潮

2021年10月Megatron Turing-NLG
威震天-圖靈
5300億

文本

NLU

Microsoft+NVIDIA

2021年10月

神農

10億

數百GB

文本

NLU,文本生成

騰訊

2021年12月

Gopher

2800億

10.5TB 的MassiveText語料庫

文本

Gopher在 124 項評估任務中的 100 項中優于當前最先進的技術,DeepMind
2021年12月GLaM1.2 萬億Google

:該表將持續更新

未來趨勢

清華大學教授、智源大模型技術委員會成員劉知遠說: “大規模預訓練模型是人工智能的最新技術高地,是對海量資料、高性能計算和學習理論原始創新的全方位考驗”,
大小模型協同進化,大模型引數競賽,在未來某個時刻,會進入冷靜期,大小模型將在云邊端協同進化,達摩院認為,因性能與能耗提升不成比例,受效率問題的限制,大模型引數競賽將進入冷靜期,大小模型云邊端協同進化會是未來趨勢, 大模型向邊、端的小模型輸出模型能力,小模型負責實際的推理與執行,同時小模型再向大模型反饋演算法與執行成效,讓大模型的能力持續強化,形成有機回圈的智能體系,

相關文章
NLP之PLUG:阿里達摩院發布最大中文預訓練語言模型PLUG的簡介、架構組成、模型訓練、使用方法之詳細攻略_一個處女座的程式猿-CSDN博客


Top AI Stories of 2021: Transformers Take Over, Models Balloon, Multimodal AI Takes Off, Governments Crack Down - The Batch | DeepLearning.AI
AI中文大模型匯總 - 知乎

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/423692.html

標籤:AI

上一篇:ML:MLOps系列講解之系列知識解讀全貌

下一篇:如何將pytorch模型部署到安卓

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more