主頁 >  其他 > 大模型核心技術原理: Transformer架構詳解

大模型核心技術原理: Transformer架構詳解

2023-06-06 09:25:40 其他

在大模型發展歷程中,有兩個比較重要點:第一,Transformer 架構,它是模型的底座,但 Transformer 不等于大模型,但大模型的架構可以基于 Transformer;第二,GPT,嚴格意義上講,GPT 可能不算是一個模型,更像是一種預訓練范式,它本身模型架構是基于 Transformer,但 GPT 引入了“預測下一個詞”的任務,即不斷通過前文內容預測下一個詞,之后,在大量的資料上進行學習才達到大模型的效果,

之所以說 Transformer 架構好,是因為 Transformer 能夠解決之前自然語言處理中最常用的 RNN 的一些核心缺陷,具體來看:一是,難以并行化,反向傳播程序中需要計算整個序列;二是,長時依賴關系建模能力不夠強;三是,模型規模難以擴大,

那么,Transformer 具體是如何作業的?

首先,是對輸入進行識別符號化,基于單詞形式,或字母,或字符子串,將輸入文本切分成幾個 token,對應到字典中的 ID 上,并對每個 ID 分配一個可學習的權重作為向量表示,之后就可以針對做訓練,這是一個可學習的權重,

在輸入 Transformer 結構之后,其核心的有自注意力模塊和前向傳播層,而在自注意力模塊中,Transformer 自注意力機制建模能力優于 RNN 序列建模能力,因此,有了 Transformer 架構后,基本上就解決了運行效率和訓練很大模型的問題,

基于 Transformer 架構的主流語言大模型主要有幾種:
file

一是,自編碼模型,如 BERT,簡單講就是給到一句話,然后把這句話的內容挖空,當問及挖空的內容時,就把內容填回去,這其實是典型地用來做一個自然語言理解的任務,但做生成任務是非常弱的;

二是,自回歸模型,如 GPT,它是通過不斷地預測下一個詞,特點是只能從左到右生成,而看不到后面的內容,GPT-1 最后接了一個 Linear 層做分類或選題題等任務,到了 GPT-2 ,已經將一些選擇任務或者分類任務全部都變成文本任務,統一了生成的范式;

三是,編碼器-解碼器模型,如 T5,它的輸入和輸出是分為比較明顯的兩塊內容,或者是問答式,或者序列到序列的轉換型的任務;

四是,通用語言模型,如 GLM,該模型結合了自回歸和自編碼兩種形式的模型,舉個例子,“123456”是一串輸入的序列,現在把 “3”、“5”、“6” 挖空,讓模型去學習,那么,挖空以后換成一個 “ mask token” 告訴模型這個地方遮掉了一些內容,現在需要去預測出來遮掉的內容,

與 BERT 不同的是,GLM 把自回歸和自編碼方式進行結合后,挖出來的內容直接拼到了文本的后面,然后加上一個 “ start token”,告訴模型現在是開始生成了,開始做填空任務了,然后把標準答案 “5”、“6” 放在 “ star token”后面讓它去預測,直到預測到 “end token”,它就知道這個填空已經結束了,這個程序稱為自回歸填空式的任務,整個計算流程還是自回歸式,但它不斷預測下一個詞,既實作了填空的功能,又能看到背景關系內容,此外,相比于 GPT 模型,GLM 采用了一個雙向注意力的機制,

國產AI輔助編程工具CodeGeeX,
CodeGeeX也是一個使用AI大模型為基座的輔助編程工具,幫助開發人員更快的撰寫代碼,可以自動完成整個函式的撰寫,只需要根據注釋或Tab按鍵即可,它已經在Java、JavaScript和Python等二十多種語言上進行了訓練,并基于大量公開的開源代碼、官方檔案和公共論壇上的代碼來優化自己的演算法,CodeGeeX作為一款中國原創的AI輔助編程工具,現在免費提供給所有開發者使用,同時完全開源,程式員使用普遍認為撰寫代碼的效率提升2倍以上,

最近功能上新非常快,比如剛剛更新的“Ask CodeGeeX”功能,是將智能問答模式,融合到實際開發場景中,讓開發者更專注和沉浸于編程,不用離開當前 IDE 的編程環境,就可以邊寫代碼邊和 AI 對話,實作針對編程問題的智能問答,無需waitlist,立刻就能嘗鮮這個新功能!

那么就先給大家快速看看,在CodeGeeX上的體驗是怎樣的:
file

file

在大模型時代,編程推薦各位下載使用AI輔助編程工具CodeGeeX

本文由博客一文多發平臺 OpenWrite 發布!

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/554375.html

標籤:其他

上一篇:云原生周刊:開發人員使用 GPT-4 的 30 種重要方法 | 2023-6-5

下一篇:返回列表

標籤雲
其他(160400) Python(38206) JavaScript(25475) Java(18198) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7234) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5346) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4582) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1981) 功能(1967) HtmlCss(1952) Web開發(1951) C++(1929) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1879) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 大模型核心技術原理: Transformer架構詳解

    在大模型發展歷程中,有兩個比較重要點:第一,Transformer 架構。它是模型的底座,但 Transformer 不等于大模型,但大模型的架構可以基于 Transformer;第二,GPT。嚴格意義上講,GPT 可能不算是一個模型,更像是一種預訓練范式,它本身模型架構是基于 Transforme ......

    uj5u.com 2023-06-06 09:25:40 more
  • 云原生周刊:開發人員使用 GPT-4 的 30 種重要方法 | 2023-6-5

    OpenAI 最新的大型語言模型 GPT-4 有非常多的用途,那么,作為開發人員,應該如何去使用它,來幫助自己作業呢? 在最近的 [Hacker News 問答](https://news.ycombinator.com/item?id=36037559)中,很多開發人員參與了討論和分享。 也有人進 ......

    uj5u.com 2023-06-06 09:25:22 more
  • 解鎖邊緣無限可能,天翼云助力教育數字化轉型!

    5月16日-17日,由教育部教育管理資訊中心主辦、中國電信協辦的2023年教育系統網路安全作業探討會及網路安全展在貴陽召開。會議以“強化網路安全公共支撐能力,護航國家教育數字化戰略行動”為主題,來自各省級教育行政部門、部屬高校、部直屬單位的網路安全和資訊化相關嘉賓共同出席了會議。 天翼云要客行業中心 ......

    uj5u.com 2023-06-06 09:25:13 more
  • Ambient Mesh:Istio 資料面新模式

    摘要:基于Istio對于Kubernetes生態的完美補充,隨著Kubernetes的大規模普及,Istio 資料面新模式 —Ambient MeshIstio也實作了對用戶心智以及市場的快速搶占。 本文分享自華為云社區《Istio 資料面新模式 —Ambient Mesh》,作者:創原會。 如果說 ......

    uj5u.com 2023-06-06 09:24:57 more
  • 常用心理測驗精選題庫ACCESS資料庫

    心理測驗類的資料庫結構有很多種,比如已經發過的《心理測驗性格測驗大全ACCESS資料庫》、《心理測驗性格測驗簡裝版ACCESS資料庫》就是兩種不同的結構。而今天發的《常用心理測驗精選題庫ACCESS資料庫》卻又是另一種結構: 1.測驗主表(即測驗專案) (類別ID關聯類別表,有愛情測驗、性格測驗、能 ......

    uj5u.com 2023-06-06 09:24:13 more
  • 階 原根 離散對數

    # 階 原根 離散對數 ## 階 ### 定義 $a\mod p$ 的階是 $a^e\equiv1\pmod p$ 的最小指數 $e$ 符號語言: $\delta_p(a)$ 代表 $a$ 在 $\mod p$ 的意義下的最小指數 $e$ 使$a^e\equiv1\pmod p$ ![](https ......

    uj5u.com 2023-06-06 09:23:57 more
  • CF338D GCD Table 題解

    # CF338D GCD Table 題解 ## 題目描述 你有一個長度為 $k$ 的數列 $a$ , 詢問是否存在 $x\in[1,n]~~~y\in[1,m]$ 使得 $\forall i~~~ \gcd(x,y+i-1)=a_i$。 ## 決議 我們轉換一下可以得到: $$ \forall i ......

    uj5u.com 2023-06-06 09:23:51 more
  • 700多心理測驗性格測驗大全ACCESS資料庫

    這是一個關于心理測驗、性格測驗的ACCESS資料庫,這個測驗有一個測驗專案一個問題選擇后就有結果,也有一個測驗專案有N多題需做完N多題根據各題得分得出總結果,所以ACCESS資料表的結構設計的很靈活。 測驗專案表:為整個ACCESS資料庫的主表,里面記錄著測驗專案的標題和最后得分的解釋結果。 測驗子 ......

    uj5u.com 2023-06-06 09:23:42 more
  • windows筆記本極致省電指南

    用到了三個軟體:parkcontrol,process lasso,quickCPU * parkcontrol -調整CPU的運行核心和頻率,可以設定離電的時候關閉一些CPU核心數,以達到省電的目的 插電的時候是全核心運行,離電的時候只有一個核心兩個執行緒在運行。 ![](https://img20 ......

    uj5u.com 2023-06-06 09:22:58 more
  • DASCTF二進制專項部分Writeup

    easynote create:堆大小可以任意分配只要不超過0xFFF create() unsigned __int64 create() { int i; // [rsp+0h] [rbp-20h] unsigned int size; // [rsp+4h] [rbp-1Ch] void *s ......

    uj5u.com 2023-06-06 09:22:41 more