主頁 >  其他 > 解密Prompt7. 偏好對齊RLHF-OpenAI·DeepMind·Anthropic對比分析

解密Prompt7. 偏好對齊RLHF-OpenAI·DeepMind·Anthropic對比分析

2023-05-23 09:02:10 其他

前三章都圍繞指令微調,這一章來嘮嘮RLHF,何為優秀的人工智能?抽象說是可以幫助人類解決問題的AI, 也可以簡化成3H原則:Helpful + Honesty + Harmless,面向以上1個或多個原則,RLHF只是其中一種對齊方案,把模型輸出和人類偏好進行對齊,大體分成3個步驟

  1. 人類偏好資料的標注
  2. 基于標注資料訓練獎勵模型
  3. 基于獎勵模型使用RL微調語言模型

以OpenAI為基礎,本章會對比DeepMind, Anthropic在以上3個步驟上的異同,并嘗試回答以下幾個問題

  1. RLHF究竟做了什么
  2. 偏好對齊用RL和SFT有什么差異
  3. 什么模型適合作為RL的起點

考慮篇幅已經超出了我自己的閱讀耐心,RL演算法和其他偏好對齊方案會再用兩章來說,只關注以上問題的同學,也可以直接劃到文末去看~

OpenAI

  • paper: InstructGPT, Training language models to follow instructions with human feedback
  • paper: Learning to summarize from human feedback
  • https://openai.com/blog/chatgpt

解密Prompt系列4介紹了InstructGPT指令微調的部分,這里只看偏好對齊的部分

樣本構建

RL的資料來源有兩塊,一部分是用戶在playground里面真實請求的資料,另一部分來自標注同學自己寫的指令樣本,標注指令樣本包括3種形式:單一指令,few-shot指令,根據用戶之前提交的使用場景撰寫的指令,量級分布如下

在標注偏好樣本上,OpenAI基于3H原則,設計了詳細的標注標準詳見論文,需要注意的一點是在訓練樣本標注時Helpful比Harmless和honest更重要,但是在評估樣本的標注上Harmless和honest更重要,這樣區別標注是OpenAI發現Helpful和Harmless存在沖突,如果模型過度擬合無害性,會導致模型拒絕回答很多問題,OpenAI認為不同場景下風險的定義是不同的,應該把拒絕回答的能力放到下游場景中, 后面Anthropic也碰到了相似的問題,我個人更偏好Anthropic的方案,

在標注程序中,模型會生成4-7個回復,標注同學需要綜合考慮有用性,無害性和真實性,對模型的每一個回復進行絕對打分后續用于評估,同時給出多個模型回復間的相對排序用于RM模型訓練,標注界面如下:

ChatGPT對話訓練部分未公開細節,從官網能獲得細節是,ChatGPT的樣本是人工寫的對話樣本+InstructGPT樣本轉換成對話格式的混合樣本,更多基于對話形式的標注可以參考后面的DeepMind和Anthropic,

獎勵模型

OpenAI使用了指令微調16個epoch的6B模型作為獎勵模型的初始模型,訓練方式是兩兩對比計算crossentropy,其中\(r_\theta\)是獎勵函式對指令x和回復y的打分,如下

不過OpenAI發現如果對資料進行Shuffle,則訓練一輪就會過擬合,但如果把針對1個指令模型的K個回復,K在4~9之間,得到的\(C_k^2\)個pairwise對,放在一個batch里進行訓練,會得到顯著更高的準確率,這里一個batch包括64個指令生成的所有回復對,其中排名相同的樣本對被剔除,

這里感覺和對比學習要用大batch_size進行擬合的思路有些相似,是為了保證對比的全面性和充分性,使用全面對比后計算的梯度對模型進行更新,另一個原因可能是不同標注人員之間的偏好差異,shuffle之后這種偏好差異帶來的樣本之間的沖突性更高,

之所以選擇6B的模型,論文指出盡管175B的RM模型有更高的準確率和更小的驗證集loss,但是訓練程序并不穩定,以及太大的RM模型會導致RL部分的訓練成本太高,

RLHF

  1. RL初始模型

OpenAI使用了SFT指令微調之后的模型作為RL的起點,RL初始模型的訓練細節在附錄C.3和E.8,基于GPT3的預訓練模型,SFT微調2個epoch并混入10%的預訓練資料進行訓練得到,這里混入預訓練是因為在RL微調的程序中發現加入預訓練資料可以防止RL微調降低模型語言能力,因此在SFT微調程序中也做了相同的處理,這里我好奇的是,指令微調和預訓練的核心差異其實只在指令輸入的部分是否計算梯度,因此是否可以直接把指令微調和預訓練混合變成一個步驟"文本+指令預訓練",我們準備沿這個方向去嘗試下~

  1. RL樣本

OpenAI是完全基于在playground里用戶真實提交的指令請求來進行訓練,沒有使用人工標注,為了完全面向用戶使用進行偏好優化,

  1. RL訓練

RL微調的部分,OpenAI使用了PPO演算法,基于Reward模型的打分進行微調,微調了2個epoch,在此基礎上加入了兩個目標:

  • 微調模型和原始模型在token預測上的KL散度:避免模型過度擬合獎勵函式偏離原始模型,后面也論證了KL的加入,可以加速RL收斂,核心是在相同的KL下最大化模型偏好的提升
  • 10%的預訓練目標(PPO-PTX): 降低RL對模型語言能力的影響

且論文提到樣本的收集和RL訓練是多次迭代的,也就是使用RL微調后的模型上線收集更多的用戶請求,重新訓練RM,再更新模型,不停在優化后的模型上收集用戶反饋,會讓RM模型學習到更充分的高偏好樣本,強者愈強,

  1. 效果

對比175B指令微調的模型,1.3B的模型經過RLHF微調,在喜愛度上就能打過175B的SFT模型!2點Insights如下

  • RLHF對齊帶來的模型有用性的提升,效率遠超訓練更大的模型
  • 使用PPO-PTX的RLHF微調沒有產生很大的Alignment-Tax

DeepMind

  • paper: Teaching language models to support answers with verified quotes
  • paper: Sparrow, Improving alignment of dialogue agents via

DeepMind的Sparrow使用了基于Google搜索的事實性資訊的引入,這部分我們放到Agent呼叫的章節一起說,這里只關注偏好對齊的部分,

樣本構建

不考慮搜索呼叫的部分,DeepMind的偏好對齊部分只關注2H,有用性和無害性,樣本標注的基礎模型是Chinchilla-70B,和OpenAI的差異在于,DeepMind把人類偏好和違反2H原則拆成了兩個標注任務

  • 人類偏好標注:基于進行中的對話,從模型多個回復中選擇最喜歡的一條,這里對話中的人機問答都是由模型生成的

  • 對抗標注/釣魚執法:基于隨機分配的標注規則,標注同學需要刻意引導模型給出違反該規則的回答,和風控紅藍對抗的思路相似

獎勵模型

基于以上兩份樣本,論文通過微調Chinchilla-70B,分別訓練了兩個模型PM和RM, 微調的方式都是固定前64層,只微調后16層,

  1. PM:Preference Reward Model

PM的資料是在以上每輪對話多選一的基礎上,從其他對話中隨機采樣更多的負樣本構成的多分類任務,這里補充負樣本是為了懲罰off-topic的模型回復,因此損失函式是多分類的CrossEntropy,以及在此基礎上加入了Bradley-Taley(Elo)和正則項,如下

其中\(r_i\)是所有回復的模型打分,因此正則項是為了保證最終模型輸出的打分是以0為中心的,而Elo部分是為了優化兩兩對比排序,更多細節>>Fitting the Bradley-Terry model to large and potentially sparse datasets

  1. RM:Rule Violation Model

RM模型是一個多標簽任務,判斷對話當前是否違反其中一條標注規則,輸出違反該規則的條件概率,以上5檔標簽被分成兩類,definitely break和probably break]是違反,probably follow和definitely follow是未違反,unsure樣本被丟棄,這里DeepMind使用如下Hard Prompt Tunning來構建模型,其實就是引入一些前置語意資訊,讓模型在小樣本上表現更好,更多細節>>解密Prompt系列2. 凍結Prompt微調LM

  1. 整體打分

基于以上兩個模型,整體打分=偏好打分+所有規則的未違反概率之和+長度懲罰(保證回答簡潔)+is_valid(模板檢查),其中模板檢查包括要求Agent回復以\n\nSparrow:開始,以\n\nUser:結束,保證所有模型回復有相同的格式

個人感覺分開標注,以及引導式的標注沒啥問題,但分開建模再直接打分融合可能不一定是最優的方案,因為兩個模型的scale不同,很難對比違反部分規則,和偏好程度要如何balance才是最優的整體打分,

RLHF

  1. RL起點:和OpenAI相同,DeepMmind也使用監督微調模型作為初始模型,不過DeepMind直接使用了以上RM的標注資料中,多選一標注有用的回復,和未違反規則的回復來進行監督微調,

  2. RL樣本

對比OpenAI使用純人機對話的樣本,DeepMind的RL的樣本來源包括以下四個部分

  • 問題集:GopherCite的Eli5子集
  • 人機對話:以上RM和PM的人機對話的樣本集
  • 對抗樣本擴充:使用Prompt模板引導Sparrow生成有害問題,擴充有害對話樣本
  • self-play:類似self-instruct,會采樣已有對話作為背景關系,讓sparrow繼續生成回復
  1. RL訓練

DeepMind使用了Actor-Critic演算法進行RL微調, RL演算法我們會單獨一章來講,整體上A2C可能略弱于PPO,除了演算法不同,DeepMind的RL微調也只微調Chinchilla模型的后16層,

都選擇微調16層,其實是為了節省訓練顯存,這樣PM,RM,初始SFT模型,和最終的RL微調模型都共享前64層,后16層通過不同head來實作,從而達到降低顯存占用的目的,

  1. Insight:偏好和遵守規則的矛盾統一

人類偏好和遵守規則的要求存在一定沖突,只使用更偏好的資料訓練會得到更高的規則違反率,只使用遵守規則的資料訓練會降低模型回復的偏好率,混合樣本的微調效果最好,

Anthropic

  • paper: Red Teaming Language Models to Reduce Harms Methods,Scaling Behaviors and Lessons Learned
  • paper: A General Language Assistant as a Laboratory for Alignment
  • paper:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback
  • 資料:https://huggingface.co/datasets/Anthropic/hh-rlhf

樣本構建

從論文標題不難看出,Anthropic也只考慮了2H,有害性和有用性,并且著重研究了對抗有害樣本的生成,受限于篇幅這里不展開,我個人也更偏好2H,因為我始終沒太想明白Honesty如何能通過對齊實作,因為部分非事實性是來自預訓練樣本中的噪聲,例如預訓練樣本中是"鯤之大一鍋燉不下",如何通過對齊讓模型學到"鯤之大,不知其幾千里也"?部分非事實性來自訓練樣本的有限性,需要像Bing一樣通過引入實時資訊來解決,要是大家有不一樣的觀點也歡迎留言評論,

同樣是拆分了2個標注任務,和DeepMind的差異是,Anthropic是把有害性和有用性分成了兩個標注任務,針對開放的對話主題進行4輪左右的對話,

  • 有害性標注:和DeepMind相同使用了紅藍對抗的方案,目標是引導模型生成有害回復,每一輪模型會生成2個回答,選擇更有害的一個

  • 有用性標注:同樣是每輪2選一,選擇更有幫助的一潭訓復,并不強制進行事實性檢查

對抗/引導式的資料標注方式,對比OpenAI直接標注,可以更充分挖掘偏好中更有用和更有害的資料,對于解決模型安全性有更大的幫助,但感覺可能缺少中間部分偏好的樣本,如果能和OpenAI直接標注的方案結合是否會更好?

除了2H的任務分開標注之外,每個標注同學進行對話的模型雖然都是52B的模型,但會隨機來自3個不同版本的模型

  • HHH Context-Ditill:類似3Hprompt(helpful,harmless, honest)加持的基礎模型,最初只有這個模型
  • Rejection Sampling(RS):使用3H模型生成16個回復,使用訓練后的PM模型對結果排序,選擇有害性最小的2個回復
  • RLHF微調后的模型:后續的資料收集會基于微調后多個版本的模型持續進行

獎勵模型

Anthropic的獎勵模型同樣是基于樣本排序進行訓練的,有用得分高于無用,無害得分高于有害,并且更詳細論證了相對排序模型的效果要好于二分類模型,要好于語言模型,

\[L_{PM} = log(1+e^{r_{bad}}-e^{r_{good}}) \]

為了降低對微調資料的需求,Anthropic加入了Preference Model Pretraining(PMP)的繼續預訓練程序,使用Reddit, StackExchange等開源問答的資料讓模型先部分學習什么是好的什么是壞的回答,

除此之外Anthropic還討論了PM模型大小對模型穩健性的影響,通過把資料集一分為二,一半訓練,一半驗證,越穩健的PM模型應該在不同資料上有相似的打分分布,論文使用PM模型在兩份資料上打分的KL散度來衡量穩定性,得到兩個結論

  • PM模型越大,KL散度越低
  • PM模型打分在低磁區一致性較高,在高磁區一致性較低

第二個結論很符合直覺,因為有害內容的標注一致性更高更易識別,而優質回復的評價更模糊,另一個原因是模型當前的能力可能導致高磁區的樣本比較稀疏,

但第一個結論,感覺有可能是因為越大的模型預測的置信度越高,打分更容易聚集在一起,才導致的KL散度更低,這個置信度的差異似乎沒有被考慮進去,

RLHF

  1. RL起點

Anthropic選擇了3H Context Distillation的模型,通過在樣本前加入3H指令詞,引導模型生成更安全有用的回復,并記錄模型生成的每個位置Top50的詞和概率,把這個概率作為Teacher;然后去掉3H指令詞,對預訓練模型進行微調,微調目標就是去擬合之前有3H時Top50 Token的預測概率,其實就是Teacher-Student蒸餾的思路,

  1. RL樣本

為了讓模型在更大范圍的指令樣本上進行偏好學習,使用了Self-Instruct,隨機采樣10個已有的真實請求讓模型來生成新的請求,最終是137K真實請求和369K模型生成請求混合作為訓練樣本

  1. RL訓練:整體和openAI類似

和OpenAI相同,Anthropic也提到了online iter訓練,但論文的出發點是前面提到的PM模型在高分部分不穩定的問題,因為微調后的模型生成的回復會更好,在更優的模型中持續收集樣本,可以持續補充高分樣本,注意這里的online和常規意義的online不同,這里每次訓練會混合多個snapshot模型收集的偏好資料和最初的偏好樣本,重頭訓練PM,并重新微調RLHF,

  1. Insight:有用性和無害性的矛盾統一

和OpenAI相似,Anthropic也舉報了有用性和無害性的標注矛盾,在RLHF微調程序中,只要用戶的請求有輕微不滿,模型就讓用戶去看醫生哈哈哈哈~其實我們在不充分微調的ChatGLM中也發現了類似的現象,經過分析模型是過度擬合了有害性,而對有用性欠擬合,導致模型雖然無害但也沒啥用

論文給出了的解決思路是遇到有害性請求,模型只學到拒絕回答是很簡單的,這就是無用但無害,但是如果模型能學到在拒絕回答的同時,給到拒絕的原因,并勸說用戶不要有類似的有害的請求的話,就是有用且無害了,這部分標注資料當前是缺失的, 個人感覺這個思路比OpenAI適配場景去拒絕請求,似乎可行性更高一些,不過論文沒有重新標樣本,而是選擇了折中的方案,加入更大比例Helpful樣本來提升模型有用性

對比總結

  • paper: Scaling Laws for Reward Model Over optimization
  • paper: WebGPT: Browser-assisted question-answering with
    human feedback
  • https://openai.com/research/measuring-goodharts-law

粗略看完以上3家超長無比的系列RLHF論文,結合OpenAI對RM模型的一些觀點,我們來討論下文首問題,感悟很玄學!!不一定靠譜!!僅提供一種思路~

RLHF究竟學了啥?

  • 可類比拒絕采樣(Best-of-N):讓模型隨機采樣生成N個回復,選擇RM打分最高的回復

在WebGPT中OpenAI就把Best-of-N和RL進行了對比,best-of-64的效果甚至超過RLHF,而DeepMind在RL微調后加入best-of-n效果會有進一步提升,感覺RLHF和Best-of-N的差異就是前者把排序擇優放在了微調階段訓練耗時,后者放在了推理階段推理耗時,本質上二者是相似的,都是讓模型在相似文本打分的文本序列中,挑選偏好打分更高的序列

那再想一步,Best-of-N的本質是啥?是Rejection-Sampling,啥是拒絕采樣?簡單說,就是針對無法直接采樣的分布F,可以從G采樣,例如G服從正態分布, 再通過特定的拒絕策略,拒絕不符合F分布的樣本,則得到的樣本可以近似F分布,對應到RLHF中,G其實就是RL初始模型生成的回復,拒絕策略是拒絕RM打分低的回復,則得到的就是符合人類偏好F的回復,

偏好對齊使用RL和SFT的差異?

  • 優化整個文本序列 vs 優化token級別的偏好:類似序列標注任務中CrossEntropy對比CRF

同樣使用偏好標注資料來進行微調,RL微調是針對整個文本序列的RM打分進行優化,而SFT是對每個token的預測概率進行優化,SFT在偏好優化場景上有幾個問題

  • 每個token在損失函式中的權重是相同的
  • 沒有考慮文本整體對偏好的影響
  • 針對很多開放問題,最優答案是不固定的,只對1潭訓答做token級別的擬合,可能會影響泛化

綜合以上3點RL似乎更合適,但是針對有標準答案的場景,例如所有非開放生成的NLP任務,摘要,分類,抽取等等,用SFT來擬合偏好似乎也沒啥毛病,就像序列標注任務用CrossEntropy效果也不會比CRF差太多,

除此之外RL的另一個優點是可以部分降低人工標注,因為訓練的RM模型后續可用于偏好打分,而SFT的每一個偏好樣本都需要人工標注,

什么模型適合作為RLHF的初始模型?

  • 從拒絕采樣的本質出發,RL的初始模型需要有能夠生成人類偏好回答的能力

拒絕采樣的前提假設是F分布的集合是G分布集合的子集,因為拒絕采樣只是拒絕G采樣的部分樣本來得到F分布,對應到RLHF其實就是RL的初始模型要有能夠生成人類偏好回復的能力,因此通過指令微調來解鎖指令理解能力,似乎是RL初始模型的必須條件,畢竟純續寫模型是無法生成人類偏好的回復的,

當前的RL其實還存在很多問題,首先人類偏好本身就是存在噪聲的,標注的一致率不到80%;其次獎勵模型是對標注偏好的進一步抽象,又受到一步準確率的限制;而使用不完美的獎勵模型進一步微調模型,則可能帶來更進一步的擬合問題,這些問題還有待進一步解決,這一章我們就先說這么多啦

想看更全的大模型相關論文梳理·微調及預訓練資料和框架·AIGC應用,移步Github >> DecryptPropmt

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/553095.html

標籤:其他

上一篇:AIGC持續火爆大模型爭相推出,龐大市場造就算力供應模式演變

下一篇:返回列表

標籤雲
其他(159481) Python(38162) JavaScript(25441) Java(18096) C(15230) 區塊鏈(8267) C#(7972) AI(7469) 爪哇(7425) MySQL(7204) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5340) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4574) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2433) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1975) 功能(1967) Web開發(1951) HtmlCss(1940) C++(1919) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1878) .NETCore(1861) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 解密Prompt7. 偏好對齊RLHF-OpenAI&#183;DeepMind&#183;Anthropi

    RLHF是針對有用,無害,事實性等原則,把模型輸出和人類偏好進行對齊的一種方案。以OpenAI為基礎,本章會對比DeepMind, Anthropic在RLHF步驟中的異同,試圖理解RLHF究竟做了啥 ......

    uj5u.com 2023-05-23 09:02:10 more
  • AIGC持續火爆大模型爭相推出,龐大市場造就算力供應模式演變

    本圖由AI生成 黃仁勛說的AI發展迎來iPhone時刻,對NVIDIA有什么影響? 文/王吉偉 近期的AIGC領域仍舊火爆例外。 但火的不只是AIGC應用,還有巨頭之間的AI競賽,以及接連不斷上新的AI大模型(LLM,Large Language Model)。 面對ChatGPT帶來的技術沖擊,為 ......

    uj5u.com 2023-05-23 09:01:07 more
  • 機器學習資料順序隨機打亂:Python實作

    本文介紹基于**Python**語言,實作機器學習、深度學習等模型訓練時,**資料集打亂**的具體操作。 # 1 為什么要打亂資料集 在機器學習中,如果不進行資料集的打亂,則可能導致模型在訓練程序中出現具有“**偏見**”的情況,降低其泛化能力,從而降低訓練精度。例如,如果我們做深度學習的分類,其中 ......

    uj5u.com 2023-05-23 09:01:02 more
  • 摳圖黨福音:教你一鍵分割影像

    摘要:輸入一個影像,通過Segment Anything模型即可獲得影像所有目標的分割點位置,再通過位置將影像進行分割保存。 本文分享自華為云社區《一鍵分割影像》,作者:雨落無痕 。 Segment Anything Segment Anything Model(SAM)通過點或框等輸入提示生成高質 ......

    uj5u.com 2023-05-23 09:00:49 more
  • [paper reading]|LinK: Linear Kernel for LiDAR-based 3D Perce

    摘要 將2D大核的成功推廣到3D感知具有挑戰性,因為: 1.處理3D資料的三次增加的開銷; 2. 資料的稀缺性和稀缺性給優化帶來了困難。 以前的作業通過引入塊共享權重,已經邁出了將內核大小從3 × 3 × 3尺度到7×7×7的第一步。但是,為了減少塊內的特征變化,它只使用了適度的塊大小,并沒有獲得像 ......

    uj5u.com 2023-05-23 08:55:20 more
  • 云原生周刊:2023 年可觀測性狀態報告發布 | 2023.5.22

    Splunk 與 Enterprise Strategy Group 合作發布了 State of Observability 2023,這是一份年度全球研究報告,探討了可觀測性在管理當今日益復雜的技識訓境中的作用。該報告將可觀測性領導者定義為具有至少 24 個月的可觀察性經驗的組織。 此外,領導者 ......

    uj5u.com 2023-05-23 08:48:44 more
  • 理論+實操,帶你了解多沙箱容器運行時Kuasar

    摘要:華為云DTSE技術布道師張天陽結合沙箱容器發展歷程,介紹華為云多沙箱容器運行時 Kuasar 專案優勢,開啟多沙箱容器運行時上手實踐體驗。 本文分享自華為云社區《理論+實操,帶你了解多沙箱容器運行時Kuasar》,作者:華為云社區精選。 本期《多沙箱容器運行時Kuasar開發上手實踐》主題直播 ......

    uj5u.com 2023-05-23 08:48:34 more
  • GPS北斗校時服務器(時間同步裝置)助力橋梁檢測系統建設

    GPS北斗校時服務器(時間同步裝置)助力橋梁檢測系統建設 GPS北斗校時服務器(時間同步裝置)助力橋梁檢測系統建設 京準電子科技官微——ahjzsz 一、系統概述 整個采集系統分散在橋梁的各個部位。橋梁按照區域劃分為若干區段,在主要幾個區段中安置著信號采集機站,每組采集機站均和GPS校時器相連,GP ......

    uj5u.com 2023-05-23 08:48:17 more
  • unity學習日志3(麥扣老師3DRPG專案學習)

    ##1.Shader Graphy基本使用 ![](https://img2023.cnblogs.com/blog/3163322/202305/3163322-20230522202712286-142074988.png) 1. 利用unity自帶的菲利涅效果通過Multiply用Color使 ......

    uj5u.com 2023-05-23 08:47:55 more
  • 2023 Xian Jiaotong University Programming Contest

    A.大水題 #include <bits/stdc++.h> #include <ext/rope> #include <ext/pb_ds/assoc_container.hpp> using namespace std; using namespace __gnu_cxx; using name ......

    uj5u.com 2023-05-23 08:47:36 more