主頁 >  其他 > 解密Prompt系列10. 思維鏈COT原理探究

解密Prompt系列10. 思維鏈COT原理探究

2023-07-02 07:40:55 其他

前一章思維鏈基礎和進階玩法我們介紹了如何寫Chain-of-thought Prompt來激活生成逐步推理,并提高模型解決復雜問題的能力,這一章我們追本溯源,討論下COT的哪些元素是提升模型表現的核心?

要進行因果分析,需要把思維鏈中的不同元素拆解開來,然后通過控制變數實驗,來研究不同元素對COT效果的影響,以下兩篇論文的核心差異就在于: COT的變數拆解,以及控制變數的實驗方式,

結合兩篇論文的實驗結論,可能導致思維鏈比常規推理擁有更高準確率的因素有

  • 思維鏈的推理程序會重復問題中的核心物體,例如數字,人物,數字等
  • 思維鏈正確邏輯推理順序的引入

友情提示:以下論文的實驗依賴反事實因果推斷,這種因果分析方式本身可能存在有偏性進而得到一些錯誤結論,讀論文有風險,迷信論文需謹慎哈哈~

TEXT AND PATTERNS: FOR EFFECTIVE CHAIN OF THOUGHT IT TAKES TWO TO TANGO

  • 測驗模型:PaLM-62B,GPT3,CODEX

google這篇論文比較早,按個人閱讀舒適度來劃分個人更推薦第二篇論文喲~

COT元素

論文把影響元素拆分成了Text,Symbol和Pattern三個部分, 如下

論文給出了symbol和pattern的定義,剩下的token全是Text

  • symbol:是資料集的核心主體,數學問題就是數字,SPORT資料集就是運動員和運動專案, DATE資料集就是時間,這里的symbol類似物體的概念
  • pattern: 可以是symbol的組合,連接符(公式)或者幫助模型理解任務的表述結構,這里允許pattern和symbol重合,也就是整個公式是pattern,但公式中的數字同樣是symbol,但在非數學問題上我個人覺得pattern的定義有點迷幻...

實驗

論文針對以上3個元素分別進行了實驗,通過改變COT few-shot prompt中特定元素的取值,來分析該元素對COT效果的貢獻

觀點1.Symbol的形式和取值本身對COT影響不大

這里論文用了兩種控制變數的方式:symbol隨機采樣和特殊符號替換

  • 特殊符號替換(symb_abs)

abstract symbol就是用特殊符號來替換symbol,這里作者同時替換了question,prompt和answer里面的symbol如下

  • 隨機替換(symb_ood)

OOD類似隨機替換,不過論文的替換方式有些迷幻,對于GSM8k數學問題,作者用一一對應的數學數字替換了文字數字;對于體育常識問題的替換比較常規作者用隨機的人名和賽事進行替換;對于時間常識問題作者用未來時間替換了當前時間?? 注意這里的替換作者保證了推理邏輯的一致性,包括同一數字用同一symbol替換,替換物體也符合推理邏輯,以及對問題中的答案也進行了替換,所以這里純純只能論證symbol本身的取值和型別(例如數字1和一)是否對COT有影響

abstract symbol就是用特殊符號來替換symbol,這里作者同時替換了question,prompt和answer里面的symbol如下

這種替換方式下的實驗結果如下,除了體育問題中的隨機物體替換,其余symbol的替換對COT的效果影響都非常有限,這讓我想到了一篇關于NER模型的泛化性主要來自模型學會了不同型別的物體會出現在哪些背景關系中,而不僅是對物體本身的形式進行了記憶,他們的實驗方式和作者替換symbol的操作其實很類似,這種替換并不大幅影響下文對上文的Attention,

觀點2. pattern是COT生效的必要不充分條件

對于Pattern作者更換了實驗方式,控制變數采用了只保留pattern,和只剔除pattern這兩種實驗型別,

以數學問題為例,只保留pattern就是推理程序只保留數學公式,只剔除pattern就是整個推理程序只把公式剔除,其余問題型別,考慮在前面的pattern定義階段個人就感覺有些迷幻,... 所以我們直接跳到實驗結論吧

  • 只有pattern的COT效果很差,和直接推理差不多,說明只有patten肯定是不夠的,這和上一篇博客提到COT小王子嘗試過的只有數學公式的COT效果不好的結論是一致的,
  • 剔除pattern的COT效果受到影響,因此pattern對COT有顯著影響,但很顯然還有別的因素

觀點3. 推理出現問題中的關鍵物體且和問題保持格式一致很重要

最后針對Text部分,作者采用了物體替換和語法替換

  • 物體替換(text_diff_entities):把推理中的物體隨機替換成和問題中不一樣的物體,包括數學問題中的數字,常識問題中的時間,地點和任務,個人感覺這應該是symbol的實驗??

- 語法替換(text_yoda_thought): 把常規的英文表達改成了Yoda的說法風格,Yoda是按照名詞-形容詞-動詞順序來說話的,例如常規是This is my home,Yoda會說My home this is,只對thought進行語法替換,question保持正常的英文表達,

效果上,隨機物體替換對所有任務的COT效果影響非常大, 所以在推理階段使用Question中的核心物體很重要,其次推理和question在語法上的不一致會影響COT在部分任務上的表現,

Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters

  • 測驗模型:text-davinci-002, text-davinci-003

整體上第二篇論文的思路更簡單清晰,在拆解元素的同時還定義了關系,

COT元素

論文首先定義了思維鏈中的兩種核心元素

  • Bridge Object: 模型解決問題所需的核心和必須元素,例如數學問題中的數字和公式,QA問題中的物體,有點類似把論文1中pattern和symbol和在了一起,感覺定義更清晰了
  • Language Template:除去Bridge Object剩余的部分基本都是Language Template

其次定義了思維鏈的兩種核心關系

  • 一致性(Coherence): 推理步驟之間的邏輯順序, 先說什么后說什么
  • 相關性(Relevance): Question中核心元素是否在推理中出現

實驗

論文的消融實驗通過人工修改few-shot COT中的few-shot樣本,來驗證思維鏈中不同元素的貢獻,這里我們以一個數學問題問題為例,看下實驗的兩個階段

觀點1. 完全正確的COT并非必要

第一步作者證明了完全正確的In-Context樣本并不是必須的,用的什么方法嘞?

如下圖所示,作者手工把正確的In-Context COT樣本改寫成錯誤的,改寫方式是在保留部分推理順序,和部分bridge object的前提下,隨機的把推理改成錯誤的推理邏輯,作者發現魔改后錯誤的few-shot的樣本,對比正確的few-shot-cot保留了80%+的水平,只有小幅的下降,

觀點2.推理順序和核心元素的出現更重要

既然完全正確的COT樣本并非必須,那究竟思維鏈的哪些元素對效果的影響最大呢?針對以上兩種元素和兩種關系,作者用了資料增強的方式來對few-shot樣本進行修改,得到破壞某一種元素/關系后的few-shot樣本

  • 破壞相關性: 這里使用了Random Substitution; 針對Bridge Obejct,就是固定文字模板,把數學問題中出現的數字在COT里面(32/42/35)隨機替換成其他數字,這里為了保持背景關系一致性相同的數字會用相同的亂數字來替換; 針對template,就固定Bridge Object,從樣本中隨機采樣其他的COT推理模板來進行替換,
  • 破壞一致性: 這里使用了Random Shuffle;針對Bridge Object,就是把COT中不同位置的Bridge Obejct隨機打亂順序;針對Template,就固定Bridge Object,把文字模板的句子隨機改變位置,

整體效果如下圖

論文正文用的是text-davinci-002,附錄里也補充了text-davinci-003的效果,看起來003的結果單調性更好,二者結論是基本一致的,因此這里我們只看下003的消融實驗效果,可以得到以下幾個核心結論

  • 對比COT推理的正確性,相關性和一致性更加重要,尤其是相關性,也就是在推理程序中復述question中的關鍵資訊可以有效提高模型推理準確率,個人猜測是核心元素的復述可以幫助模型更好理解指令識別指令中的關鍵資訊,并提高該資訊對應的知識召回【這一點我們在下游難度較高的多項選擇SFT中也做過驗證,我們在多項選擇的推理模板的最后加入了題干的復述,效果會有一定提升,進一步把選項的結果完形填空放到題干中,效果會有更進一步的提升】
  • Language Template的一致性貢獻度較高,也就是正確的邏輯推理順序有助于模型推理效果的提升,這一點更好理解主要和decoder需要依賴上文的解碼方式相關,【還是多項選擇的指令微調,我們對比了把選項答案放在推理的最前面和放在復述題干之前的效果,都顯著差于先推理分析,復述題干并填入選項答案,最后給出選項答案這個推理順序】

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/556469.html

標籤:其他

上一篇:AtCoder Beginner Contest 308

下一篇:返回列表

標籤雲
其他(161971) Python(38266) JavaScript(25519) Java(18286) C(15238) 區塊鏈(8275) C#(7972) AI(7469) 爪哇(7425) MySQL(7280) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5876) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4609) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2438) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1985) HtmlCss(1982) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1882) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 解密Prompt系列10. 思維鏈COT原理探究

    這一章我們追本溯源,討論下COT的哪些元素是提升模型表現的核心。結合兩篇論文的實驗結論,可能導致思維鏈比常規推理擁有更高準確率的因素有:思維鏈的推理程序會重復問題中的核心物體;正確邏輯推理順序的引入 ......

    uj5u.com 2023-07-02 07:40:55 more
  • AtCoder Beginner Contest 308

    > 這幾天在收拾東西搬家,先附上代碼,晚點補上題解 > 感覺這次FG都寫不太明白 ## [A - New Scheme (abc308 A)](https://atcoder.jp/contests/abc308/tasks/abc308_a) ### 題目大意 給定八個數,問是否滿足以下要求: - ......

    uj5u.com 2023-07-02 07:40:17 more
  • 牛客小白月賽75

    # A.上班 ### 題意: ![](https://img2023.cnblogs.com/blog/2960080/202307/2960080-20230701100716620-968916608.png) ![](https://img2023.cnblogs.com/blog/29600 ......

    uj5u.com 2023-07-02 07:34:53 more
  • Ubuntu虛擬機教程

    ### 1.下載ubuntu鏡像 可以去中科大鏡像站下載(本次下載20.04版本,不同版本操作會有差異,建議保持一致) ```html https://mirrors.ustc.edu.cn/ ``` 點擊如圖所示的按鈕下載![image.png](https://cdn.nlark.com/yuq ......

    uj5u.com 2023-07-02 07:34:22 more
  • C++ 核心指南之資源管理(下)—— 智能指標最佳實踐

    > C++ 核心指南(C++ Core Guidelines)是由 Bjarne Stroustrup、Herb Sutter 等頂尖 C+ 專家創建的一份 C++ 指南、規則及最佳實踐。旨在幫助大家正確、高效地使用“現代 C++”。 > > 這份指南側重于介面、資源管理、記憶體管理、并發等 High ......

    uj5u.com 2023-07-02 07:32:07 more
  • 2023年6月隨筆暨半年總結

    ![](https://img2023.cnblogs.com/blog/3076680/202306/3076680-20230630120307874-1365687784.png) # 1. 回頭看 日更堅持了181天。 - 讀《改變未來的九大演算法》更新完成 - 讀《發布!設計與部署穩定的分布 ......

    uj5u.com 2023-07-01 08:38:01 more
  • 【筆者感悟】筆者的學習心得【三】

    博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ......

    uj5u.com 2023-07-01 08:37:56 more
  • 最新訊息,powershell,10多年的癌癥被治好了!

    問:癌癥是指什么? 答:powershell一直有個特性,它的管道會傳遞物件,請看:'abc' | ForEach-Object {$_.toupper()} #回傳ABC它管道傳遞的是【字串物件】。它會把管道左面的【內容】強行物件化。這導致【二進制資料經管道傳輸】有問題。常見的問題場景是:管道下 ......

    uj5u.com 2023-07-01 08:37:52 more
  • 一探究竟!天翼云2023MWC展區“亮”了!

    6月28日,2023MWC上海世界移動通信大會(簡稱“MWC上海”)在上海新國際博覽中心啟幕。中國電信開設“數智萬融 暢享未來”主題展區,從科技創新、安全筑防及服務賦能三大核心板塊56項科數成就入手,全方位展示中國電信新技術、新產品以及新一代資訊智能數字化解決方案。其中,中國電信天翼云攜多款創新產品... ......

    uj5u.com 2023-07-01 08:37:40 more
  • 云享&#183;案例丨打造數智物流底座,華為云DTSE助力物聯云倉解鎖物

    摘要:華為云憑借領先的技術和快速回應的開發者支持服務,助力物聯億達實作云上資源高可用、提升系統安全性與穩定性,為物聯億達提供了扎實的數字化基礎。 本文分享自華為云社區《云享·案例丨打造數智物流底座,華為云DTSE助力物聯云倉解鎖物流新“速度”》,作者:華為云社區精選 。 數字化轉型浪潮席卷全球,企業 ......

    uj5u.com 2023-07-01 08:37:30 more