主頁 >  其他 > 【AIGC】Embedding與LLM的結合:長文本搜索與問答功能

【AIGC】Embedding與LLM的結合:長文本搜索與問答功能

2023-05-10 08:21:46 其他

什么是Embedding?

Embedding是一種多維向量陣列,由一系列數字組成,可以代表任何事物,如文本、音樂、視頻等,在這里我們將重點關注文本部分,Embedding之所以重要,是因為它讓我們可以進行語意搜索,也就是通過文本的含義進行相似性檢索,

為什么Embedding在AI中如此重要?

Embedding在AI中的重要性在于,它可以幫助我們解決LLM的tokens長度限制問題,通過使用Embedding,我們可以在與LLM互動時,僅在背景關系視窗中包含相關的文本內容,從而不會超過tokens的長度限制,

如何將Embedding與LLM結合?

我們可以利用Embedding,在和LLM互動時,僅包含相關的文本內容,具體操作方法是,首先將文本內容分塊并轉換為向量陣列,然后將其存盤在向量資料庫中,在回答問題時,我們可以使用相似性搜索將問題向量與檔案向量進行比較,找到最相關的文本塊,然后將這些文本塊與問題一起輸入到LLM中,得到準確的回答,
image

舉例來說

我們可以利用Embedding,在和LLM互動時,僅包含相關的文本內容,以一個巨大的書籍PDF檔案為例,假設這是一本講述人類歷史的書籍,我們希望從中提取關于某個重要歷史人物的資訊,但不想閱讀整個檔案,

具體操作方法是:

  1. 將PDF檔案的文本內容分塊,
  2. 使用Embedding模型將每個文本塊轉換為向量陣列,
  3. 將這些向量陣列存盤在向量資料庫中,同時保存向量陣列與文本塊之間的關系,

當我們需要回答關于該PDF檔案的問題時,例如:“作者對xxx人物的看法是什么?”我們可以:

  1. 使用Embedding模型將問題轉換為向量陣列,
  2. 使用相似性搜索(如,chatGPT推薦的余弦相似度)將問題向量與PDF檔案的向量進行比較,找到最相關的文本塊,
  3. 將找到的最相關文本塊與問題一起輸入到LLM(如GPT-3)中,得到準確的回答,

通過這種方法,我們可以將Embedding與LLM結合,實作高效的文本搜索和問答功能,目前比較火的類chatPDF、以及檔案問答產品都采用類似的技術,

產品案例

開源fireBase解決方案SupBase二月份時就推出了一款基于chatGPT API的,支持問答的檔案系統(https://supabase.com/blog/chatgpt-supabase-docs)
其中就對這個檔案系統的技術路徑進行了相應的描述:
image

一些值得參考的資料

  1. https://openai.com/blog/introducing-text-and-code-embeddings (主要是關于基于embedding的文本與代碼搜索的)
  2. https://github.com/openai/openai-cookbook/blob/main/examples/Question_answering_using_embeddings.ipynb (openAI提供的jupyter基于embedding的QA代碼示例)
  3. https://supabase.com/blog/chatgpt-supabase-docs
  4. 詳細內容會同步至微信公眾號(Hobbes View)

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/552020.html

標籤:其他

上一篇:百度飛槳(PaddlePaddle)-數字識別

下一篇:返回列表

標籤雲
其他(158727) Python(38124) JavaScript(25407) Java(18024) C(15222) 區塊鏈(8263) C#(7972) AI(7469) 爪哇(7425) MySQL(7172) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5871) 数组(5741) R(5409) Linux(5336) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4570) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2432) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1965) Web開發(1951) HtmlCss(1932) python-3.x(1918) 弹簧靴(1913) C++(1912) xml(1889) PostgreSQL(1875) .NETCore(1857) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 【AIGC】Embedding與LLM的結合:長文本搜索與問答功能

    什么是Embedding? Embedding是一種多維向量陣列,由一系列數字組成,可以代表任何事物,如文本、音樂、視頻等。在這里我們將重點關注文本部分。Embedding之所以重要,是因為它讓我們可以進行語意搜索,也就是通過文本的含義進行相似性檢索。 為什么Embedding在AI中如此重要? E ......

    uj5u.com 2023-05-10 08:21:46 more
  • 百度飛槳(PaddlePaddle)-數字識別

    手寫數字識別任務 用于對 0 ~ 9 的十類數字進行分類,即輸入手寫數字的圖片,可識別出這個圖片中的數字。 使用 pip 工具安裝 matplotlib 和 numpy python -m pip install matplotlib numpy -i https://mirror.baidu.co ......

    uj5u.com 2023-05-10 08:21:35 more
  • LP三明治機器人

    2022 年 11 月 4 日,EigenPhi檢測到一種全新型別的三明治交易:一個三明治機器人擠壓了一筆增加流動性的交易,根據我們的常識,這很奇怪。這樣做有利可圖嗎?有什么限制嗎?與之前關于包括 37 筆交易的巨大三明治交易的文章不同,該機器人展示了一種截然不同的創新策略。而本文將帶你一探AMM旗 ......

    uj5u.com 2023-05-10 08:15:36 more
  • 你還在糾結怎么選IDE嗎?常用IDE工具分享

    近期有不少剛學編程的小伙伴來問我,市面上那么多IDE工具,該怎么選?今天在這里跟大家分享幾款個人比較鐘愛的IDE工具,供大家參考。 Visual Studio 優點:支持多種語言,包括C#, C++, Visual Basic等,可用于Web應用程式、桌面應用程式、移動應用程式等開發;集成了多種工具 ......

    uj5u.com 2023-05-10 08:10:08 more
  • 資料結構與演算法大作業:走迷宮程式(C語言,DFS)(代碼以及思路)

    好家伙,寫大作業,本篇為代碼的思路講解 1.大作業要求 走迷宮程式 問題描述: 以一個 m * n 的長方陣表示迷宮, 0和1分別表示迷宮的通路和障礙。 設計一個程式, 對任意設定的迷宮, 求出一條從入口到出口的通路, 或得出沒有通路的結論。 基本要求: (1) 實作一個以鏈表做存盤的堆疊型別, 然后 ......

    uj5u.com 2023-05-10 08:09:58 more
  • QUIC在京東直播的應用與實踐

    本文將分別從推流端、中臺源站、直播云CDN及播放端四個部分串燒式地介紹與直播相關的一些技術實踐,并重點介紹QUIC技術的應用情況及收益。 ......

    uj5u.com 2023-05-10 08:08:36 more
  • 1000個已成功入職的軟體測驗工程師簡歷經驗總結:軟體測驗工程師簡

    軟體測驗面試常見問題通常分為兩大類,一類是考察你的專業技能,另一類是考察你的穩定性、努力程度、情商等因素。并且所有初級測驗工程師的面試題中我發現超過90%都是基礎性的面試題,2020年只要掌握功能測驗和介面測驗,然后有一定的自動化基礎,再加上面試的時候態度ok(不卑不亢即可), 基本上在一線找一份薪... ......

    uj5u.com 2023-05-10 08:08:10 more
  • KubeEdge在邊緣計算領域的安全防護及洞察

    摘要:著重介紹Kubeedge在安全防護方面的實踐,并介紹OpenSSF在開源軟體安全方面的計劃與目標。 本文分享自華為云社區《KubeEdge在邊緣計算領域的安全防護及洞察》,作者:華為云云原生團隊。 隨著開源軟體安全漏洞持續引起世界各地政府和企業的關注,越來越多的組織、開發人員、研究人員和安全專 ......

    uj5u.com 2023-05-10 08:07:55 more
  • 使用 shell 腳本自動申請進京證 (六環外) —— debug 程序

    寫好的自動辦理六環外進京證腳本跑不通,總是回傳辦理業務人數較多 (500) 錯誤,Charles / VNET 抓包、android 交叉編譯 jq、升級 curl…都不起作用,最侄訓是神奇的 adb shell 幫了大忙,最后定位到根因,居然是用 shell 字串長度作為資料長度導致的,這錯誤犯... ......

    uj5u.com 2023-05-10 08:07:30 more
  • 2步打通ModelArts和Astro,實作AI應用快速落地

    摘要:本文以 ModelArts 的“找云寶”自動學習 AI 應用為例,結合低代碼平臺 Astro 輕應用快速實作一個“找云寶”小應用。 本文分享自華為云社區《【我與ModelArts的故事】2步打通 ModelArts 和 Astro 實作 AI 應用落地》,作者:胡琦。 引言 隨著 GPT 火爆 ......

    uj5u.com 2023-05-10 08:06:40 more