ChatGPT 開源了第一款插件，都來學習一下原始碼吧！-有解無憂

3 月 23 日，OpenAI 又投出了一枚重磅炸彈：為 ChatGPT 推出插件系統！

此舉意味著 ChatGPT 將迎來“APP Store”時刻，也就是圍繞它的能力，形成一個開發者生態，打造出基于 AI 的“作業系統”！

插件系統將為 ChatGPT 帶來質的飛躍，因為借助于插件服務，它可以獲取實時的互聯網資訊、呼叫第三方應用（預定酒店航班、點外賣、購物、查詢股票價格等等），

ChatGPT 是一個無比聰明的大腦，而插件會成為它的眼睛、耳朵、手腳、甚至于翅膀，能力驚人，未來不敢想象！

官方目前提供了兩個插件：

一個網頁瀏覽器，利用新必應瀏覽器的 API，實時搜索互聯網內容，并給出答案和鏈接
一個代碼解釋器，利用 Python 解釋器，可以解決數學問題、做資料分析與可視化、編輯圖片、剪輯視頻等等，還支持下載處理后的檔案

另外，OpenAI 還開源了一個知識庫檢索插件 chatgpt-retrieval-plugin ，這個插件通過自然語言從各種資料源（如檔案、筆記、郵件和公共檔案）檢索資訊，有了開源代碼后，開發者可以部署自己的插件版本，

想象一下，假如我提供了一個“Python 知識庫插件”，以所有官方檔案作為資料源，那以后有任何 Python 使用上的問題，我就只需詢問 ChatGPT，然后它呼叫插件并決議資料，最后回傳給我準確的答案，這將節省大量的時間！

不僅如此，你還可以用書籍作為資料源，打造出“西游記知識庫”、“紅樓夢知識庫”、“百科全書知識庫”、“個人圖書館知識庫”，等等；以專業領域的論文與學術期刊為資料源，創造出一個專家助手，從此寫論文查資料將無比輕松；以蘇格拉底、喬布斯、馬斯克等名人的資料為資料源，創造出人格化的個人顧問……

作為第一個開源的 ChatGPT 插件，chatgpt-retrieval-plugin 專案一經發布，就登上 Github 趨勢榜第一，發布僅一周就獲得 11K stars，

這個專案完全是用 Python 寫的，不管是出于學習編程的目的，還是為了將來開發別的插件作借鑒，這都值得我們花時間好好研究一下，

接下來，我將分享自己在閱讀專案檔案和原始碼時，識訓到的一些資訊，

首先，該專案含 Python 代碼約 3 K，規模不算大，專案結構也很清晰，目錄如下：

目錄	描述
`datastore`	包含使用各種向量資料庫提供程式存盤和查詢檔案嵌入的核心邏輯
`examples`	包括配置示例、身份驗證方法和面向程式提供方的示例
`models`	包含插件使用的資料模型，例如檔案和元資料模型
`scripts`	存放實用的腳本，用于處理和上傳來自不同資料源的檔案
`server`	存放主要的 FastAPI 服務端實作
`services`	包含用于任務（如分塊、元資料提取和 PII 檢測）的實用服務
`tests`	包括各種向量資料庫提供程式的集成測驗
`.well-known`	存盤插件清單檔案和 OpenAPI 格式，定義插件配置和 API 規范等資訊

除去示例、測驗、組態檔等內容外，最主要的三個目錄如下：

datastore 資料存盤

資料源的文本資料會被映射到低維度向量空間，然后存盤到向量資料庫中，官方已提供 Pinecone、Weaviate、Zilliz、Milvus、Qdrant、Redis 這幾種資料存盤方案的示例，另外，有幾個 pull requests 想要加入 PostgreSQL 的支持，大概率將來會合入，

這里使用了抽象工廠設計模式 ，DataStore 是一個抽象類，每種資料存盤庫是具體的實作類，需要實作三個抽象方法：

（1）_upsert(chunks: Dict[str, List[DocumentChunk]]) -> List[str] 方法，接收一個字典引數，包含有 DocumentChunk 物件串列，將它們插入到資料庫中，回傳值為檔案 ID 的串列，

（2）_query(queries: List[QueryWithEmbedding]) -> List[QueryResult] 方法，接收一個串列引數，包含被 embedding 的查詢文本，回傳一個包含匹配檔案塊和分數的查詢結果串列，

（3）delete(ids: Optional[List[str]] = None, filter: Optional[DocumentMetadataFilter] = None, delete_all: Optional[bool] = None, ) -> bool 方法，根據 id 和其它過濾條件洗掉，或者全部洗掉，回傳操作是否成功，

值得注意的是，該目錄下的factory.py 模塊使用了 Python 3.10 新引入的 match-case 語法，緊跟著 Python 社區的新潮流呢~

server 服務端介面

這個目錄只有一個main.py 檔案，是整個專案的啟動入口，它使用了目前主流的 FastAPI 框架，提供了增刪改查的幾個 API，另外使用 uvicorn 模塊來啟動服務，

/upsert-file 介面，用于上傳單個檔案，將其轉換為 Document 物件，再進行新增或更新
/upsert 介面，上傳一系列的檔案物件，用于新增或更新
/query 介面，傳入一系列的文本條件，轉成 QueryWithEmbedding 物件后，再從向量資料庫查詢
/delete 介面，根據條件洗掉或者全部洗掉資料庫中的資料

在這幾個介面中，增改刪功能主要是給開發者/維護者使用的，ChatGPT 只需呼叫插件的查詢介面，因此，代碼中還創建了一個“/sub”子應用，只包含/query 介面，提供給 ChatGPT 呼叫，

另外，它使用 FastAPI 的 mount 方法掛載了一個“/.well-known”靜態檔案目錄，暴露了關于本插件的基本資訊，例如名稱、描述、作者、logo、郵箱、提供給 OpenAPI 的介面檔案等等，

services 任務處理方法

這個目錄下是一些通用的函式，比如下面這些：

（1）chunks.py 檔案包含了將字串和 Document 物件分割成小塊、以及為每個塊獲取嵌入向量的函式，

（2）file.py 檔案提供了從上傳的檔案中提取文本內容及元資料的函式，目前支持決議的檔案型別包括 PDF、純文本、Markdown、Word、CSV 和 PPTX，

（3）openai.py 檔案包含兩個函式：get_embeddings 函式使用 OpenAI 的 text-embedding-ada-002 模型對給定的文本進行嵌入，get_chat_completion 函式使用 OpenAI 的 ChatCompletion API 生成對話，

整個而言，這個插件的幾個介面功能很清晰，代碼邏輯也不算復雜，核心的文本嵌入操作是借助于 openai 的 Embedding 介面，文本分塊資訊的存盤及查詢操作，則是依賴于各家向量資料庫的功能，

YouTube 上有博主手畫了一張示意圖，字體雖潦草，但大家可以意會一下：

他這個視頻值得推薦一看，因為 up 主不僅簡明地介紹了插件的作業原理，還手把手演示如何部署到 Digital Ocean、如何修改配置、如何除錯，而且他有 ChatGPT 的插件權限，可以將自己部署的插件接入 ChatGPT，現場演示了知識庫插件的使用！

目前，關于 ChatGPT 插件的介紹、開發及配置等資料還比較少，畢竟是新推出的，但是，申請 waitlist 的個人和組織已經數不勝數了，一旦開放使用，各式各樣的插件一定會像 Python 社區豐富的開源庫一樣，也將極大擴展 ChatGPT 的生態，

最后，插件 chatgpt-retrieval-plugin 的官方檔案是最為詳細的一手資料，推薦大家研究一番，

轉載請註明出處，本文鏈接：https://www.uj5u.com/houduan/548577.html

標籤：Python

上一篇：PyQt5學習（4）--QAbstractButton

下一篇：Django筆記十一之外鍵查詢優化select_related和prefetch_related