說在前面的話：

一個月前，OpenAI向外界展示了GPT-4如何通過手繪草圖直接生成網站，令當時的觀眾瞠目結舌，

在GPT-4發布會之后，相信大家對ChatGPT的對話能力已有所了解，圈內的朋友們應該已經親身體驗過無論是文本生成、撰寫代碼，還是背景關系關聯對話能力，這些功能都一次又一次地震撼著我們，

還記得發布會上，GPT-4展示的多模態能力，輸入不僅僅局限于文字，還可以包括文本和影像，讓我大開眼界，

例如：畫個網站的草圖，GPT4 就可以立馬生成網站的 HTML 代碼，

然而，時光荏苒！OpenAI至今尚未提供發布會上展示的多模態處理能力！

原本以為我們還需要再等上一段時間才能看到這一功能的更新，然而意想不到的是，我發現了這樣一個專案，

這個專案被稱為MiniGPT-4，由著名的阿卜杜拉國王科技大學的幾位博士研究生共同完成，

更為重要的是，該專案完全開源！效果如視頻中所展示的那樣：

MiniGPT-4在線體驗DEMO

MiniGPT-4能夠支持文本和影像輸入，成功實作了多模態輸入功能，實在令人嘆為觀止！

GitHub專案地址：https://github.com/Vision-CAIR/MiniGPT-4

在線體驗鏈接：https://minigpt-4.github.io

另外作者還提供了網頁 Demo，可以直接體驗（這酸爽？）：

MiniGPT-4利用一個投影層將BLIP-2的凍結視覺編碼器與凍結的LLM（Vicuna）對齊，
我們分兩個階段訓練MiniGPT-4，第一個傳統預訓練階段使用大約500萬個影像-文本對，在4個A100顯卡上訓練10小時，在第一階段之后，Vicuna能夠理解影像，但是，Vicuna的生成能力受到嚴重影響，
為解決這個問題并提高可用性，我們提出了一種新穎的方法，通過模型本身和ChatGPT共同創建高質量的影像-文本對，基于此，我們創建了一個小型（總共3500對）但高質量的資料集，
第二個微調階段在該資料集的會話模板上進行訓練，以顯著提高其生成可靠性和整體可用性，令我們驚訝的是，這個階段在計算上非常高效，僅使用單個A100花費約7分鐘，
MiniGPT-4展現出許多類似于GPT-4演示的視覺-語言能力，