“干掉”程式員飯碗后，OpenAI 又對藝術家下手了！-有解無憂

【CSDN 編者按】去年 OpenAI 發布了擁有 1750 億個引數的 GPT-3，而今年 OpenAI 又發布了 GPT-3 上的重要突破：DALL·E & CLIP，或許這是 GPT-4 的熱身？

整理 | 鄭麗媛

出品 | CSDN（ID：CSDNnews）

AI 從上世紀 50 年代首次提出，經過幾十年的發展已愈發先進，目前 AI 客服對于人工的替代率已高達 90% 以上，GPT-2 續寫的權游結局，似乎比原著更好，GPT-3 更是能直接把需求變成代碼，直搶程式員飯碗！

而剛步入 2021 年，繼“威逼”客服、作家、程式員之后，人工智能非營利組織 OpenAI 昨日發布的 DALL·E 和 CLIP 兩個模型，又讓藝術家們開始頭疼了，CLIP 能根據視覺類別名稱自己分類影像已經讓人嘆服，沒想到 DALL·E 居然可以用一句話就生成對應影像！

CSDN 博客專家馬超（從事金融 IT 行業超十年，阿里云 MVP、華為云 MVP、華為 2020 年技術社區開發者之星）評價道：

DALL·E 帶給我們震撼在于這是一種跨模態的生成模型，之前不管是 pix2pix，DeepFake 還是大谷老師修復老北京的影像，AI 還只能在影像或者文字的單模態下進行生成和模仿.

跨模態模型像 B 站的彈幕和影像的模型只能做到認知，通過彈幕理解影像的含義，通過文字直接腦補出影像來，之前聞所未聞，從這次 DALL·E 展示出的能力來看，其聯想能力已經接近人類四歲的兒童，而且在未來繼續擴大引數規模的情況下，還展示出 AI 的無限可能，這出不禁讓我們想盡 AI 的邊界到底在哪？

一句話生成對應影像的 DALL·E

DALL·E 這個名字取自藝術家薩爾瓦多·達利（Salvador Dalí）和皮克斯影片作業室（Pixar）的《機器人總動員》（WALL·E），是 GPT-3 的 120 億引數版本，它將計算機視覺和自然語言處理（NLP）相結合，經過文本-影像對資料集的訓練，即可通過給定的簡短文本生成匹配的影像，

與 GPT-3 一樣，DALL·E 也是一種 Transformer 語言模型，以包含多達1280 個 tokens （類似于每個英文字母都是26個字母中的一個 token，而在 DALL·E 中，影像使用 1024 個 tokens，文本最多使用 256 個 BPE 編碼 tokens）的單個資料流同時接收文本和影像，利用最大似然法（使用概率模型，尋找能夠以較高概率產生觀察資料的系統發生樹）訓練并一個接一個地生成所有 tokens，

由文本“寫著 OpenAI 的店面”DALL·E 生成的影像

為了測驗 DALL·E 處理新概念的能力，OpenAI 研究人員還給了一些實際上并不存在的描述，例如“豎琴做成的蝸牛”和“鱷梨扶手椅”，意外的是，DALL·E 可以將影像中的物體進行操作和重新排列，把一些無關的概念以合理的方式進行組合并應用到現有影像上，

由文本“鱷梨扶手椅”DALL·E 生成的影像

但這種結合的成功率也需視情況而定，或許由于鱷梨的橫截面本就形似高背扶手椅，果核可看做抱枕，因此 DALL·E 生成的圖片并無違和感，可將文字描述換成“豎琴做成的蝸牛”，生成的圖片就僅僅是將蝸牛與豎琴生硬地結合在一起，

由文本“豎琴做成的蝸牛”DALL·E 生成的影像

除此之外，經測驗還發現 DALL·E 具有創建擬人化動物及物體形象，它會將某些人類的活動和衣物轉移到動物和無生命的物體上，還能以合理的方式組合不同的動物，

由文本“一個穿著芭蕾舞裙遛狗的小白蘿卜”DALL·E 生成的影像

由文本“一個長頸鹿做成的烏龜”DALL·E 生成的影像

但同時，DALL·E 也存在一些不足，通過研究人員控制文字描述屬性觀測 DALL·E 所生成的影像看來，DALL·E 對于少量的屬性表述還可以較為準確地把控，可一旦描述的屬性過多，或者出現容易混淆的措辭和顏色之間的關聯，生成正確圖片的成功率就會大幅降低，此外，DALL·E 處理描述文字的變動也不太靈活：有時用語意相同的描述替換，結果卻得不到正確的圖片了，

由文本“戴藍色帽子、紅色手套，穿綠色襯衫和黃色褲子的小企鵝表情符號”DALL·E 生成的影像

不過，瑕不掩瑜，通過 OpenAI 對 DALL·E 進行的全方面探測，DALL·E 還具備以下幾個功能：

可以控制場景視角，將場景渲染成 3D 風格；
內部和外部結構可視化；
能推斷背景細節進行影像調整；
零樣本視覺推理，可根據虛擬影像得到草圖；
具備地理知識，可根據文本指示生成相應地區有關影像，

除了 DALL·E ，OpenAI 還發布了一款連接文本和影像的多模態模型 CLIP (Contrastive Language–Image Pre-training) ，DALL·E 生成的圖片排序正是由 CLIP 決定，它將對生成的圖片進行區分，越符合文本的圖片排序越前，而這又是如何實作的呢？

零樣本學習的 CLIP

CLIP 能有效地從自然語言監督中學習視覺概念，只需提供識別的視覺類別名稱，就可將 CLIP 應用于視覺分類基準，類似于 GPT-2 和 GPT-3 的“零樣本”功能，

設計團隊采用了大量可用的資料：文本和與之匹配的影像，該資料用于為 CLIP 創建代理訓練任務:給定一幅影像，預測在 32768 個隨機采樣的文本資料集中與哪一個片段更匹配，以下是 CLIP 框架結構圖：

CLIP 提前訓練影像編碼器和文本編碼器，以預測資料集中哪些影像與哪些文本相匹配；然后，利用結果將 CLIP 轉換為 zero-shot 分類器；最后，將資料集的所有類別轉換成文字，并預測文本的類別與給定影像的最佳對應關系，

CLIP 的開發主要是為了解決基于深度學習計算機視覺中的一些問題：

資料集昂貴：深度學習需要大量的資料，而視覺模型一般都是在構建成本高昂的人工標記資料集上進行訓練，以 ImageNet 資料集為例，需要 25,000 多名作業人員為 22,000 個物件類別注釋 1400 萬張影像，但 CLIP 可以從互聯網上已經公開可用的文本影像對中學習，
適用范圍狹窄：還是以 ImageNet 模型為例，雖然它可以很好地預測 1000 種 ImageNet 類別，但想要執行新的任務就需要再構建一個新的資料集并對模型進行微調，而 CLIP 可適用于執行各種視覺分類任務，而無需其他訓練樣本，
實際應用不佳：據報道，深度學習系統在測驗時，通常可以達到甚至超越人類的視徑訓準，可一旦投入實際使用，其性能就大打折扣，這種仿佛是“基準績效”與“實際績效”之間的差異，可能是因為模型只優化了基準性能來“欺騙”大眾，就像一個臨時抱佛腳的學生，僅研究過去幾年考試中的問題去通過考試，相反，CLIP 模型可以在基準上進行評估，而不必訓練其資料，它的基準性能更接近它的實際性能，

CLIP 本身是一個高效，并且靈活通用的多模態模型，但事無完美，它也存在一些局限，雖然 CLIP 在識別常見物件方面可圈可點，但面對抽象或系統性任務（計算影像中的物件數量）或復雜的任務（計算影像中最近的汽車的距離）時，誤差也較大，此外，CLIP 對于在訓練資料集中未涵蓋的影像概括性較差，即使 CLIP 學習了功能強大的 OCR 系統，但面對 MNIST 資料集進行評估時，準確率只有 88%，遠低于資料集中 99.75% 的人類，最后，CLIP 的 zero-shot 分類器可能對文本或措辭較為敏感，

你怎么看？

OpenAI 推出的這兩個模型，很快就登上了 Techmeme 的首頁，也在 Hacker News 沖上第二名，引起了許多討論，

評論1：

人類能通過少量的示例來推斷和理解一些抽象概念，但 AI 看起來似乎并不行，

評論2：

我預測 2050 年時，我們的手機將有很高的“智商”，能對周圍的世界有深刻的理解(不論是語言還是視覺方面)，

評論3：

我希望這是一個人人都能使用的工具!

OpenAI 聯合創始人&首席科學家 Ilya Sutskever 曾在吳恩達編輯的 The Batch 周刊 2020 年終特刊里寫到：“2021 年，語言模型將開始了解視覺世界，”此次新年剛過便推出的 DALL·E 和 CLIP 也印證了他的話，同時讓人工智能更進一步理解人類的日常概念，對此，你有什么看法嗎？歡迎評論區留言~

參考鏈接：

https://openai.com/blog/dall-e/

https://www.technologyreview.com/2021/01/05/1015754/avocado-armchair-future-ai-openai-deep-learning-nlp-gpt3-computer-vision-common-sense/

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/247624.html

標籤：其他

上一篇：記錄自己的學習成長之路！

下一篇：大資料學習筆記第3課基于Yarn的Spark實時計算