ChatGPT之后，AIGC如何革新數字內容創作-有解無憂

內容生產，特別是創意作業，一向被認為是人類的專屬和智能的體現，牛津大學計算機學院院長邁克爾·伍爾德里奇 2019 年寫作的《人工智能全傳》一書中，“撰寫有趣的故事”被列為人工智能“遠未實作”的任務之一，

如今，AI 正大步邁入數字內容生產領域，AIGC（AI Generated Content）不僅在寫作、繪畫、作曲多項領域達到“類人”表現，更展示出在大資料學習基礎上的非凡創意潛能，2023 年 3 月 15 日，多模態資訊處理標桿 GPT-4 模型正式發布，使生成內容的準確度及合規性進一步提升，數字內容生產的人機協作新范式正在形成，創作者和更多普通人得以跨越“技法”和“效能”限制，盡情揮灑內容創意，

也有人擔憂，AI 是否會讓創作者們集體“失業”，甚至讓“創作”本身走向衰頹，就像機械復制時代的藝術品可能失去“靈暈”那樣，換言之，AIGC 的流行給了我們一個重新審視“創作”是什么，是否為人所獨有這些問題的機會，

本文將分析 AIGC 改變數字內容創作的現狀、關鍵突破和挑戰，并嘗試探討以上問題，

現狀—AIGC 正成為互聯網內容生產基礎設施

數字內容正邁入強需求、視頻化、拼創意的升級周期，AIGC 恰逢其會，線上生活成為常態，一方面，用戶創作內容大幅解放生產力，例如短視頻就是將原本需要長制作周期、高注意投入的視頻，變成了可以源源不斷產出的“工業品”和“快消品”；另一方面，作為核心的創意仍舊稀缺，需要新的模式輔助創作者持續產生、迭代和驗證創意，種種因素，都需要更加低成本、高效能的新工具與方式，

AIGC 正在越來越多地參與數字內容的創意性生成作業，以人機協同的方式釋放價值，成為未來互聯網的內容生產基礎設施，

從范圍上看，AIGC 逐步深度融入到文字、代碼、音樂、圖片、視頻、3D 多種媒介形態的生產中，可以擔任新聞、論文、小說寫手，音樂作曲和編曲者，多樣化風格的畫手，長短視頻的剪輯者和后期處理工程師，3D 建模師等多樣化的助手角色，在人類的指導下完成指定主題內容的創作、編輯和風格遷移作業，

從效果上看，AIGC 在基于自然語言的文本、語音和圖片生成領域初步令人滿意，特別是知識類中短文，插畫等高度風格化的圖片創作，創作效果可以與有中級經驗的創作者相匹敵；在視頻和 3D 等媒介復雜度高的領域處于探索階段，盡管 AIGC 對極端案例的處理、細節把控、成品準確率等方面仍有許多進步空間，但蘊含的潛力令人期待，

從方式上看，AIGC 的跨文字、影像、視頻和 3D 的多模態加工是熱點，吳恩達（Andrew Ng）認為多模態是 2021 年 AI 的最重要趨勢，AI 模型在發現文本與影像間關系中取得了顯著進步，如 OPEN AI 的 CLIP 能匹配影像和文本，Dall·E 生成與輸入文本對應的影像；DeepMind 的 Perceiver IO 可以對文本、影像、視頻和點云進行分類，典型應用包括如文本轉換語音 TTS（Text To Speech）、文本生成圖片（Text-to-Image），廣義來看 AI 翻譯、圖片風格化也可以看作是兩個不同“模態“間的映射，

上圖：原圖，AIGC 的典型場景及發展趨勢，來自紅杉資本

下圖：使用有道智云 AI 翻譯后的結果

關鍵突破—自然語言技術解放創作力

AIGC 對創作者的解放體現在：“只要會說話，你就能創作”，無需懂得原理，不用學習代碼，或者 Photoshop 等專業工具，創作者以自然語言向 AI 描述腦海中的要素甚至想法（術語是給出“prompt”）后，AI 就能生成對應的結果，這也是人機互動從打孔紙帶，到編程語言，圖形界面后的又一次飛躍，

自然語言是不同數字內容型別間轉化的根資訊和紐帶，比如“貓”這個詞語就是加菲貓的圖片，音樂劇《貓》和無數內容的索引，這些不同的內容型別可以稱為“多模態”，

AIGC 此輪浪潮，最大底層進化就在 AI 對自然語言“理解”和“運用”能力的飛躍，這離不開 2017 年 Google 發布的 Transformer，它開啟了大型語言模型（Large Language Model，簡稱 LLM）時代，有了這一強大的特征提取器，后續的 GPT、BERT 等語言模型突飛猛進，不僅質量高、效率高，還能以大資料預訓練+小資料微調的方式，擺脫了對大量人工調參的依賴，在手寫、語音和影像識別、語言理解方面的表現大幅突破，所生成的內容也越來越準確和自然，

但大模型意味著極高的研究和使用門檻，例如 GPT-3 有 1750 億引數量，既需要大算力集群也不向一般用戶開放，2022 年，部署在 Discord 論壇上、以聊天機器人形式提供的 midjourney 成為了第一個用戶友好型 AIGC 應用，帶來 AI 繪畫熱潮，一位設計師用其生成的圖片甚至在線下比賽中獲獎，

引發爭議的 AI 輔助創作作品

使用簡單文字即可交流的低門檻，類似搜索引擎的使用方式，一下子點燃了普通用戶對 AI 使用的熱情，緊接著，基于擴散模型（Diffusion Models）的一系列文本生成圖片（Text-to-Image）產品，如 Stable Diffusion 等，把 AI 繪畫從設計圈帶向大眾，開源的 Stable Diffusion 僅需一臺電腦就能運行，截至 2022 年 10 月已有超過 20 萬開發者下載，累計榷訓用戶超過 1000 萬；而面向消費者的 DreamStudio 則已獲得了超過 150 萬用戶，生成超過 1.7 億圖片，其驚艷的藝術風格、以及影像涉及的著作權、法律等問題也引發了諸多爭議，

Diffusion 的震撼感還沒消散，ChatGPT 橫空出世，真正做到和人類“對答如流”，能理解各式各樣的需求，寫出回答、短文和詩歌創作、代碼寫作、數學和邏輯計算等，不僅如此，人類反饋強化學習(RLHF)技術讓 ChatGPT 能持續學習人類對回答的建議和評價，朝更加正確的方向前進，因此以不到 GPT3 的 1%的引數實作了極佳的效果，盡管 ChatGPT 仍存在一些缺陷，例如參考不存在的論文和書籍、對缺乏資料的問題回答質量不佳等，但它仍然是人工智能史上的里程碑，并上線兩個月后用戶數突破 1 億，成為史上用戶數增長最快的消費者應用，

下一挑戰—向“在場”的 3D 互聯網進發

在文、圖、視頻后，數字技術演進的重要方向是從“在線”走向“在場”，AIGC 將成為打造 3D 互聯網的基石，人們將在在虛擬空間構建仿真世界，在現實世界“疊加“虛擬增強，實作真正的臨場感，隨著 XR、游戲引擎、云游戲等等各種互動、仿真、傳輸技術的突破，資訊傳輸越來越接近無損，數字仿真能力真偽難辨，人類的互動和體驗將到達新階段，

目前 AIGC 在 3D 模型領域還處于探索階段，一條路徑是以擴散模型為基礎分兩步走：先由文字生成圖片，再生成包含深度的三維資料，谷歌和英偉達在這一領域較為領先，先后發布了自己的文字生成 3D 的 AI 模型，但從生成效果看，距離現在人工制作的 3D 內容的平均質量還有距離；生成速度也未能盡如人意，

2022 年 10 月，谷歌率先發布了 DreamFusion，但其缺點也很顯著，首先擴散模型僅對 64x64 的影像生效，導致生成 3D 的質量不高；其次場景渲染模型不僅需要海量樣本，也在計算上費時費力，導致生成速度較慢，隨后，英偉達發布了 Magic3D，面對提示語“一只坐在睡蓮上的藍色毒鏢蛙”，用大約 40 分鐘生成了一個帶有紋理的 3D 模型，相比谷歌，Magic3D 生成速度更快、效果更好，還能在連續生成程序中保留相同的主題，或者將風格遷移到 3D 模型中，

Magic3D（第 1、3 列）與 DreamFusion（第 2、4 列）對比

第二條路徑是借助 AI 來“合成”不同視角下同一物品的照片，從而直接生成 3D，英偉達在 2022 年 12 月的 NeurIPS 上展示了生成式 AI 模型——GET3D（Generate Explicit Textured 3D 的縮寫），可根據其所訓練的建筑物、汽車、動物等 2D 影像類別，即時合成 3D 模型，和上文中的輸出物相比，模型和紋理更精細，更采取了一般 3D 工具的通用格式，能直接用到構建游戲、機器人、建筑、社交媒體等行業設計的數字空間，比如建筑物、戶外空間或整座城市的 3D 表達，GET3D 在英偉達 A100 GPU 上訓練而成，使用了不同角度拍攝的約 100 萬張照片，每秒可生成約 20 個物體，結合團隊的另一項技術，AI 生成的模型能夠區分出物體的幾何形狀、光照資訊和材質資訊，使可編輯性大幅加強，

NVIDIA GET3D 基于 AI 生成的模型示例

可行路徑—與游戲中的程式化生成技術相結合

盡管如此，AIGC 在 3D 側的能力，距離打造 3D 互聯網仍有不小的距離，而游戲中較為成熟的程式化內容生成（PCG，Procedural Content Generation）技術，可能是 AIGC 邁過深水區的一大助力，

從技術路徑上，AI 生成 3D 難以沿用“大力出奇跡”的老辦法，即單靠喂給 AI 海量的輸入來提升效果，首先，資訊量不同，一張圖片和一個 3D 模型相比相差一個維度，體現在存盤上就是資料量級不同；其次，圖片和 3D 的存盤及顯示原理不同，如果說 2D 是像素點陣在顯示幕的客觀陳列，3D 則是實時、快速、海量的矩陣運算，就像對著模型在 1 秒內進行幾十次“拍照”，為了準確計算得到每個像素點，“渲染”在顯示幕上，需要考慮的因素至少有（1）模型幾何特征，通常用幾千上萬個三角面來表示（2）材質特征，模型本身的顏色，是強反射的金屬，還是漫反射的布料（3）光線，光源是點狀的嗎，顏色和強度如何，最后，原生 3D 模型的資料相對較少，僅游戲、影視、數字孿生等領域有少量積累，遠不如已存在了數千年、可以以非數字化形態存在的影像那么多，例如 ImageNet 中就包含了超過 1400 萬張圖片，

用計算機幫助創作者這件事，游戲界已經探索了四十多年，用演算法生成的游戲內容首次出現在1981 年的游戲 Rogue（Toy and Wichman）中，地圖隨機，每局不同，3D 時代，程式化生成技術大量應用于美術制作，因為其需要巨額時間和人力成本，以 2018 年發售的游戲《荒野大鏢客 2》為例，先后有六百余名美術參與，歷經 8 年才完成約 60 平方公里的虛擬場景，

程式化生成在效能和可控度上介于純手工和 AIGC 之間，例如2016 年發布、主打宇宙探險的獨立游戲《無人深空》（No Man's Sky），用 PCG 構造了一系列生成規則和引數，聲稱能創造出 1840 億億顆不同的星球，每個星球都有形態各異的環境和生物，

游戲《無人深空》中使用程式化生成的海洋生物示例

2022 年的 Epic 打造的互動內容《黑客帝國：覺醒》在最新虛幻引擎和程式化生成加持下，打造出栩栩如生、高度復雜的未來城市，共包括 700 萬個美術資產，包括 7000 棟建筑、38000 輛可駕駛的車和超過 260 公里的道路，其中每個資產由數百萬個多邊形組成，

Epic 使用虛幻 5 引擎和程式化生成技術高效制作《黑客帝國：覺醒》中的龐大城市

程式化生成和 AI 的結合更成為熱門學術領域，每年人工智能與游戲的頂級學會——IEEE Transactions on Games 都會為程式化生成開辟專門的討論板塊，劇情、關卡、場景、角色，每個板塊都有大量的研究和實踐成果在推進，

思考—創作到底是什么

關于創作，有一句經典論斷——天才是 99%的汗水，加上 1%的靈感，愛迪生認為那 1%的靈感最重要，AIGC 則向我們證明，99%的汗水能產生質變，善用 AI 的創作者，或許才是“完全體”，

首先，AI 和自然人的創作程序，沒有那么大的差異：一部作品的誕生，一個作者的成長，都建立在大量對經典的觀察、參照、模仿、提煉基礎上，并非一蹴而就，而創新往往也有跡可循，或者是對主流的揚棄甚至反叛，或者是對多種元素的加成和融合，因此，如知識產權制度，也是在鼓勵創作的基礎上，給予貢獻者以對等的獎勵，而非一刀切地拒絕模仿，

其次，人作為創作核心這一點沒有變化：AI 面向任務，人類面向創造，一方面，人類資訊系統紛繁復雜，遠非幾個“prompt”輸入就能概括，正如一位網友說，AI 代替不了我，因為它理解不了老板的需求，沒有五年經驗的乙方，也解讀不來甲方口中的“要大氣”，另一方面，AI 成長的養料仍然由人提供，AI 更可靠可信也依賴著人的使用與反饋，“斷奶”于 2021 年的 ChatGPT 可不知道 2022 年世界杯的戰果，

從實用的視角，AIGC 將賦予普通用戶更多的創作權力和自由，從 PGC、UGC 到 AIGC 的發展路徑可見，普通人越來越多的參與到創作之中，數字內容不僅呈現數量上的指數級增長，型別和風格也走向了更加包容和多元的生態，未來，用戶可以使用手機拍攝的一系列照片，通過 AIGC 工具生成一個可以使用的 3D 渲染圖，采用這種創造內容的方式，我們可以想象未來的數字空間將不再完全由開發人員構建，而是利用 AIGC 回應用戶的輸入按需生成，

AIGC 工具對專業人士的杠桿效應更顯著：如果對普通人的增益是從 0 到 1，對專業人士則可能是從 1 到 10，使他們能集中精力處理更頂層、更有價值的事情：比如立意，風格，構圖，元素組合和后處理，或者怎樣在前期制作盡可能多樣的 demo 來找尋更好的方案，運用 AI 也正成為新的職業能力，善于“施咒”的大觸們前赴后繼地開發著 AI 近乎無限的潛能，并社交平臺上留下讓人望洋興嘆的作品，

更長期看，創作和藝術的歷史是螺旋上升的歷史，是某一種風格數量極大豐富、質量巔峰造極之后的突破、突變與跨界，也是一個時代精神情感的凝結，我們有理由相信，AIGC 變革下創新依舊存在，甚至會加速發展，

參考：

NVIDIA 研究團隊構建 AI 模型，為虛擬世界填充 3D 物體和人物，NVIDIA 英偉達微信公眾號，

程式生成內容 PCG 十年，過去，趨勢，未來 - Sindragosa 的文章 - 知乎

https://zhuanlan.zhihu.com/p/388666777

【譯】無人深空的程式化生成 - 大雄的文章 - 知乎

https://zhuanlan.zhihu.com/p/82758631

開放世界技術整理 #40 黑客帝國覺醒：程式化生成城市 - 王程的文章 - 知乎

https://zhuanlan.zhihu.com/p/493739360

[2] 2019 年以來，韓國政府先后投入 66 億、14 億韓元，用于振興游戲產業和支持移動游戲出海，

[3] 對未在韓設定經營場所但通過 Google Play 等在韓開展業務的，直接由 Google 征稅 10%；沒有實際辦公場所的，需書面提交代理人資訊，否則將會被處以最高 5 億韓元、五年以上有期徒刑的處罰，

作者：胡璇 騰訊研究院高級研究員

胡曉萌 騰訊研究院研究員、博士后

本文來自博客園，作者：古道輕風，轉載請注明原文鏈接：https://www.cnblogs.com/88223100/p/How-AIGC-Innovates-Digital-Content-Creation-After-ChatGPT.html

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/553565.html

標籤：其他

上一篇：ChatGPT之后，AIGC如何革新數字內容創作

下一篇：返回列表