解放原畫師！Wav2Lip 用 AI 聽音同步人物口型-有解無憂

By 超神經

內容提要：「眼見為實」在 AI 技術面前已經失效了，換臉、對口型的技術層出不窮，效果越來越逼真，今天要介紹的 Wav2Lip 模型，只需一段原始視頻與目標音頻，就可將其合二為一，

關鍵詞：唇形同步語音信號

近幾年，好萊塢影片屢屢拿下超過 10 億美元的票房，《瘋狂動物城》、《冰雪奇緣》等等，它們個個品質過硬，單拿口型這一點來說，就非常嚴謹，影片人物口型與真人口型幾乎一致，

而實作這樣的效果，其實需要經歷非常復雜的程序，需要耗費巨大的人力物力，所以，很多影片制作方為了節省成本，只采用比較簡單的口型示意，

現在，AI 正在努力減輕原畫師的作業，來自印度海德拉巴大學和英國巴斯大學的團隊，今年發表在 ACM MM2020 的一篇論文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》，提出一個叫做 Wav2Lip 的 AI 模型，只需一段人物視頻和一段目標語音，就能讓其合二為一，配合得天衣無縫，

對口型大法 Wav2Lip，效果如此突出

要說對口型的技術，此前其實已經有很多，甚至在基于深度學習的技術出現之前，就有一些技術使角色的嘴唇形狀與實際的語音信號相匹配，

但這個 Wav2Lip 在一眾方法中，顯示出了絕對優勢，現有的其它方法，主要是基于靜態影像，來輸出與目標語音匹配的唇形同步視頻，但對于動態的、在講話的人物，唇形同步往往效果不佳，

而 Wav2Lip 則可以直接將動態的視頻，進行唇形轉換，輸出與目標語音相匹配的視頻結果，

此外，不僅是視頻，還能給動圖對口型，從此以后表情包又豐富了！

作者選取部分動圖匹配口型

人工評估表明，與現有方法相比，Wav2Lip 生成的視頻，在 90％以上的時間中優于現有方法，

模型實際效果究竟如何？超神經進行了一番測驗，以下視頻展現了官方 demo 的運行效果，輸入素材分別選取了官方提供的測驗素材，以及超神經選取的中、英文測驗素材，

輸入的原視頻中人物均未講話

經過 AI 模型操作，實作了人物口型與輸入語音同步

我們看到，官方 demo 的影片視頻中，效果堪稱完美，在超神經真人測驗中，除了嘴唇稍有變形和抖動之外，整體唇形同步效果還是比較準確的，

教程已出，三分鐘學會

看到這里，你是不是也躍躍欲試了呢？如果你已經有了一個大膽的想法，那么不如從現在就開始動手吧，

目前，該專案已在 GitHub 開源，作者提供了互動演示、Colab notebook 以及完整的訓練代碼，推斷代碼和預訓練模型以及教程，

專案具體資訊如下：

專案名稱：Wav2Lip

GitHub 地址：

https://github.com/Rudrabha/Wav2Lip

專案運行環境：

語言：Python 3.6+
視頻處理程式：ffmpeg

人臉檢測預訓練模型下載：

https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth

除了準備以上環境，還需要下載安裝以下軟體包：

librosa==0.7.0
numpy==1.17.1
opencv-contrib-python>=4.2.0.34
opencv-python==4.1.0.25
tensorflow==1.12.0
torch==1.1.0
torchvision==0.3.0
tqdm==4.45.0
numba==0.48

不過，你也可以不用準備這些繁瑣的程式，僅需準備一張圖片/一段人物視頻（CGI 人物亦可） + 一段音頻（合成音頻亦可），就可在國內的機器學習算力容器服務平臺，直接一鍵運行，

傳送門：https://openbayes.com/console/openbayes/containers/EiBlCZyh7k7

目前，該平臺還能薅羊毛，每周都贈送 vGPU 的使用時長，人人都可輕松完成教程，

完成整個教程僅需要 5 分鐘

該模型有 Wav2Lip，Wav2Lip+GAN，以及 Expert Discriminator 三種權重，其中，后兩者的效果都明顯優于單獨使用 Wav2Lip 模型，本教程中使用的權重即 Wav2Lip+GAN，

該模型作者強調，其開放源代碼的所有結果僅應用于研究/學術/個人目的，模型基于 LRS2（Lip Reading Sentences 2）資料集訓練，因此嚴禁任何形式的商業用途，

為了避免技術被濫用，研究者還強烈建議，使用 Wav2Lip 的代碼和模型創建的任何內容都必須標明是合成的，

背后關鍵技術：唇形同步辨別器

Wav2Lip 是如何聽音頻對口型這件事，做到了如此精確？

據介紹，實作突破的關鍵在于，研究者采用了唇形同步判別器，以強制生成器持續產生準確而逼真的唇部運動，

此外，該研究通過在鑒別器中，使用多個連續幀而不是單個幀，并使用視覺質量損失（而不僅僅是對比損失）來考慮時間相關性，從而改善了視覺質量，

作者使用一個預先訓練的鑒別器

及時準確地檢測唇形同步錯誤

研究者表示，他們的 Wav2Lip 模型幾乎是萬能的，適用于任何人臉、任何語音、任何語言，對任意視頻都能達到很高的準確率，可以無縫地與原始視頻融合，還可以用于轉換影片人臉，并且匯入合成語音也是可行的，

可以想象，這個神器可能又會造就一波鬼畜視頻了……

論文地址：

https://arxiv.org/pdf/2008.10010.pdf

Demo 地址：

https://bhaasha.iiit.ac.in/lipsync/

—— 完 ——

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/238492.html

標籤：AI

上一篇：沒有 try-catch，該如何處理 Go 錯誤例外？

下一篇：由于不知道Java執行緒池的bug,某程式員患撈?