By 超神經
內容提要:「眼見為實」在 AI 技術面前已經失效了,換臉、對口型的技術層出不窮,效果越來越逼真,今天要介紹的 Wav2Lip 模型,只需一段原始視頻與目標音頻,就可將其合二為一,
關鍵詞:唇形同步 語音信號
近幾年,好萊塢影片屢屢拿下超過 10 億美元的票房,《瘋狂動物城》、《冰雪奇緣》等等,它們個個品質過硬,單拿口型這一點來說,就非常嚴謹,影片人物口型與真人口型幾乎一致,
而實作這樣的效果,其實需要經歷非常復雜的程序,需要耗費巨大的人力物力,所以,很多影片制作方為了節省成本,只采用比較簡單的口型示意,
現在,AI 正在努力減輕原畫師的作業,來自印度海德拉巴大學和英國巴斯大學的團隊,今年發表在 ACM MM2020 的一篇論文《A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild 》,提出一個叫做 Wav2Lip 的 AI 模型,只需一段人物視頻和一段目標語音,就能讓其合二為一,配合得天衣無縫,
對口型大法 Wav2Lip,效果如此突出
要說對口型的技術,此前其實已經有很多,甚至在基于深度學習的技術出現之前,就有一些技術使角色的嘴唇形狀與實際的語音信號相匹配,
但這個 Wav2Lip 在一眾方法中,顯示出了絕對優勢,現有的其它方法,主要是基于靜態影像,來輸出與目標語音匹配的唇形同步視頻,但對于動態的、在講話的人物,唇形同步往往效果不佳,
而 Wav2Lip 則可以直接將動態的視頻,進行唇形轉換,輸出與目標語音相匹配的視頻結果,
此外,不僅是視頻,還能給動圖對口型,從此以后表情包又豐富了!
作者選取部分動圖匹配口型
人工評估表明,與現有方法相比,Wav2Lip 生成的視頻,在 90% 以上的時間中優于現有方法,
模型實際效果究竟如何?超神經進行了一番測驗,以下視頻展現了官方 demo 的運行效果,輸入素材分別選取了官方提供的測驗素材,以及超神經選取的中、英文測驗素材,
輸入的原視頻中人物均未講話
經過 AI 模型操作,實作了人物口型與輸入語音同步
我們看到,官方 demo 的影片視頻中,效果堪稱完美,在超神經真人測驗中,除了嘴唇稍有變形和抖動之外,整體唇形同步效果還是比較準確的,
教程已出,三分鐘學會
看到這里,你是不是也躍躍欲試了呢?如果你已經有了一個大膽的想法,那么不如從現在就開始動手吧,
目前,該專案已在 GitHub 開源,作者提供了互動演示、Colab notebook 以及完整的訓練代碼,推斷代碼和預訓練模型以及教程,
專案具體資訊如下:
專案名稱:Wav2Lip
GitHub 地址:
https://github.com/Rudrabha/Wav2Lip
專案運行環境:
-
語言:Python 3.6+
-
視頻處理程式:ffmpeg
人臉檢測預訓練模型下載:
https://www.adrianbulat.com/downloads/python-fan/s3fd-619a316812.pth
除了準備以上環境,還需要下載安裝以下軟體包:
-
librosa==0.7.0
-
numpy==1.17.1
-
opencv-contrib-python>=4.2.0.34
-
opencv-python==4.1.0.25
-
tensorflow==1.12.0
-
torch==1.1.0
-
torchvision==0.3.0
-
tqdm==4.45.0
-
numba==0.48
不過,你也可以不用準備這些繁瑣的程式,僅需準備一張圖片/一段人物視頻(CGI 人物亦可) + 一段音頻(合成音頻亦可),就可在國內的機器學習算力容器服務平臺,直接一鍵運行,
傳送門:https://openbayes.com/console/openbayes/containers/EiBlCZyh7k7
目前,該平臺還能薅羊毛,每周都贈送 vGPU 的使用時長,人人都可輕松完成教程,
完成整個教程僅需要 5 分鐘
該模型有 Wav2Lip,Wav2Lip+GAN,以及 Expert Discriminator 三種權重,其中,后兩者的效果都明顯優于單獨使用 Wav2Lip 模型,本教程中使用的權重即 Wav2Lip+GAN,
該模型作者強調,其開放源代碼的所有結果僅應用于研究/學術/個人目的,模型基于 LRS2(Lip Reading Sentences 2)資料集訓練,因此嚴禁任何形式的商業用途,
為了避免技術被濫用,研究者還強烈建議,使用 Wav2Lip 的代碼和模型創建的任何內容都必須標明是合成的,
背后關鍵技術:唇形同步辨別器
Wav2Lip 是如何聽音頻對口型這件事,做到了如此精確?
據介紹,實作突破的關鍵在于,研究者采用了唇形同步判別器,以強制生成器持續產生準確而逼真的唇部運動,
此外,該研究通過在鑒別器中,使用多個連續幀而不是單個幀,并使用視覺質量損失(而不僅僅是對比損失)來考慮時間相關性,從而改善了視覺質量,
作者使用一個預先訓練的鑒別器
及時準確地檢測唇形同步錯誤
研究者表示,他們的 Wav2Lip 模型幾乎是萬能的,適用于任何人臉、任何語音、任何語言,對任意視頻都能達到很高的準確率,可以無縫地與原始視頻融合,還可以用于轉換影片人臉,并且匯入合成語音也是可行的,
可以想象,這個神器可能又會造就一波鬼畜視頻了……
論文地址:
https://arxiv.org/pdf/2008.10010.pdf
Demo 地址:
https://bhaasha.iiit.ac.in/lipsync/
—— 完 ——
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/238492.html
標籤:AI
