主頁 >  其他 > 聲音克隆,精致細膩,人工智能AI打造國師“一鏡到底”鬼畜視頻,基于PaddleSpeech(Python3.10)

聲音克隆,精致細膩,人工智能AI打造國師“一鏡到底”鬼畜視頻,基于PaddleSpeech(Python3.10)

2023-06-15 08:21:16 其他

電影《滿江紅》上映之后,國師的一段采訪視頻火了,被無數段子手惡搞做成鬼畜視頻,誠然,國師的這段采訪文本相當經典,他生動地描述了一個牛逼吹完,大家都信了,結果發現自己沒辦法完成最后放棄,隨后瘋狂往回找補的程序,

最離譜的是,他這段采訪用極其豐富的細節描述了一個沒有發生且沒有任何意義的事情,堪比單口相聲,形成了一種荒誕的美感,毫無疑問,《滿江紅》最大的貢獻就是這個采訪素材了,

往這個文本里套內容并沒有什么難度,小學生也可以,但配音是一個瓶頸,也就是說,普通人想染指鬼畜視頻還是有一定門檻的,這個領域往往是專業配音演員的天下,但今時非比往日,人工智能AI技術可以讓我們基于PaddleSpeech克隆出精致細膩的國師原聲,普通人也可以玩轉搞笑配音,

資料集準備和清洗

我們的目的是克隆國師的聲音,那么就必須要有國師的聲音樣本,這里的聲音樣本和使用so-vits-svc4.0克隆歌聲一樣,需要相對“干凈”的素材,所謂干凈,即沒有背景雜音和空白片段的音頻素材,也可以使用國師采訪的原視頻音軌,

需要注意的是,原視頻中女記者的提問音軌需要洗掉掉,否則會影響模型的推理效果,

隨后,將訓練集資料進行切分,主要是為了防止爆顯存問題,可以手動切為長度在5秒到15秒的音軌切片,也可以使用三方庫進行切分:

git clone https://github.com/openvpi/audio-slicer.git

隨后撰寫腳本:

import librosa  # Optional. Use any library you like to read audio files.  
import soundfile  # Optional. Use any library you like to write audio files.  
  
from slicer2 import Slicer  
  
audio, sr = librosa.load('國師采訪.wav', sr=None, mono=False)  # Load an audio file with librosa.  
slicer = Slicer(  
    sr=sr,  
    threshold=-40,  
    min_length=5000,  
    min_interval=300,  
    hop_size=10,  
    max_sil_kept=500  
)  
chunks = slicer.slice(audio)  
for i, chunk in enumerate(chunks):  
    if len(chunk.shape) > 1:  
        chunk = chunk.T  # Swap axes if the audio is stereo.  
    soundfile.write(f'master_voice/{i}.wav', chunk, sr)  # Save sliced audio files with soundfile.

注意這里min_length的單位是毫秒,

由于原始視頻并未有背景音樂,所以分拆之前我們不用拆分前景音和背景音,如果你的素材有背景音樂,可以考慮使用spleeter來進行分離,具體請參照:人工智能AI庫Spleeter免費人聲和背景音樂分離實踐(Python3.10),這里不再贅述,

如果對原視頻的存在的雜音不太滿意,可以通過noisereduce庫進行降噪處理:

from scipy.io import wavfile  
import noisereduce as nr  
# load data  
rate, data = https://www.cnblogs.com/v3ucn/archive/2023/06/14/wavfile.read("1.wav")  
# perform noise reduction  
reduced_noise = nr.reduce_noise(y=data, sr=rate)  
wavfile.write("1_reduced_noise.wav", rate, reduced_noise)

訓練集數量最好不要低于20個,雖然音頻訓練更適合小樣本,但數量不夠也會影響模型質量,

最后我們就得到了一組資料集:

D:\work\speech\master_voice>dir  
 驅動器 D 中的卷是 新加卷  
 卷的序列號是 9824-5798  
  
 D:\work\speech\master_voice 的目錄  
  
2023/06/13  17:05    <DIR>          .  
2023/06/13  20:42    <DIR>          ..  
2023/06/13  16:42           909,880 01.wav  
2023/06/13  16:43         2,125,880 02.wav  
2023/06/13  16:44         1,908,280 03.wav  
2023/06/13  16:45         2,113,080 04.wav  
2023/06/13  16:47         2,714,680 05.wav  
2023/06/13  16:48         1,857,080 06.wav  
2023/06/13  16:49         1,729,080 07.wav  
2023/06/13  16:50         2,241,080 08.wav  
2023/06/13  16:50         1,959,480 09.wav  
2023/06/13  16:51         1,921,080 10.wav  
2023/06/13  16:52         1,921,080 11.wav  
2023/06/13  16:52         1,677,880 12.wav  
2023/06/13  17:00         1,754,680 13.wav  
2023/06/13  17:01         2,202,680 14.wav  
2023/06/13  17:01         2,023,480 15.wav  
2023/06/13  17:02         1,793,080 16.wav  
2023/06/13  17:03         2,586,680 17.wav  
2023/06/13  17:04         2,189,880 18.wav  
2023/06/13  17:04         2,573,880 19.wav  
2023/06/13  17:05         2,010,680 20.wav  
              20 個檔案     40,213,600 位元組  
               2 個目錄 399,953,739,776 可用位元組

當然,如果懶得準備訓練集,也可以下載我切分好的,大家豐儉由己,各取所需:

鏈接:https://pan.baidu.com/s/1t5hE1LLktIPoyF70_GsH0Q?pwd=3dc6   
提取碼:3dc6

至此,資料集就準備好了,

云端訓練和推理

資料集準備好了,我們就可以進行訓練了,在此之前,需要配置PaddlePaddle框架,但這一次,我們選擇在云端直接進行訓練,如果想要本地部署,請移步:聲音好聽,顏值能打,基于PaddleGAN給人工智能AI語音模型配上動態畫面(Python3.10),

首先進入Paddle的云端專案地址:

https://aistudio.baidu.com/aistudio/projectdetail/6384839

隨后點擊啟動環境,注意這里盡量選擇顯存大一點的算力環境:

這里的機器有點類似Google的colab,原則上免費,通過消耗算力卡來進行使用,

成功啟動環境之后,需要安裝依賴:

# 安裝實驗所需環境  
!bash env.sh  
!pip install typeguard==2.13

由于機器是共享的,一旦環境關閉,再次進入還需要再次進行安裝操作,

安裝好paddle依賴后,在左側找到檔案 untitled.streamlit.py ,雙擊檔案開啟,隨后點擊web按鈕,進入web頁面,

接著在web頁面中,點擊Browse files按鈕,將之前切分好的資料集上傳到服務器內部,

接著點擊檢驗資料按鈕,進行資料集的校驗,

最后輸入模型的名稱以及訓練輪數,然后點擊訓練即可:

以TeslaV100為例子,20個檔案的資料集200輪訓練大概只需要五分鐘就可以訓練完畢,

模型默認保存在專案的checkpoints目錄中,檔案名稱為master,

點擊匯出模型即可覆寫老的模型:

最后就是線上推理:

這里預制了三種聲碼器【PWGan】【WaveRnn】【HifiGan】, 三種聲碼器效果和生成時間有比較大的差距,這里推薦折中的PWGan聲碼器,因為畢竟是線上環境,每停留一個小時都會消耗算力點數,

合成完畢后,就可以拿到國師的克隆語音了,

結語

線上環境配置起來相對簡單,但要記住,完成克隆語音任務后,需要及時關倍訓境,防止算力點數的非必要消耗,最后奉上國師的音色克隆模型,與君共觴:

鏈接:https://pan.baidu.com/s/1nKOPlI7P_u_a5UGdHX76fA?pwd=ygqp   
提取碼:ygqp 

克隆音色版本的國師鬼畜視頻已經上傳到Youtube(B站),歡迎諸君品鑒和臻賞,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/555208.html

標籤:其他

上一篇:萬物云原生下的服務進化

下一篇:返回列表

標籤雲
其他(161012) Python(38230) JavaScript(25495) Java(18240) C(15237) 區塊鏈(8270) C#(7972) AI(7469) 爪哇(7425) MySQL(7251) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4593) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2435) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1984) 功能(1967) HtmlCss(1966) Web開發(1951) C++(1940) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 聲音克隆,精致細膩,人工智能AI打造國師“一鏡到底”鬼畜視頻,基

    電影《滿江紅》上映之后,國師的一段采訪視頻火了,被無數段子手惡搞做成鬼畜視頻,誠然,國師的這段采訪文本相當經典,他生動地描述了一個牛逼吹完,大家都信了,結果發現自己沒辦法完成最后放棄,隨后瘋狂往回找補的程序。 最離譜的是,他這段采訪用極其豐富的細節描述了一個沒有發生且沒有任何意義的事情,堪比單口相聲 ......

    uj5u.com 2023-06-15 08:21:16 more
  • 萬物云原生下的服務進化

    在萬物云原生下的環境下,Java的市場份額也因耗資源、啟動慢等缺點,導致在云原生環境里被放大而降低,通過這篇文章,讀者可以更好地了解如何在云原生環境下通過升級相關版本和使用GraalVM打出原生鏡像到方式,優化Java應用的性能和資源利用率,使Java應用更好地適應云原生環境。 ......

    uj5u.com 2023-06-15 08:21:02 more
  • 利用 PHP 特性繞 WAF 測驗

    在測驗繞過 WAF 執行遠程代碼之前,首先構造一個簡單的、易受攻擊的遠程代碼執行腳本。這個腳本部署在 Cloudflare WAF 和 ModSecurity + OWASP CRS3 之后。 ......

    uj5u.com 2023-06-15 08:20:29 more
  • 618大促|決議平臺、商家和消費者必須面對的三大風險

    618大促再次開啟,各平臺及商家的促銷大戰如火如荼。 2023年618,京東推出百億補貼晚8點5折專區,還有超級新品日、超級直播日,讓消費者逛不停,買不停,省不停。淘寶天貓自然也不示弱。官方表示本屆618是歷史上最大投入的一屆,有6000萬商品參與打折,300萬新品首發,參與商家達145萬。 618 ......

    uj5u.com 2023-06-15 08:20:01 more
  • [AGC055A] ABC Identity 題解

    # [AGC055A] ABC Identity 題解 ## 題目描述 給定長度為 $3n (1 \le n \le 2e5)$ 的序列,其中字母 A,B,C 各有 $n$ 個。 一個合法序列 $T$ 滿足以下條件: - 其長度為 $3k (1 \le k \le n)$。 - $T_1 = T_2 ......

    uj5u.com 2023-06-15 08:19:54 more
  • 自然語言處理 Paddle NLP - 文本語意相似度計算(ERNIE-Gram)

    基于預訓練模型 ERNIE-Gram 實作語意匹配 ## 1. 背景介紹 文本語意匹配任務,簡單來說就是給定兩段文本,讓模型來判斷兩段文本是不是語意相似。 在本案例中以權威的語意匹配資料集 [LCQMC](http://icrc.hitsz.edu.cn/Article/show/171.html) ......

    uj5u.com 2023-06-15 08:19:43 more
  • 建設數字工廠:生產物料齊套檢查的實作方法

    摘要: 本期介紹如何在華為云數字工廠平臺上,通過擴展配置生產工單的資訊模型和邏輯流程模型,實作在生產工單下發前,輕松透視生產物料齊套狀況。 本文分享自華為云社區《數字工廠深入淺出系列(四):生產物料齊套檢查的實作方法》,作者:云起MAE 。 隨著市場個性化需求不斷發展,多品種小批量生產加工模式已經形 ......

    uj5u.com 2023-06-15 08:19:07 more
  • 經典webshell流量特征

    # 開門見山,不說廢話 ## 判斷條件 ```apl 是否符合通信的特征 請求加密的資料和回應包加密的型別一致 是否一直向同一個url路徑發送大量符合特征的請求,并且具有同樣加密的回應包 ``` # 一 、蟻劍 ##### 特征為帶有以下的特殊欄位 ``` 第一個:@ini_set("display ......

    uj5u.com 2023-06-15 08:18:36 more
  • 嘿,不升級CodeGeeX插件,哪來時間摸魚?

    今天,[CodeGeeX 1.1.2](https://codegeex.cn/)版正式在JetBrains IDEs中上線。和VSCode中的[CodeGeeX2.0](https://codegeex.cn/)升級一樣,新版本在JetBrains IDEs中帶來“[Ask CodeGeeX](h ......

    uj5u.com 2023-06-15 08:17:58 more
  • 在MacM1上運行ChatGLM-6B推理

    1. 簡介 ChatGLM 6B是清華大學和智譜合作的一個62億引數的大語言模型。基于清華的GLM模型開發。和Meta的LLaMA模型還不是一種模型。 由于LLaMA缺乏中文語料,中文能力不佳。在中文大模型中,ChatGLM 6B引數較小,運行硬體要求較低。而表現可謂出色。所以這里作為一個基礎模型先 ......

    uj5u.com 2023-06-15 08:17:49 more