在本教程中,我們將學習如何使用Python和FFmpeg這將使我們能夠把錄音變成很酷的視頻,可以很容易地在社交媒體上分享,
在本教程的末尾,我們將把聲音錄制轉換成類似于以下內容的視頻:

教程要求
要遵循本教程,您需要以下組件:
- 要轉換為視頻的一個或多個語音記錄,可編程語音記錄存盤在您的兩個帳戶作業偉大的本教程,
- Python3.6+已安裝,
- FFmpeg安裝了4.3.1或更高版本,
創建專案結構
在本節中,我們將創建我們的專案目錄,在這個目錄中,我們將創建子目錄,在那里我們將存盤將在本教程中使用的記錄、影像、字體和視頻,最后,我們將創建Python檔案,該檔案將包含允許我們使用FFmpeg創建和編輯視頻的代碼,
打開終端視窗并輸入以下命令以創建專案目錄:
mkdir twilio-turn-recording-to-video
cd twilio-turn-recording-to-video
使用以下命令創建四個子目錄:
mkdir images
mkdir fonts
mkdir videos
mkdir recordings
這個images目錄是我們將存盤我們的視頻背景影像的地方,下載這幅影像,并將其存盤在images具有名稱的目錄bg.png,此映像最初是從Freepik.com .
在fonts目錄中存盤用于在視頻中寫入文本的字體檔案,下載這種字體,并將其存盤在fonts具有名稱的目錄LeagueGothic-CondensedRegular.otf,此字體最初是從Fontsquirrel.com .
這個videos目錄將包含視頻和影片,將添加到背景影像之上,下載這段視頻中有Twilio標志的旋轉記錄,并將其存盤在videos具有名稱的目錄spinningRecord.mp4,此視頻中使用的源影像是從Flaticon.com .
這個recordings目錄是我們將存盤將變成視頻的聲音記錄的地方,將您自己的一個或多個語音記錄添加到此目錄中,
現在我們已經創建了所需的所有目錄,打開您最喜歡的代碼編輯器并創建一個名為main.py在專案的頂層目錄中,此檔案將包含負責將我們的錄音轉換為視頻的代碼,
如果您不想遵循本教程的每一步,您可以獲得完整的專案源代碼這里 .
將音頻檔案轉換為視頻
在本節中,我們將添加允許我們將錄音轉換為顯示錄音聲波的視頻的代碼,
我們要用FFmpeg從音頻檔案生成視頻,因此,為了從Python呼叫FFmpeg和相關程式,我們將使用python的subprocess模塊,
運行命令
在main.py檔案:
import subprocess
def run_command(command):
p = subprocess.run(
command, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT
)
print('Done!!!')
print('stdout:\n{}'.format(p.stdout.decode()))
return p.stdout.decode().strip()
在上面的代碼塊中,我們匯入了subprocess模塊并創建了一個run_command()功能,顧名思義,這個函式負責運行在引數中傳遞的命令,當命令完成時,我們列印輸出并將其回傳給呼叫者,
獲取記錄的持續時間
下面添加以下代碼run_command()職能:
def get_rec_duration(rec_name):
rec_path = "./recordings/{}".format(rec_name)
command = "ffprobe -i {rec_path} -show_entries format=duration -v quiet \
-of csv=\"p=0\"".format(rec_path=rec_path)
rec_duration = run_command(command)
print("rec duration", rec_duration)
return rec_duration
在這里,我們創建了一個名為get_rec_duration(),此函式負責檢索記錄的持續時間,函式接收一個記錄名稱(rec_name)作為引數,它以記錄目錄的名稱作為前面,并存盤在rec_path區域變數
這個ffprobe程式是FFmpeg的一部分,用于創建命令字串以獲取錄制的持續時間,我們稱之為run_command()函式,并將回傳的值存盤在rec_duration .
最后,列印并回傳所獲得的錄制時間,
需要記錄持續時間來指定將由其生成的視頻的持續時間是相同的,
將音頻轉換為視頻
下面添加以下代碼get_rec_duration()職能:
def turn_audio_to_video(rec_name, rec_duration):
rec_path = "./recordings/{}".format(rec_name)
bg_image_path = "./images/bg.png"
video_name = "video_with_sound_waves.mp4"
command = 'ffmpeg -y -i {rec_path} -loop 1 -i {bg_image_path} -t {rec_duration} \
-filter_complex "[0:a]showwaves=s=1280x150:mode=cline:colors=00e5ff[fg]; \
drawbox=x=0:y=285:w=1280:h=150:color=black@0.8:t=fill[bg]; \
[bg][fg]overlay=format=auto:x=(W-w)/2:y=(H-h)/2 " \
-map 0:a -c:v libx264 -preset fast -crf 18 -c:a aac \
-shortest ./videos/{video_name}'.format(
rec_path=rec_path,
bg_image_path=bg_image_path,
rec_duration=rec_duration,
video_name=video_name,
)
print(video_name)
run_command(command)
return video_name
這個turn_audio_to_video()功能將將錄音轉換為顯示錄音聲波的視頻,函式以記錄名稱(rec_name)和錄制時間(rec_duration ).
從音頻生成視頻的ffmpeg命令使用記錄路徑(rec_path),指向背景影像的路徑(bg_image_path),以及視頻的輸出檔案名(video_name ).
讓我們仔細看看FFmpeg命令:
ffmpeg -y -i {rec_path} -loop 1 -i {bg_image_path} -t {rec_duration} \
-filter_complex \"[0:a]showwaves=s=1280x150:mode=cline:colors=00e5ff[fg]; \
drawbox=x=0:y=285:w=1280:h=150:color=black@0.8:t=fill[bg]; \
[bg][fg]overlay=format=auto:x=(W-w)/2:y=(H-h)/2 \" \
-map 0:a -c:v libx264 -preset fast -crf 18 -c:a aac -shortest ./videos/{video_name}
這個-y告訴ffmpeg,如果輸出檔案存在于磁盤上,則重寫它,
這個-i選項指定輸入,在這種情況下,我們有兩個輸入檔案,記錄檔案,rec_path,我們使用的影像有一個背景,存盤在bg_image_path .
這個-loop選項通過重復(回圈)輸入檔案生成視頻,在這里,我們正在回圈我們的影像輸入bg_image_path,默認值是0(不要回圈),所以我們把它設為1(回圈)在所有視頻幀中重復此影像,
這個-t選項指定持續時間(以秒為單位),或使用"hh:mm:ss[.xxx]"語法,這里我們使用的是錄制時間(rec_duration值來設定輸出視頻的持續時間,
-filter_complex允許我們定義一個復雜的過濾器,一個輸入和/或輸出的任意數量,這是一個復雜的選項,需要一些引數,下面將討論,
首先,我們使用showwaves過濾器以轉換語音記錄,參考為[0:a],到視頻輸出,這個s引數用于指定輸出的視頻大小,我們將其設定為1280x150,這個mode引數定義如何繪制音頻波形,可用的值是:point , line , p2p,和cline,這個colors引數指定波形的顏色,波形圖被指定為標簽,[fg] .
我們使用drawbox過濾器,以繪制一個彩色框在我們的背景影像頂部,以幫助波形突出,這個x and y引數指定框的左上角坐標,而w and h設定它的寬度和高度,這個color引數將框的顏色配置為black不透明度為80%,這個t引數設定框邊框的厚度,通過將值設定為fill我們創造了一個堅固的盒子,
要完成此篩選器的定義,我們使用overlay將波形繪圖放在黑匣子頂部,這個overlay過濾器配置為format,它自動設定像素格式,以及x and y,指定疊加將放置在視頻幀中的坐標,我們用一些數學來說明x和y應該放在我們的視頻中心,
這個-map選項用于選擇輸入中的哪些流應包括或排除在輸出中,我們選擇將記錄的所有流添加到輸出視頻中,
這個-c:v選項用于用特定的編解碼器對視頻流進行編碼,我們告訴FFmpeg使用libx264編碼器,
這個-preset選項選擇一組選項,這些選項將提供一定的編碼速度與壓縮比,我們使用的是fast在此選項,但請隨時更改預設為一個較慢(更好的質量)或更快(較低的質量),如果你愿意的話,
這個-crf選項代表恒速因子,速率控制決定每個幀將使用多少位,這將決定檔案大小和輸出視頻的質量,推薦值18以獲得視覺無損質量,
這個-c:a選項用于用特定的編解碼器對音頻流進行編碼,我們用AAC編解碼器,
這個-shortest選項告訴FFmpeg在最短的輸入流結束時停止寫入輸出,
這個./videos/{video_name}選項指定輸出檔案的路徑,
如果您是好奇的話,下面是上面討論的所有FFmpeg波形模式所做的事情,以及它們的外觀,
Point為每個樣本繪制一個點:

Line為每個樣本繪制一條垂直線:

P2p為每個樣本繪制一個點,并在它們之間畫一條線:

Cline為每個樣本繪制一條中心垂直線,這是我們在本教程中使用的

下面添加以下代碼turn_audio_to_video()職能:
def main():
rec_name = "rec_1.mp3"
rec_duration = get_rec_duration(rec_name)
turn_audio_to_video(rec_name,rec_duration)
main()
在這個新引入的代碼中,我們有一個名為main(),在其中,我們將記錄名存盤在一個名為rec_name,您應該更新這一行,以包括您自己的語音記錄檔案的名稱,
在那之后,我們稱之為get_rec_duration()函式以獲取錄制時間,
然后,我們稱之為turn_audio_to_video函式,并將回傳的值存盤在名為video_with_sound_waves .
最后,我們稱之為main()函式來運行整個行程,請記住替換rec_name變數,其中包含要處理的錄音的名稱,
回到終端,運行以下命令生成視頻:
python main.py
查找名為video_with_sound_waves.mp4在videos目錄,打開它,您將看到類似于以下內容的內容:

在背景上添加一個視頻
在本節中,我們將在生成的視頻的左下角添加一個旋轉記錄的視頻,我們要添加的視頻存盤在名為spinningRecord.mp4在videos目錄,

回傳到代碼編輯器,打開main.py檔案,并將以下代碼添加到turn_audio_to_video()職能:
def add_spinning_record(video_name, rec_duration):
video_path = "./videos/{}".format(video_name)
spinning_record_video_path = "./videos/spinningRecord.mp4"
new_video_name = "video_with_spinning_record.mp4"
command = 'ffmpeg -y -i {video_path} -stream_loop -1 -i {spinning_record_video_path} \
-t {rec_duration} -filter_complex "[1:v]scale=w=200:h=200[fg]; \
[0:v] scale=w=1280:h=720[bg], [bg][fg]overlay=x=25:y=(H-225)" \
-c:v libx264 -preset fast -crf 18 -c:a copy \
./videos/{new_video_name}'.format(
video_path=video_path,
spinning_record_video_path=spinning_record_video_path,
rec_duration=rec_duration,
new_video_name=new_video_name,
)
print(new_video_name)
run_command(command)
return new_video_name
在這里,我們創建了一個名為add_spinning_record(),此函式將負責添加spinningRecord.mp4視頻頂部顯示聲波,它以先前生成的視頻的名稱作為引數(video_name)和錄制時間(rec_duration ).
此函式還運行FFmpeg,下面是詳細的命令:
$ ffmpeg -y -i {video_path} -stream_loop -1 -i {spinning_record_video_path} \
-t {rec_duration} -filter_complex \"[1:v]scale=w=200:h=200[fg]; \
[0:v] scale=w=1280:h=720[bg], [bg][fg]overlay=x=25:y=(H-225)\" \
-c:v libx264 -preset fast -crf 18 -c:a copy ./videos/{new_video_name}
上面的命令有以下選項:
這個-y , -t , -c:v , -preset,和-crf選項與生成音頻波形的FFmpeg命令中的選項相同,
這個-i選項之前也使用過,但在本例中,我們有兩個視頻作為輸入檔案,在前一步中生成的視頻檔案和旋轉記錄視頻檔案,
這個-stream_loop選項允許我們設定輸入流被回圈的次數,值0表示禁用回圈,而-1表示無限回圈,我們將旋轉記錄視頻設定為無限回圈,這將使FFmpeg無限期地對輸出視頻進行編碼,但由于我們還指定了輸出視頻的持續時間,FFmpeg將在視頻到達此持續時間時停止編碼,
這個-filter_complex選項:也具有與前面相同的功能,但是這里有兩個視頻作為輸入檔案,這是在上一節中創建的視頻,[0:v]還有旋轉錄像[1:v] .
過濾器首先使用scale若要調整旋轉記錄視頻的大小,使其具有200x200維,并將[fg]標簽,然后,我們使用scale再次篩選,將上一節中創建的視頻設定為1280x720大小,[bg]標簽,最后,我們使用overlay過濾器,將旋轉記錄視頻放在上一節中創建的視頻之上,在坐標中,x=25,和y=H-225(h代表視頻高度),
這個-c:a選項也在上一節中引入,但在本例中,我們使用的是特殊值,copy若要告訴ffmpeg復制源視頻中的音頻流而不重新編碼它,請執行以下操作,
命令的最后一部分,./videos/{new_video_name}設定輸出檔案的路徑,
替換main()函式,它將呼叫添加到add_spinning_record()職能:
def main():
rec_name = "rec_1.mp3"
rec_duration = get_rec_duration(rec_name)
video_with_sound_waves = turn_audio_to_video(rec_name, rec_duration)
add_spinning_record(video_with_sound_waves, rec_duration)
在終端中運行以下命令生成視頻:
python main.py
查找名為video_with_spinning_record.mp4在videos目錄,打開它,您將看到類似于以下內容的內容:

向視頻中添加文本
在本節中,我們將在視頻的頂部添加一個標題,作為其中的一部分,我們將學習如何使用FFmpeg繪制文本,更改顏色、大小、字體和位置,
回傳到代碼編輯器,打開main.py檔案,并將以下代碼添加到add_spinning_record職能:
def add_text_to_video(video_name):
video_path = "./videos/{}".format(video_name)
new_video_name = "video_with_text.mp4"
font_path = "./fonts/LeagueGothic-CondensedRegular.otf"
command = "ffmpeg -y -i {video_path} -vf \"drawtext=fontfile={font_path}: \
text='Turning your Twilio voice recordings into videos':fontcolor=black: \
fontsize=90:box=1:boxcolor=white@0.5 \
:boxborderw=5:x=((W/2)-(tw/2)):y=100\" \
-c:a copy ./videos/{new_video_name}".format(
video_path=video_path,
font_path=font_path,
new_video_name=new_video_name
)
print(new_video_name)
run_command(command)
return new_video_name
在這個函式中,我們創建了一個名為add_text_to_video()呼叫一個新的Ffmpeg命令來繪制文本,讓我們仔細看看FFmpeg命令:
ffmpeg -y -i {video_path} -vf \"drawtext=fontfile={font_path}: \
text='Turning your Twilio voice recordings into videos':fontcolor=black: \
fontsize=90:box=1:boxcolor=white@0.5:boxborderw=5:x=((W/2)-(tw/2)):y=100\" \
-c:a copy ./videos/{new_video_name}
這個-y,以及-c:a選項的使用與以前完全相同,
這個-i選項,它定義輸入,現在只有一個輸入檔案,即上一節中生成的視頻檔案,
這個-vf選項允許我們創建一個簡單的filtergraph用它過濾流,這里我們使用drawtext篩選器將文本繪制到視頻的頂部,并包含多個引數:fontfile是用于繪制文本的字體檔案,text定義要繪制的文本(根據您的喜好隨意更改它),fontcolor將文本顏色設定為黑色,fontsize設定文本大小,box若要啟用文本周圍的框,boxcolor若要將此框的顏色設定為white有50%的不透明度,boxborderw若要設定邊框的寬度,請執行以下操作x and y若要設定要列印文本的視頻中的位置,請執行以下操作,我們用一點數學來畫以文本為中心的文字,
這個./videos/{new_video_name}選項的末尾設定輸出檔案,就像前面的FFmpeg命令一樣,
替換main()函式具有以下版本,該版本添加標題步驟:
def main():
rec_name = "rec_1.mp3"
rec_duration = get_rec_duration(rec_name)
video_with_sound_waves = turn_audio_to_video(rec_name, rec_duration)
video_with_spinning_record = add_spinning_record(video_with_sound_waves, rec_duration)
video_with_text = add_text_to_video(video_with_spinning_record)
回傳到您的終端,并運行以下命令生成一個標題為:
python main.py
查找名為video_with_text.mp4在videos目錄,打開它,您將看到類似于以下內容的內容:

結語
在本教程中,我們學習了如何使用FFmpeg中的一些高級選項將語音記錄轉換為可以在社交媒體上共享的視頻,我希望這能鼓勵你更多地了解FFmpeg,
整個應用程式的代碼可在以下存盤庫中獲得:原始碼
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/340566.html
標籤:其他
上一篇:Web前端---HTML+CSS+JS實作的貪吃蛇游戲
下一篇:libavdevice.so.58: cannot open shared object file: No such file or directory
