在本教程中，我們將學習如何使用Python和FFmpeg這將使我們能夠把錄音變成很酷的視頻，可以很容易地在社交媒體上分享，

在本教程的末尾，我們將把聲音錄制轉換成類似于以下內容的視頻：

教程要求

要遵循本教程，您需要以下組件：

要轉換為視頻的一個或多個語音記錄，可編程語音記錄存盤在您的兩個帳戶作業偉大的本教程，
Python3.6+已安裝，
FFmpeg安裝了4.3.1或更高版本，

創建專案結構

在本節中，我們將創建我們的專案目錄，在這個目錄中，我們將創建子目錄，在那里我們將存盤將在本教程中使用的記錄、影像、字體和視頻，最后，我們將創建Python檔案，該檔案將包含允許我們使用FFmpeg創建和編輯視頻的代碼，

打開終端視窗并輸入以下命令以創建專案目錄：

mkdir twilio-turn-recording-to-video
cd twilio-turn-recording-to-video

使用以下命令創建四個子目錄：

mkdir images
mkdir fonts
mkdir videos
mkdir recordings

這個images目錄是我們將存盤我們的視頻背景影像的地方，下載這幅影像，并將其存盤在images具有名稱的目錄bg.png，此映像最初是從Freepik.com .

在fonts目錄中存盤用于在視頻中寫入文本的字體檔案，下載這種字體，并將其存盤在fonts具有名稱的目錄LeagueGothic-CondensedRegular.otf，此字體最初是從Fontsquirrel.com .

這個videos目錄將包含視頻和影片，將添加到背景影像之上，下載這段視頻中有Twilio標志的旋轉記錄，并將其存盤在videos具有名稱的目錄spinningRecord.mp4，此視頻中使用的源影像是從Flaticon.com .

這個recordings目錄是我們將存盤將變成視頻的聲音記錄的地方，將您自己的一個或多個語音記錄添加到此目錄中，

現在我們已經創建了所需的所有目錄，打開您最喜歡的代碼編輯器并創建一個名為main.py在專案的頂層目錄中，此檔案將包含負責將我們的錄音轉換為視頻的代碼，

如果您不想遵循本教程的每一步，您可以獲得完整的專案源代碼這里 .

將音頻檔案轉換為視頻

在本節中，我們將添加允許我們將錄音轉換為顯示錄音聲波的視頻的代碼，

我們要用FFmpeg從音頻檔案生成視頻，因此，為了從Python呼叫FFmpeg和相關程式，我們將使用python的subprocess模塊，

運行命令

在main.py檔案：

import subprocess


def run_command(command):
    p = subprocess.run(
        command, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT
    )
    print('Done!!!')
    print('stdout:\n{}'.format(p.stdout.decode()))

    return p.stdout.decode().strip()

在上面的代碼塊中，我們匯入了subprocess模塊并創建了一個run_command()功能，顧名思義，這個函式負責運行在引數中傳遞的命令，當命令完成時，我們列印輸出并將其回傳給呼叫者，

獲取記錄的持續時間

下面添加以下代碼run_command()職能：

def get_rec_duration(rec_name):
    rec_path = "./recordings/{}".format(rec_name)

    command = "ffprobe -i {rec_path} -show_entries format=duration -v quiet \
    -of csv=\"p=0\"".format(rec_path=rec_path)

    rec_duration = run_command(command)
    print("rec duration", rec_duration)

    return rec_duration

在這里，我們創建了一個名為get_rec_duration()，此函式負責檢索記錄的持續時間，函式接收一個記錄名稱(rec_name)作為引數，它以記錄目錄的名稱作為前面，并存盤在rec_path區域變數

這個ffprobe程式是FFmpeg的一部分，用于創建命令字串以獲取錄制的持續時間，我們稱之為run_command()函式，并將回傳的值存盤在rec_duration .

最后，列印并回傳所獲得的錄制時間，

需要記錄持續時間來指定將由其生成的視頻的持續時間是相同的，

將音頻轉換為視頻

下面添加以下代碼get_rec_duration()職能：

def turn_audio_to_video(rec_name, rec_duration):
    rec_path = "./recordings/{}".format(rec_name)
    bg_image_path = "./images/bg.png"
    video_name = "video_with_sound_waves.mp4"

    command = 'ffmpeg -y -i {rec_path} -loop 1 -i {bg_image_path} -t {rec_duration} \
    -filter_complex "[0:a]showwaves=s=1280x150:mode=cline:colors=00e5ff[fg];  \
    drawbox=x=0:y=285:w=1280:h=150:color=black@0.8:t=fill[bg]; \
    [bg][fg]overlay=format=auto:x=(W-w)/2:y=(H-h)/2 " \
    -map 0:a -c:v libx264 -preset fast -crf 18 -c:a aac \
    -shortest ./videos/{video_name}'.format(
        rec_path=rec_path,
        bg_image_path=bg_image_path,
        rec_duration=rec_duration,
        video_name=video_name,
    )

    print(video_name)
    run_command(command)
    return video_name

這個turn_audio_to_video()功能將將錄音轉換為顯示錄音聲波的視頻，函式以記錄名稱(rec_name)和錄制時間(rec_duration ).

從音頻生成視頻的ffmpeg命令使用記錄路徑(rec_path)，指向背景影像的路徑(bg_image_path)，以及視頻的輸出檔案名(video_name ).

讓我們仔細看看FFmpeg命令：

ffmpeg -y -i {rec_path} -loop 1 -i {bg_image_path} -t {rec_duration} \
-filter_complex \"[0:a]showwaves=s=1280x150:mode=cline:colors=00e5ff[fg];  \
drawbox=x=0:y=285:w=1280:h=150:color=black@0.8:t=fill[bg]; \
[bg][fg]overlay=format=auto:x=(W-w)/2:y=(H-h)/2 \" \
-map 0:a -c:v libx264 -preset fast -crf 18 -c:a aac -shortest ./videos/{video_name}

這個-y告訴ffmpeg，如果輸出檔案存在于磁盤上，則重寫它，

這個-i選項指定輸入，在這種情況下，我們有兩個輸入檔案，記錄檔案，rec_path，我們使用的影像有一個背景，存盤在bg_image_path .

這個-loop選項通過重復(回圈)輸入檔案生成視頻，在這里，我們正在回圈我們的影像輸入bg_image_path，默認值是0(不要回圈)，所以我們把它設為1(回圈)在所有視頻幀中重復此影像，

這個-t選項指定持續時間(以秒為單位)，或使用"hh:mm:ss[.xxx]"語法，這里我們使用的是錄制時間(rec_duration值來設定輸出視頻的持續時間，

-filter_complex允許我們定義一個復雜的過濾器，一個輸入和/或輸出的任意數量，這是一個復雜的選項，需要一些引數，下面將討論，

首先，我們使用showwaves過濾器以轉換語音記錄，參考為[0:a]，到視頻輸出，這個s引數用于指定輸出的視頻大小，我們將其設定為1280x150，這個mode引數定義如何繪制音頻波形，可用的值是：point , line , p2p，和cline，這個colors引數指定波形的顏色，波形圖被指定為標簽，[fg] .

我們使用drawbox過濾器，以繪制一個彩色框在我們的背景影像頂部，以幫助波形突出，這個x and y引數指定框的左上角坐標，而w and h設定它的寬度和高度，這個color引數將框的顏色配置為black不透明度為80%，這個t引數設定框邊框的厚度，通過將值設定為fill我們創造了一個堅固的盒子，

要完成此篩選器的定義，我們使用overlay將波形繪圖放在黑匣子頂部，這個overlay過濾器配置為format，它自動設定像素格式，以及x and y，指定疊加將放置在視頻幀中的坐標，我們用一些數學來說明x和y應該放在我們的視頻中心，

這個-map選項用于選擇輸入中的哪些流應包括或排除在輸出中，我們選擇將記錄的所有流添加到輸出視頻中，

這個-c:v選項用于用特定的編解碼器對視頻流進行編碼，我們告訴FFmpeg使用libx264編碼器，

這個-preset選項選擇一組選項，這些選項將提供一定的編碼速度與壓縮比，我們使用的是fast在此選項，但請隨時更改預設為一個較慢(更好的質量)或更快(較低的質量)，如果你愿意的話，

這個-crf選項代表恒速因子，速率控制決定每個幀將使用多少位，這將決定檔案大小和輸出視頻的質量，推薦值18以獲得視覺無損質量，

這個-c:a選項用于用特定的編解碼器對音頻流進行編碼，我們用AAC編解碼器，

這個-shortest選項告訴FFmpeg在最短的輸入流結束時停止寫入輸出，

這個./videos/{video_name}選項指定輸出檔案的路徑，

如果您是好奇的話，下面是上面討論的所有FFmpeg波形模式所做的事情，以及它們的外觀，

Point為每個樣本繪制一個點：

Line為每個樣本繪制一條垂直線：

P2p為每個樣本繪制一個點，并在它們之間畫一條線：

Cline為每個樣本繪制一條中心垂直線，這是我們在本教程中使用的

下面添加以下代碼turn_audio_to_video()職能：

def main():
    rec_name = "rec_1.mp3"
    rec_duration = get_rec_duration(rec_name)
    turn_audio_to_video(rec_name,rec_duration)


main()

在這個新引入的代碼中，我們有一個名為main()，在其中，我們將記錄名存盤在一個名為rec_name，您應該更新這一行，以包括您自己的語音記錄檔案的名稱，

在那之后，我們稱之為get_rec_duration()函式以獲取錄制時間，

然后，我們稱之為turn_audio_to_video函式，并將回傳的值存盤在名為video_with_sound_waves .

最后，我們稱之為main()函式來運行整個行程，請記住替換rec_name變數，其中包含要處理的錄音的名稱，

回到終端，運行以下命令生成視頻：

python main.py

查找名為video_with_sound_waves.mp4在videos目錄，打開它，您將看到類似于以下內容的內容：

在背景上添加一個視頻

在本節中，我們將在生成的視頻的左下角添加一個旋轉記錄的視頻，我們要添加的視頻存盤在名為spinningRecord.mp4在videos目錄，

回傳到代碼編輯器，打開main.py檔案，并將以下代碼添加到turn_audio_to_video()職能：

def add_spinning_record(video_name, rec_duration):
    video_path = "./videos/{}".format(video_name)
    spinning_record_video_path = "./videos/spinningRecord.mp4"
    new_video_name = "video_with_spinning_record.mp4"

    command = 'ffmpeg -y -i {video_path} -stream_loop -1 -i {spinning_record_video_path} \
    -t {rec_duration} -filter_complex "[1:v]scale=w=200:h=200[fg]; \
    [0:v] scale=w=1280:h=720[bg], [bg][fg]overlay=x=25:y=(H-225)" \
    -c:v libx264 -preset fast -crf 18 -c:a copy \
    ./videos/{new_video_name}'.format(
        video_path=video_path,
        spinning_record_video_path=spinning_record_video_path,
        rec_duration=rec_duration,
        new_video_name=new_video_name,
    )

    print(new_video_name)
    run_command(command)
    return new_video_name

在這里，我們創建了一個名為add_spinning_record()，此函式將負責添加spinningRecord.mp4視頻頂部顯示聲波，它以先前生成的視頻的名稱作為引數(video_name)和錄制時間(rec_duration ).

此函式還運行FFmpeg，下面是詳細的命令：

$ ffmpeg -y -i {video_path} -stream_loop -1 -i {spinning_record_video_path} \
-t {rec_duration} -filter_complex \"[1:v]scale=w=200:h=200[fg]; \
 [0:v] scale=w=1280:h=720[bg], [bg][fg]overlay=x=25:y=(H-225)\" \
-c:v libx264 -preset fast -crf 18 -c:a copy ./videos/{new_video_name}

上面的命令有以下選項：

這個-y , -t , -c:v , -preset，和-crf選項與生成音頻波形的FFmpeg命令中的選項相同，

這個-i選項之前也使用過，但在本例中，我們有兩個視頻作為輸入檔案，在前一步中生成的視頻檔案和旋轉記錄視頻檔案，

這個-stream_loop選項允許我們設定輸入流被回圈的次數，值0表示禁用回圈，而-1表示無限回圈，我們將旋轉記錄視頻設定為無限回圈，這將使FFmpeg無限期地對輸出視頻進行編碼，但由于我們還指定了輸出視頻的持續時間，FFmpeg將在視頻到達此持續時間時停止編碼，

這個-filter_complex選項：也具有與前面相同的功能，但是這里有兩個視頻作為輸入檔案，這是在上一節中創建的視頻，[0:v]還有旋轉錄像[1:v] .

過濾器首先使用scale若要調整旋轉記錄視頻的大小，使其具有200x200維，并將[fg]標簽，然后，我們使用scale再次篩選，將上一節中創建的視頻設定為1280x720大小，[bg]標簽，最后，我們使用overlay過濾器，將旋轉記錄視頻放在上一節中創建的視頻之上，在坐標中，x=25，和y=H-225(h代表視頻高度)，

這個-c:a選項也在上一節中引入，但在本例中，我們使用的是特殊值，copy若要告訴ffmpeg復制源視頻中的音頻流而不重新編碼它，請執行以下操作，

命令的最后一部分，./videos/{new_video_name}設定輸出檔案的路徑，

替換main()函式，它將呼叫添加到add_spinning_record()職能：

def main():
    rec_name = "rec_1.mp3"
    rec_duration = get_rec_duration(rec_name)
    video_with_sound_waves = turn_audio_to_video(rec_name, rec_duration)
    add_spinning_record(video_with_sound_waves, rec_duration)

在終端中運行以下命令生成視頻：

python main.py

查找名為video_with_spinning_record.mp4在videos目錄，打開它，您將看到類似于以下內容的內容：

向視頻中添加文本

在本節中，我們將在視頻的頂部添加一個標題，作為其中的一部分，我們將學習如何使用FFmpeg繪制文本，更改顏色、大小、字體和位置，

回傳到代碼編輯器，打開main.py檔案，并將以下代碼添加到add_spinning_record職能：

def add_text_to_video(video_name):
    video_path = "./videos/{}".format(video_name)
    new_video_name = "video_with_text.mp4"
    font_path = "./fonts/LeagueGothic-CondensedRegular.otf"

    command = "ffmpeg -y -i {video_path} -vf \"drawtext=fontfile={font_path}:  \
    text='Turning your Twilio voice recordings into videos':fontcolor=black: \
    fontsize=90:box=1:boxcolor=white@0.5 \
    :boxborderw=5:x=((W/2)-(tw/2)):y=100\" \
    -c:a copy ./videos/{new_video_name}".format(
        video_path=video_path,
        font_path=font_path,
        new_video_name=new_video_name
    )

    print(new_video_name)
    run_command(command)
    return new_video_name

在這個函式中，我們創建了一個名為add_text_to_video()呼叫一個新的Ffmpeg命令來繪制文本，讓我們仔細看看FFmpeg命令：

ffmpeg -y -i {video_path} -vf \"drawtext=fontfile={font_path}:  \
text='Turning your Twilio voice recordings into videos':fontcolor=black: \
fontsize=90:box=1:boxcolor=white@0.5:boxborderw=5:x=((W/2)-(tw/2)):y=100\" \
-c:a copy ./videos/{new_video_name}

這個-y，以及-c:a選項的使用與以前完全相同，

這個-i選項，它定義輸入，現在只有一個輸入檔案，即上一節中生成的視頻檔案，

這個-vf選項允許我們創建一個簡單的filtergraph用它過濾流，這里我們使用drawtext篩選器將文本繪制到視頻的頂部，并包含多個引數：fontfile是用于繪制文本的字體檔案，text定義要繪制的文本(根據您的喜好隨意更改它)，fontcolor將文本顏色設定為黑色，fontsize設定文本大小，box若要啟用文本周圍的框，boxcolor若要將此框的顏色設定為white有50%的不透明度，boxborderw若要設定邊框的寬度，請執行以下操作x and y若要設定要列印文本的視頻中的位置，請執行以下操作，我們用一點數學來畫以文本為中心的文字，

這個./videos/{new_video_name}選項的末尾設定輸出檔案，就像前面的FFmpeg命令一樣，

替換main()函式具有以下版本，該版本添加標題步驟：

def main():
    rec_name = "rec_1.mp3"
    rec_duration = get_rec_duration(rec_name)
    video_with_sound_waves = turn_audio_to_video(rec_name, rec_duration)
    video_with_spinning_record = add_spinning_record(video_with_sound_waves, rec_duration)
    video_with_text = add_text_to_video(video_with_spinning_record)

回傳到您的終端，并運行以下命令生成一個標題為：

python main.py

查找名為video_with_text.mp4在videos目錄，打開它，您將看到類似于以下內容的內容：

結語

在本教程中，我們學習了如何使用FFmpeg中的一些高級選項將語音記錄轉換為可以在社交媒體上共享的視頻，我希望這能鼓勵你更多地了解FFmpeg，

整個應用程式的代碼可在以下存盤庫中獲得：原始碼

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/340566.html

標籤：其他

上一篇：Web前端---HTML+CSS+JS實作的貪吃蛇游戲

下一篇：libavdevice.so.58: cannot open shared object file: No such file or directory

Python和FFmpeg將語音記錄轉換成可共享的視頻,非常炫酷.