NVIDIA Maxine Video Effects SDK 編程指南 - 實踐小記

本篇博客重點只說Video Effect的部分，此外還有Audio Effect的部分、還有AR部分，不在本篇范圍內，本文由重慶Debug原創

NVIDIA Maxine Video Effects支持基于 AI 的視覺效果，這些效果可以輸入標準網路攝像頭畫面資料，同時也可以傳入一張圖或者來自ffmpeg解碼器的幀資料，讓使用者可以輕松集成到視頻會議和視頻特效內容創建管道中；

底層深度學習模型使用 NVIDIA? TensorRT? 通過 NVIDIA AI 進行優化以實作高性能推理，使開發人員能夠在實時應用程式中應用多種效果，

NVIDIA Maxine Video Effects提供了一系列TensorRT訓練好的模型，

截止到本稿前2023年6月13日，可以做到的功能有下列5個：

1. Virtual Background 虛擬背景（摳人物）

2. Artifact Reduction 偽影減少

3. Super Resolution 超解析度

4. Upscaler 放大器（輕量版超解析度）

5. Video Noise Removal 視頻噪音消除

硬體要求：

Video Effects SDK要求必須電腦至少擁有一個GPU是基于NVIDIA Turing?或NVIDIA Ampere?或NVIDIA Ada?架構并具有TensorRT核心功能，

運行時軟體要求：

Windows系統必須滿足64-bit Windows 10或更新版本

NVIDIA Graphics Driver for Windows必須滿足版本號大于等于511.65

分發包需用戶提前去英偉達官網(NVIDIA Broadcast)下載安裝對應顯卡所需的模型及dll檔案，如下圖所示：

開發時軟體要求：

Microsoft Visual Studio 2017或更新的版本

CMake 3.12或更新的版本

下面分別介紹這些功能和可以調控的引數及演示效果：

1. Virtual Background 虛擬背景（摳人物）

虛擬背景可以分割和屏蔽視頻或影像中的背景區域，以啟用 AI 支持的背景去除、替換或模糊，

限制條件：

a). 用于虛擬背景的原影像的尺寸必須大于等于：512x288（即寬和高都要同時滿足大于等于這個數），

b). 虛擬背景的效果在一個人坐在相機前錄制的視頻上是可達到最佳的效果，該功能在全身視頻、場景中的多個人或與前置攝像頭偏差太大的攝像頭角度上表現會有不佳，

c). 影像檔案的縱橫比建議為 16：9，才能獲得最佳效果，

d). 輸入的影像是BGR，每個像素是一個 24 位無符號字符值，因此每個像素分量為 8 位

可調的引數：

Mode：

0：質量優先模式、1：性能優先模式

Composition Mode：

原圖：

0（顯示遮罩 - compMatte）

1（在前景上覆寫遮罩 - compLight）
2（復合綠色 - compGreen）
3（復合白色 - compWhite）
4（顯示輸入 - compNone）
5（在指定的背景影像上合成 - compBG）（可以自己設定背景圖片，即可替換成自己提供的圖片）
6（模糊影像的背景 - compBlur）

2. Artifact Reduction 偽影減少

Artifact Reduction，減少編碼視頻的壓縮偽影，同時保留原始視頻的細節，

此偽影濾波器可減少編碼器造成的偽影，例如低位元率視頻中的阻塞偽影、振鈴、蚊音，同時保留原始視頻的細節，

編碼器偽影減少已針對 H.264 編碼器進行了優化，