導讀
AI演算法在視頻娛樂行業得到了廣泛應用,在處理視頻資料程序中最大瓶頸之一是視頻抽幀延時,抽幀延時往往占據了整體服務的大部分時間,此外,不同的AI演算法應用于不同業務時,對視頻抽幀需求也不同,
對此,本文介紹一種高效通用的抽幀工具在AI視頻推理服務中的應用,可以降低服務整體處理延時;并針對AI演算法對視頻抽幀的不同需求,在不同的使用場景下,提供通用化的功能,
AI演算法已經廣泛應用于AI視頻推理服務中,目前愛奇藝AI服務中與視頻資料相關的服務多達數百個,每個服務又由多個演算法組成,這些AI演算法對輸入視頻資料的需求不同,部署硬體平臺也不同,導致AI演算法在視頻推理服務面臨多方面的挑戰,
例如:以用戶上傳的短視頻為主的視頻審核業務而言,其主要挑戰為:為了提升用戶體驗,需要在很短的時間內審核完成;用戶上傳的視頻編碼格式多樣,需要視頻抽幀工具能夠支持不同的編碼格;視頻審核業務需要對低俗、血腥、暴力、政治、兒童邪典等多方面進行審核,有的演算法部署在GPU上,有的演算法部署在CPU上,這需要抽幀工具無論是在CPU上還是在GPU上都能夠以很短的延時處理,
而以長視頻為主的詞生產、轉場點、行為識別、視頻插幀等業務而言,其主要挑戰為:抽幀工具需要確保抽幀的結果精準,即抽取的視頻幀以及其時間戳與原視頻完全吻合,此外長視頻抽幀在高吞吐來提升資源利用率的使用場景下,也希望盡快處理完成,來提升不同業務線同學的作業效率,
一、整體服務延時大、硬體資源利用率低
由于視頻往往資料量較大,以1小時、25FPS、1080P的視頻為例,全抽幀后的影像總數將達到9萬張,單個服務整體耗時很長,嚴重影響服務生產效率,導致整個業務效率低下,AI視頻推理服務環節主要由幾下幾方面組成:下載、抽幀、預處理、AI演算法處理、后處理、上傳,其中視頻抽幀和AI演算法推理占據了大部分時間,例如:1小時、H.264、1080P視頻使用4核 6148 CPU 抽幀存JPEG影像需要760秒,
當AI視頻推理在預處理或者抽幀時使用CPU資源計算時,GPU資源沒有被充分使用;或者單個演算法模型對GPU硬體資源消耗較少,都有可能導致整體GPU資源利用率偏低,
二、演算法需求差異較大、部署硬體資源不同
愛奇藝AI演算法在視頻影像領域蓬勃發展,不同的AI演算法用在不同的業務時,對抽幀需求也不一致:每秒抽取的幀數,抽幀時是否需要保存不同格式的影像,抽幀時RGB資料是否直接存放記憶體或顯存,對特定時間段抽幀,只對關鍵幀抽幀,抽幀時縮放、裁剪影像,獲取影像時間戳等等,不同的需求導致很難通過某一套現有的方案來滿足所有需求,
方案調研
目前視頻解碼的硬體平臺主要有CPU、GPU、FPGA以及專業的編解碼芯片,其中FPGA對AI演算法支持不太完善,而專業解碼芯片則功能太單一,因此較為常見的方案采用CPU和GPU作為服務側常用的編解碼硬體,CPU解碼最常用的工具是使用FFmpeg,該工具能夠較好的滿足目前AI演算法不同的抽幀需求,下文將分別從CPU與GPU兩方面說明,
一、CPU抽幀應用于AI演算法的通用方案
目前在CPU上使用FFmpeg抽幀運用于AI演算法最常見的方法主要有以下兩種:
1.FFmpeg將視頻抽幀保存為影像后,AI演算法呼叫:最傳統的做法將視頻下載后,使用FFmpeg解碼并保存影像,AI演算法讀取影像,預處理后進行推理,后處理完成后將結果上傳,這種傳統的方式導致整體服務處理增加一些沒必要的時間開銷,具有主要的兩個缺陷:
一、視頻抽幀和演算法推理處理延時太大,每個模塊均為阻塞方式,需要前置步驟完全處理完成后,后續步驟才能夠開始處理;
二、一張1080P的RGB無損原圖保存需要5MB存盤空間,1小時、1080P視頻全部抽幀并保存原圖將需要450G的存盤空間,這將帶來巨大的存盤壓力,
為此視頻抽幀往往保存JPEG格式影像,JPEG影像具有極高的壓縮率,1張1080P的JPEG影像往往只需要0.1MB存盤空間,相比保存原圖能夠節約數十倍存盤空間,但其缺陷為有損壓縮,即JPEG保存后的影像讀取后與原圖相比存在一定的資訊丟失,有可能導致AI演算法推理時精度降低,此外AI演算法讀取影像時又需要將JPEG格式影像解碼為YUV格式,并將YUV格式影像轉換為演算法需要的RGB格式,由此可見,抽幀保存為JPEG影像提供給演算法使用實為下策,然而有的服務中又確實需要將影像完全保存,故該方案還是在一些服務中被使用,
方案一 CPU抽幀落盤
2.鑒于上述方案的缺陷,目前CPU上使用FFmpeg抽幀提供給AI演算法使用比較好的方案為:將視頻解碼YUV格式后,顏色空間轉換為RGB格式,保存在記憶體中;AI演算法直接讀取記憶體中的RGB影像資料,并將每個環節進行流水線處理,使得每個環節都能夠異步處理,其框架圖為:
方案二 CPU抽幀不落盤
方案二相比方案一在延時上有較大的減少,且不再需要有損壓縮影像,能夠最大程度保留影像真實資訊,避免AI演算法精度降低,然而現今視頻往往解析度很高,對1080P、4K的視頻抽幀時,即使是不落盤方式(不落盤:視頻解碼后,YUV格式轉RGB資料,直接保存在記憶體或者顯存中),抽幀的延時都可能大于AI演算法處理時長,尤其體現在AI演算法經過圖優化、算子優化以及定點量化后,整體服務延時大的主要瓶頸體現在使用CPU抽幀耗時長,使用不落盤方式1小時 H.264 1080P視頻在CPU 6148需要350秒,而使用落盤方式(落盤:視頻解碼為YUV格式,將解碼的YUV格式影像重新編碼后保存在非易失存盤上(如硬碟、SSD),通常保存為JPEG格式,),抽幀則需要760秒,此外,愛奇藝作為視頻娛樂公司,AI演算法在視頻處理處理時,往往需要準確的時間戳來標定抽幀的影像精確對應的視頻位置,而開源的FFmpeg抽幀時無法直接提供準確的時間戳,
二、GPU抽幀應用于AI演算法的通用方案
NVIDIA提供的GPU抽幀相比CPU上使用FFmpeg抽幀能夠大幅提升速度,在GPU V100上,H.264、1080P視頻可達500 FPS以上,在GPU T4更是能夠達到1000 FPS以上,故GPU抽幀相比CPU抽幀延時更小,其存在的主要缺陷為:
1. 相比FFmpeg提供的功能太少,沒有1秒抽n幀、只對關鍵幀抽幀,解碼后保存JPEG影像等功能;
2. 解碼僅支持部分格式,無法滿足所有情況;
3. GPU解碼后的影像依然存放在顯卡上,AI演算法推理前往往需要對影像進行預處理,而視頻GPU抽幀后的預處理仍在CPU計算上,存在資料傳輸耗時較大,導致不必要延時,這尤其體現在需要對視頻每一幀的資料都需要處理的情形,兩次CPU-GPU之間的資料拷貝耗時較大,無法完全在計算延時中掩蓋,
最佳方式是將預處理使用CUDA函式直接在GPU上計算,然而服務太多,對每個演算法的預處理進行CUDA優化需要消耗較多人力,使得該方案無法推廣到所有服務,
4. 當前AI演算法大多數由Python撰寫,也給直接使用GPU抽幀帶來困難,雖然NVIDIA提供了相關工具來使得用Python呼叫GPU抽幀成為可能,但對安裝環境有較多限制,有時與AI演算法依賴環境沖突,使其無法滿足大多數AI服務的要求,
方案3 GPU抽幀不落盤
通用高效抽幀在視頻推理中的方案實施
基于以上的調研,本節將會詳細闡述在CPU和GPU上的抽幀的優化和功能完善,增加Python介面,以及整體流程中抽幀工具和AI演算法的流水線優化,
1. CPU抽幀的完善與優化
(1)準確獲取抽幀影像時間戳:視頻中的時間戳有顯示時間戳PTS和解碼時間戳DTS,DTS主要用來標識待解碼視頻幀送入解碼器解碼的順序,而PTS指的是影像幀在視頻中實際顯示的時間點位,如果視頻中沒有B幀時,DTS和PTS順序一樣,但當時視頻中存在B、P幀時,則DTS和PTS的順序不一樣,AI服務中,使用的時間戳為PTS,對應視頻幀在實際播放時的時間點位,抽幀的影像通過AI演算法推理得到的結果需要與視頻中的PTS時間點位完全一致,這就嚴格要求抽幀時獲取的PTS必須完全準確,然而FFmpeg抽幀時無法直接回傳該幀的PTS,本方案通過優化FFMPEG輸出控制邏輯,來保證抽幀獲取的PTS與原視頻流中的點位一致,
(2)CPU抽幀在不落盤與落盤情況下加速優化:本方案采用資源換速度的方法,對于落盤的加速優化,使用多執行緒分別抽取視頻中的部分片段,而不落盤的視頻抽幀,使用多執行緒分片抽幀時,需要保證將抽幀結果順序提供給演算法使用,每個子執行緒負責多個小時間段,每個子執行緒抽取后獲取的影像使用時間戳做順序校準,確保每個子執行緒依次提供的資料能夠與單執行緒抽取結果完全一致,
方案4 CPU抽幀不落盤抽幀優化
2. GPU抽幀的完善與優化
(1)GPU抽幀功能增加與完善:在與演算法和業務溝通需求后,本方案增加了GPU對視頻單位時間內抽n幀,對視頻關鍵幀抽幀,對視頻的某個時間段抽幀,準確獲取時間戳,抽幀時可保存JPEG等影像格式,以及其它一些功能,鑒于視頻編碼為YUV格式的影像后,保存JPEG影像時需要對YUV格式影像進行編碼,編碼使用CPU處理延時較大,為了能夠減少存JPEG延時,本方案通過撰寫CUDA函式實作YUV格式影像編碼為JPEG格式,在GPU V100上,峰值性能可達3000 FPS,
(2)對抽幀后影像直接使用GPU顯存情形的優化:一些重要的服務需要及時的回傳結果,業務希望能夠最大限度的減少延時,對此,本方案將視頻解碼的YUV資料,在GPU上呼叫CUDA core實作YUV轉RGB以及其他的所有預處理函式,確保整體處理盡量減少CPU與GPU之間的資料拷貝,
(3)增加抽幀后的影像回傳至記憶體,AI演算法直接使用Python呼叫GPU抽幀、CUDA函式功能:考慮到當前AI演算法大多基于Python開發,開發人員難以完全對所有的AI演算法進行改造,為了基于Python開發的AI演算法能夠使用GPU抽幀(C++開發),本方案采用Pybind11,使得C++和Python很方便的混合呼叫,此外,對于某些處理延時很大的服務,也希望能夠在Python端呼叫CUDA函式來實作預處理加速,對此我們提供了上述相同的策略,
圖五為GPU抽幀整體框架圖,視頻資料以及抽幀需求資訊,通過Pybind11傳遞給GPU抽幀模塊使用,cuda初始化模塊僅在主執行緒中初始化CUDA背景關系一次,子執行緒解碼時將cuda背景關系壓堆疊來避免每個視頻抽幀時需要重新初始化,視頻幀解碼后,通過后續處理模塊完成顏色空間轉換以及AI演算法對解碼后的影像處理需求,如果演算法需要將預處理、后處理放在GPU上處理,則呼叫對應的CUDA函式否則直接將影像資料輸出給AI演算法使用,此外,GPU抽幀和AI演算法推理并行處理,其他環節為異步執行,能夠最大層度減少延時,
方案5 GPU抽幀優化框架圖
3. 整體流程的優化
GPU抽幀相比CPU抽幀延時更小,但只支持H.264、H265、VPx等常用格式,對于H263等目前較少使用的編碼格式并沒有提供支持,客戶上傳的視頻編碼格式無法確定GPU解碼是否支持,本方案使用ffprobe獲取視頻的編碼格式后,來判斷該視頻使用GPU或者CPU進行抽幀解碼,此外考慮到輸入資料或許并非視頻,AI演算法存在bug等情況,本方案進行了詳細的例外處理和日志管理,
總結
為了針對不同應用場景和需求,本方案針對不同的業務需求從不同角度進行了優化:在公司短視頻“先發后審”業務上,滿足了業務方對5分鐘視頻30秒內審核完成的需求,其中以低俗調性檢測子服務為例,相對改造之前使用FFmpeg抽幀保存為影像后處理性能提升10倍,長視頻“臺詞生成”業務中,優化前方案需要在CPU上抽幀,抽幀完成后上傳到云端再下載到GPU容器上執行演算法推理,優化后提升10.6倍,在長視頻“轉場點分析”業務上,鑒于演算法輸入需要全抽幀的JPEG影像,性能整體雖然也能提升2倍,但是相比不落盤方案,性能提升較少,可見要使整體服務處理延時最小化,最佳方式是解碼后的資料不落盤直接存放在顯存中提供給AI演算法使用,
隨著AI視頻推理服務在愛奇藝各個業務線的廣泛使用, AI服務團隊除了需要提供豐富的AI演算法模型,從節約硬體資源、提升作業效率、以及滿足某些業務延時敏感的角度考量,都需要盡可能的減少服務處理時間,為此,后續還需改造原線上延時較大的服務,完善抽幀工具,在演算法的預處理、后處理提供加速函式庫,AI演算法模型深入優化等多個方面深入展開作業,
也許你還想看
通用AI元素識別在UI自動化測驗的最佳實踐
愛奇藝謝丹銘:用AI讓創作者提升效率,讓消費者簡單快樂
掃一掃下方二維碼,更多精彩內容陪伴你!
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/257356.html
標籤:其他
上一篇:最大匹配問題(匈牙利演算法)
