隨著線上泛娛樂的興起，語聊房、在線 KTV 以及直播等場景在人們的日常生活中占據越來越重要的地位，用戶對于音質的要求也越來越高，因此超越傳統語音降噪演算法的 AI 降噪演算法應運而生，所以目前各大 RTC 廠商普遍使用 AI 技術進行降噪處理，使用 AI 降噪技術消除除人聲外的一切聲音，

但對于一些特殊場景，如在線 KTV、線上直播等聲卡場景，或者彈唱、伴奏、樂器等使用場景中，我們可以明顯的感受到，一般降噪處理或 AI 降噪處理的程序中會將音樂/伴奏誤識別為噪音，并進行降噪處理，給用戶帶來很不好的線上體驗，因此，在此類使用場景中用戶越來越不滿足于背景降噪，而是提出更高要求，那就是深度降噪的同時保留音樂的音質，為了滿足用戶消噪與音樂音質高保真的需求，ZEGO 即構科技自研了一套自適應降噪方案，能在音樂與非音樂場景中智能切換，既保證了無音樂場景下的語音的質量，又保留了音樂的高保真音質，

音樂場景降噪方案簡介

首先簡單了解一下即構音樂場景降噪的方案流程：

從圖中可以看到，經過前處理后的音頻資料會被送入 AI 音樂檢測模塊，接著根據檢測結果將場景分為音樂和非音樂場景，若檢測出音樂場景則會使用傳統降噪對音頻資料進行處理，以減少對音樂的損傷，非音樂場景則繼續使用 AI 降噪進行更深度的噪聲消除，最后資料會經過自動增益模塊完成最終的語音增強，

關于 AI 音樂檢測演算法

由上文描述中可以看到，完成音樂場景降噪功能最重要的一環就是 AI 音樂檢測演算法，為了滿足音樂場景的實時切換與極高檢測率的需求，我們自研了基于AI的音樂檢測演算法 ZegoAIMusicDetecion，演算法流程如下：

我們對資料進行幀長為 20ms，幀移為 10ms 的 STFT 處理后，使用 Bark 頻帶尺度將資料分為8 個子帶，再分別求取一階差分，二階差分和譜平坦度最終得到 25 維特征，將計算得到的特征送入到我們設計的輕量型網路模型 CRNN，模型結構如下：

這里使用多層 Conv1d 卷積層能進一步的對特征進行提取，訓練時，我們搜集了大量的開源音樂、語音與噪聲資料進行訓練，同時使用不同信噪比進行資料混合增強，確保模型有足夠的泛化性，在訓練優化器上，我們選擇了 AdamW 以更好地對模型進行正則化處理，學習率為 0.001，批大小是 64，損失函式我們使用了交叉熵函式，公式如下：

演算法效果與性能開銷

有了 AI 音樂檢測演算法的幫助，我們最終可以實作針對音樂場景的降噪方案，方案最終的效果如下：

降噪方案_001.gif

從上面的頻譜圖以及實際的聽感來看，都可以直觀的感受到即構音樂場景降噪方案對音樂音質的保護，在提供良好效果的同時，ZegoAIMusicDetecion 秉承著極輕量級模型的設計理念，整體計算量大約為 1.2M FLOPS，RTF 指標在各個平臺和終端上均控制在 0.2% 以內，在此基礎上，我們采用多幀平滑的后處理技術使音樂檢測誤檢率低于 1%，音樂檢測率達到 95% 以上，

技術展望

音樂場景在泛娛樂社交和互動中十分常見，需要注重用戶和聽眾的使用感覺，做好音樂場景降噪處理，綜上所述，ZEGO 即構科技為了同時兼顧降噪與音樂音質體驗，自研了基于 AI 的音樂檢測演算法（點這里），設計出一套音樂場景降噪方案，充分體現即構對于用戶良好體驗的高度重視，

未來，我們會結合具體行業和場景，引入更多的可行性方案，提升產品的場景適應能力，給用戶提供更好的音頻體驗！了解更多ZEGO即構IM即時通訊服務，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/555764.html

標籤：其他

上一篇：即視角｜出海正當時：歐美、東南亞、中東、拉美市場觀察

下一篇：返回列表

ZEGO 即構音樂場景降噪技術決議

音樂場景降噪方案簡介

關于 AI 音樂檢測演算法

演算法效果與性能開銷

技術展望