音頻編解碼介紹(最全v1.0)
目錄:
1. PCMU(G.711U)
2. PCMA(G.711A)
3. ADPCM
4. LPC(Linear Predictive Coding)
5. CELP(Code Excited Linear Prediction)
6. G.711
7. G.721
8. G.722
9. G.723
10.G.723.1
11.G.728
12.G.729
13.G.729A
14.GIPS
15.SILK
16.NICAM(Near Instantaneous Companded Audio Multiplex)
17.MPEG-1 audio layer 1
18.MUSICAM(MPEG-1 audio layer 2)
19.MP3(MPEG-1 audio layer 3)
20.MPEG-2 audio layer
21.AAC(Advanced Audio Coding)
22.Dolby AC-3
23.ASPEC(Audio Spectral Perceptual Entropy Coding)
24.PAC(Perceptual Audio Coder)
25.HR
26.FR
27.EFR
28.GSM-AMR(Adaptive Multi-Rate)
29.EVRC(Enhanced Variable Rate Coder)
30.QCELP(QualComm Code Excited Linear Predictive)
31.Apt-X
32.SPEEX
33.AMR(Adaptive Multi-Rate)
34.OPUS
35.OGG
36.ILBC
37.ISAC
本內容部分原創,因作者才疏學淺,偶有紕漏,望不吝指出,同時感謝各路大神對本內容的支持和幫助,本內容由靈聲訊音頻-語音演算法實驗室整理創作,轉載和使用請與“靈聲訊”聯系,聯系方式:音頻/識別/合成演算法QQ群(696554058)
1. PCMU(G.711U)
型別:Audio
制定者:ITU-T
支持帶寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們占用的帶寬較高,需要64kbps,
優點:語音質量優
缺點:占用的帶寬較高
應用領域:voip (Voice over Internet Protocol)
版稅方式:Free
備 注:PCMU and PCMA都能夠達到CD音質,但是它們消耗的帶寬也最多(64kbps),如果網路帶寬比較低,可以選用低位元速率的編碼方法,如G.723或 G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的帶寬(G723需要5.3/6.3kbps,G729需要8kbps),如果帶 寬足夠并且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬帶的編碼方法G722(64kbps),這可以提供有高保真度的音質,
2. PCMA(G.711A)
型別:Audio
制定者:ITU-T
支持帶寬:64Kbps(90.4)
特性:PCMU和PCMA都能提供較好的語音質量,但是它們占用的帶寬較高,需要64kbps,
優點:語音質量優
缺點:占用的帶寬較高
應用領域:voip
版稅方式:Free
備 注:PCMU and PCMA都能夠達到CD音質,但是它們消耗的帶寬也最多(64kbps),如果網路帶寬比較低,可以選用低位元速率的編碼方法,如G.723或 G.729,這兩種編碼的方法也能達到傳統長途電話的音質,但是需要很少的帶寬(G723需要5.3/6.3kbps,G729需要8kbps),如果帶 寬足夠并且需要更好的語音質量,就使用PCMU 和 PCMA,甚至可以使用寬帶的編碼方法G722(64kbps),這可以提供有高保真度的音質,
3. ADPCM(自適應差分PCM)
型別:Audio
制定者:ITU-T
支持帶寬:32Kbps
特性:ADPCM(adaptive difference pulse code modulation)綜合了APCM的自適應特性和DPCM系統的差分特性,是一種性能比較好的波形編碼,它的核心想法是:
①利用自適應的思想改變數化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值;
②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小,
優點:演算法復雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備 注:ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對 16bit (或者更高?) 聲音波形資料的一種有損壓縮演算法, 它將聲音流中每次采樣的 16bit 資料以 4bit 存盤, 所以壓縮比 1:4. 而壓縮/解壓縮演算法非常的簡單, 所以是一種低空間消耗,高質量聲音獲得的好途徑,
4. LPC(Linear Predictive Coding,線性預測編碼)
型別:Audio
制定者:
支持帶寬:2Kbps-4.8Kbps
特性:壓縮比大,計算量大,音質不高,廉價
優點:壓縮比大,廉價
缺點:計算量大,語音質量不是很好,自然度較低
應用領域:voip
版稅方式:Free
備 注:引數編碼又稱為聲源編碼,是將信源信號在頻率域或其它正交變換域提取特征引數,并將其變換成數字代碼進行傳輸,譯碼為其反程序,將收到的數字序列經變 換恢復特征參量,再根據特征參量重建語音信號,具體說,引數編碼是通過對語音信號特征引數的提取和編碼,力圖使重建語音信號具有盡可能高的準確性,但重建 信號的波形同原語音信號的波形可能會有相當大的差別,如:線性預測編碼(LPC)及其它各種改進型都屬于引數編碼,該編碼位元率可壓縮到2Kbit/s- 4.8Kbit/s,甚至更低,但語音質量只能達到中等,特別是自然度較低,
5. CELP(Code Excited Linear Prediction,碼激勵線性預測編碼)
型別:Audio
制定者:歐洲通信標準協會(ETSI)
支持帶寬:4~16Kbps的速率
特性:改善語音的質量:
① 對誤差信號進行感覺加權,利用人類聽覺的掩蔽特性來提高語音的主觀質量;
② 用分數延遲改進基音預測,使濁音的表達更為準確,尤其改善了女性語音的質量;
③ 使用修正的MSPE準則來尋找 “最佳”的延遲,使得基音周期延遲的外形更為平滑;
④ 根據長時預測的效率,調整隨機激勵矢量的大小,提高語音的主觀質量;
⑤ 使用基于信道錯誤率估計的自適應平滑器,在信道誤碼率較高的情況下也能合成自然度較高的語音,
結論:
① CELP演算法在低速率編碼環境下可以得到令人滿意的壓縮效果;
② 使用快速演算法,可以有效地降低CELP演算法的復雜度,使它完全可以實時地實作;
③ CELP可以成功地對各種不同型別的語音信號進行編碼,這種適應性對于真實環境,尤其是背景噪聲存在時更為重要,
優點:用很低的帶寬提供了較清晰的語音
缺點:
應用領域:voip
版稅方式:Free
備 注:1999年歐洲通信標準協會(ETSI)推出了基于碼激勵線性預測編碼(CELP)的第三代移動通信語音編碼標準自適應多速率語音編碼器(AMR), 其中最低速率為4.75kb/s,達到通信質量,CELP 碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫,CELP是近10年來最成功的語音編碼演算法,
CELP語音編碼演算法用線性預測提取聲道引數,用一個包含許多典型的激勵矢量的碼本作為激勵引數,每次編碼時都在這個碼本中搜索一個最佳的激勵矢量,這個激勵矢量的編碼值就是這個序列的碼本中的序號,
CELP已經被許多語音編碼標準所采用,美國聯邦標準FS1016就是采用CELP的編碼方法,主要用于高質量的窄帶語音保密通信,CELP (Code-Excited Linear Prediction) 這是一個簡化的 LPC 演算法,以其低位元率著稱 (4800-9600Kbps),具有很清晰的語音品質和很高的背景噪音免疫性,CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案,
6. G.711
型別:Audio
制定者:ITU-T
支持帶寬:64Kbps
特性:演算法復雜度小,音質一般
優點:演算法復雜度低,壓縮比小(CD音質>400kbps),編解碼延時最短(相對其它技術)
缺點:占用的帶寬較高
應用領域:voip
版稅方式:Free
備注:70年代CCITT公布的G.711 64kb/s脈沖編碼調制PCM,
7. G.721
型別:Audio
制定者:ITU-T
支持帶寬:32Kbps
特性:相對于PCMA和PCMU,其壓縮比較高,可以提供2:1的壓縮比,
優點:壓縮比大
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備注:子帶ADPCM(SB-ADPCM)技術,G.721標準是一個代碼轉換系統,它使用ADPCM轉換技術,實作64 kb/s A律或μ律PCM速率和32 kb/s速率之間的相互轉換,
8. G.722
型別:Audio
制定者:ITU-T
支持帶寬:64Kbps
特性:G722能提供高保真的語音質量
優點:音質好
缺點:帶寬要求高
應用領域:voip
版稅方式:Free
備注:子帶ADPCM(SB-ADPCM)技術
9. G.723(低碼率語音編碼演算法)
型別:Audio
制定者:ITU-T
支持帶寬:5.3Kbps/6.3Kbps
特性:語音質量接近良,帶寬要求低,高效實作,便于多路擴展,可利用C5402片內16kRAM實作53coder,達到ITU-TG723要求的語音質量,性能穩定,可用于IP電話語音信源編碼或高效語音壓縮存盤,
優點:碼率低,帶寬要求較小,并達到ITU-TG723要求的語音質量,性能穩定,
缺點:聲音質量一般
應用領域:voip
版稅方式:Free
備 注:G.723語音編碼器是一種用于多媒體通信,編碼速率為5.3kbits/s和6.3kbit/s的雙碼率編碼方案,G.723標準是國際電信聯盟 (ITU)制定的多媒體通信標準中的一個組成部分,可以應用于IP電話等系統中,其中,5.3kbits/s碼率編碼器采用多脈沖最大似然量化技術 (MP-MLQ),6.3kbits/s碼率編碼器采用代數碼激勵線性預測技術,
10. G.723.1(雙速率語音編碼演算法)
型別:Audio
制定者:ITU-T
支持帶寬:5.3Kbps(22.9)
特 性:能夠對音樂和其他音頻信號進行壓縮和解壓縮,但它對語音信號來說是最優的,G.723.1采用了執行不連續傳輸的靜音壓縮,這就意味著在靜音期間的比 特流中加入了人為的噪聲,除了預留帶寬之外,這種技術使發信機的調制解調器保持連續作業,并且避免了載波信號的時通時斷,
優點:碼率低,帶寬要求較小,并達到ITU-TG723要求的語音質量,性能穩定,避免了載波信號的時通時斷,
缺點:語音質量一般
應用領域:voip
版稅方式:Free
備注:G.723.1演算法是 ITU-T建議的應用于低速率多媒體服務中語音或其它音頻信號的壓縮演算法,其目標應用系統包括H.323、H.324等多媒體通信系統 ,目前該演算法已成為IP電話系統中的必選演算法之一,
11. G.728
型別:Audio
制定者:ITU-T
支持帶寬:16Kbps/8Kbps
特性:用于IP電話、衛星通信、語音存盤等多個領域,G.728是一種低時延編碼器,但它比其它的編碼器都復雜,這是因為在編碼器中必須重復做50階LPC分析,G.728還采用了自適應后置濾波器來提高其性能,
優點:后向自適應,采用自適應后置濾波器來提高其性能
缺點:比其它的編碼器都復雜
應用領域:voip
版稅方式:Free
備注:G.728 16kb/s短延時碼本激勵線性預測編碼(LD-CELP),1996年ITU公布了G.728 8kb/s的CS-ACELP演算法,可以用于IP電話、衛星通信、語音存盤等多個領域,16 kbps G.728低時延碼激勵線性預測,
G.728是低位元線性預測合成分析編碼器(G.729和G.723.1)和后向ADPCM編碼器的混合體,G.728是LD-CELP編碼器,它一次只 處理5個樣點,對于低速率(56~128 kbps)的綜合業務數字網(ISDN)可視電話,G.728是一種建議采用的語音編碼器,由于其后向自適應特性,因此G.728是一種低時延編碼器,但 它比其它的編碼器都復雜,這是因為在編碼器中必須重復做50階LPC分析,G.728還采用了自適應后置濾波器來提高其性能,
12. G.729
型別:Audio
制定者:ITU-T
支持帶寬:8Kbps
特性:在良好的信道條件下要達到長話質量,在有隨機位元誤碼、發生幀丟失和多次轉接等情況下要有很好的穩健性等,這種語音壓縮演算法可以應用在很廣泛的領域中,包括IP電話、無線通信、數字衛星系統和數字專用線路,
G.729演算法采用“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP)演算法,這種演算法綜合了波形編碼和引數編碼的優點,以自適應預測編碼技術為基礎,采用了矢量量化、合成分析和感覺加權等技術,
G.729編碼器是為低時延應用設計的,它的幀長只有10ms,處理時延也是10ms,再加上5ms的前視,這就使得G.729產生的點到點的時延為25ms,位元率為8 kbps,
優點:語音質量良,應用領域很廣泛,采用了矢量量化、合成分析和感覺加權,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:在處理隨機位元錯誤方面性能不好,
應用領域:voip
版稅方式:Free
備 注:國際電信聯盟(ITU-T)于1995年11月正式通過了G.729, ITU-T建議G.729也被稱作“共軛結構代數碼本激勵線性預測編碼方案”(CS-ACELP),它是當前較新的一種語音壓縮標準,G.729是由美 國、法國、日本和加拿大的幾家著名國際電信物體聯合開發的,
13. G.729A
型別:Audio
制定者:ITU-T
支持帶寬:8Kbps(34.4)
特性:復雜性較G.729低,性能較G.729差,
優點:語音質量良,降低了計算的復雜度以便于實時實作,提供了對幀丟失和分組丟失的隱藏處理機制
缺點:性能較G.729差
應用領域:voip
版稅方式:Free
備注:96年ITU-T又制定了G.729的簡化方案G.729A,主要降低了計算的復雜度以便于實時實作,因此目前使用的都是G.729A,

14. GIPS
型別:Audio
制定者:瑞典Global IP Sound公司
支持帶寬:
特性:GIPS技術可根據帶寬狀況自動調節編碼碼率,提供低碼率高質量的音頻,GIPS的核心技術(網路自適應演算法,丟包補償演算法和回聲消除演算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果,
優點:很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果
缺點: 不是Free
應用領域:voip
版稅方式:每年支付一筆使用權費用
備注:GIPS音頻技術是由來自瑞典的全球頂尖的語音處理高科技公司--"GLOBAL IP SOUND"提供的專用于互聯網的語音壓縮引擎系統,GIPS技術可根據帶寬狀況自動調節編碼碼率,提供低碼率高質量的音頻,GIPS的核心技術(網路自 適應演算法,丟包補償演算法和回聲消除演算法)可很好地解決語音延遲與回聲問題,帶來完美音質,提供比電話還清晰的語音通話效果,
15.SILK
- 型別:Audio
- 制定者:skype(目前被Microsoft收購)
- 支持帶寬:6-40Kbps
- 應用領域:voip
- 開發歷史:SILK最早在Windows版Skype的4.0版本中被披露,它成為了Skype到Skype通話的默認解碼器,實時帶寬6-40Kbps即可作業,即使丟包水平達到10%依然可以穩定維持24KHz采樣的通話音質.Skype投入了數百萬美元,耗時三年多開發了Silk,他們表示Silk可以使VoIP通話聽起來好像你和對話的人在同一間房子里一樣,大部分電話只能傳輸3.4kHz(碼率)的信號,而Silk可以讓Skype傳輸高達12kHz的信號,開放編碼器可以被看作是Skype放棄了一項競爭優勢,但是它是Skype將其服務推廣到更多設備這一長期戰略中的一環,該公司已經有4.05億套軟體的裝機量,其中絕大部分用戶是臺式計算機用戶,免費提供其編碼器可以讓設備制造商將Skype整合到像智能電話、手機或移動互聯設備中去,Skype已經開始著手將其服務推廣到其它平臺上,并發布了基于Android和支持Java手機的通話服務,該公司還和諾基亞合作將其VoIP軟體預裝到智能手機上,例如N97,
- Silk下載地址如下
- http://developer.skype.com/silk/SILK_SDK_SRC_v1.0.7.zip
- Silk標準下載地址如下
- http://tools.ietf.org/html/draft-vos-silk-01
- Silk的一些檔案
- http://developer.skype.com/silk
16. NICAM(Near Instantaneous Companded Audio Multiplex 準瞬時壓擴音頻復用)
型別:Audio
制定者:英國BBC廣播公司
支持帶寬:728Kbps
特性:應用范圍及其廣泛,可用它進行立體聲或雙語廣播
優點:應用范圍及其廣泛,信噪比高,動態范圍寬、音質同CD相媲美,故名麗音,因此NICAM又稱為麗音
缺點:不是Free,頻寬要求高
應用領域:voip
版稅方式:一次性付費
備注:NICAM也稱麗音,它是英文Near-Instantaneously Companded Audio Multiplex的縮寫,其含義為準瞬時壓擴音頻復用,是由英國BBC廣播公司開發研究成功的,
通俗地說NICAM技術實際上就是雙聲道數字聲技術,其應用范圍及其廣泛,最典型的應用便是電視廣播附加雙聲道數字聲技術,利用它進行立體聲或雙語廣播, 以充分利用電視頻道的頻譜資源,這是在常規電視廣播的基礎上無需增加許多投資就可以實作的,在進行立體聲廣播時,它提高了音頻的信號質量,使其接近CD的 質量,而且還可以利用NICAM技術進行高速資料廣播及其他資料傳輸的增殖服務,這在當今的資訊化社會中似乎就顯得尤為重要了!
17. MPEG-1 audio layer 1
型別:Audio
制定者:MPEG
支持帶寬:384kbps(壓縮4倍)
特性:編碼簡單,用于數字盒式錄音磁帶,2聲道,VCD中使用的音頻壓縮方案就是MPEG-1層Ⅰ,
優點:壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加,可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:頻寬要求較高
應用領域:voip
版稅方式:Free
備注:MPEG-1聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際標準,它分為三個層次:
--層1(Layer 1):編碼簡單,用于數字盒式錄音磁帶
--層2(Layer 2):演算法復雜度中等,用于數字音頻廣播(DAB)和VCD等
--層3(Layer 3):編碼復雜,用于互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍
18. MUSICAM(MPEG-1 audio layer 2)
型別:Audio
制定者:MPEG
支持帶寬:256~192kbps(壓縮6~8倍)
特性:演算法復雜度中等,用于數字音頻廣播(DAB)和VCD等,2聲道,而MUSICAM由于其適當的復雜程度和優秀的聲音質量,在數字演播室、DAB、DVB等數位元組目的制作、交換、存盤、傳送中得到廣泛應用,
優點:壓縮方式相對時域壓縮技術而言要復雜得多,同時編碼效率、聲音質量也大幅提高,編碼延時相應增加,可以達到“完全透明”的聲音質量(EBU音質標準)
缺點:
應用領域:voip
版稅方式:Free
備注:同MPEG-1 audio layer 1
19. MP3(MPEG-1 audio layer 3)
型別:Audio
制定者:MPEG
支持帶寬:128~112kbps(壓縮10~12倍)
特 性:編碼復雜,用于互聯網上的高質量聲音的傳輸,如MP3音樂壓縮10倍,2聲道,MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓 縮技術,在當時的技術條件下,MP3的復雜度顯得相對較高,編碼不利于實時,但由于MP3在低碼率條件下高水準的聲音質量,使得它成為軟解壓及網路廣播的寵兒,
優點:壓縮比高,適合用于互聯網上的傳播
缺點:MP3在128KBitrate及以下時,會出現明顯的高頻丟失
應用領域:voip
版稅方式:Free
備注:同MPEG-1 audio layer 1
20. MPEG-2 audio layer
型別:Audio
制定者:MPEG
支持帶寬:與MPEG-1層1,層2,層3相同
特性:MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲,
優點:支持5.1聲道和7.1聲道的環繞立體聲
缺點:
應用領域:voip
版稅方式:按個收取
備注:MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器,層1, 層2和層3的結構也相同,但它能支持5.1聲道和7.1聲道的環繞立體聲,
21. AAC(Advanced Audio Coding,先進音頻編碼)
型別:Audio
制定者:MPEG
支持帶寬:96-128 kbps
特性:AAC可以支持1到48路之間任意數目的音頻聲道組合、包括15路低頻效果聲道、配音/多語音聲道,以及15路資料,它可同時傳送16套節目,每套節目的音頻及資料結構可任意規定,
AAC主要可能的應用范圍集中在因特網網路傳播、數字音頻廣播,包括衛星直播和數字AM、以及數字電視及影院系統等方面,AAC使用了一種非常靈活的熵編 碼核心去傳輸編碼頻譜資料,具有48 個主要音頻通道,16 個低頻增強通道,16 個集成資料流, 16 個配音,16 種編排,
優點:支持多種音頻聲道組合,提供優質的音質
缺點:
應用領域:voip
版稅方式:一次性收費
備注:AAC于1997年形成國際標準ISO 13818-7,先進音頻編碼(Advanced Audio Coding--AAC)開發成功,成為繼MPEG-2音頻標準(ISO/IEC13818-3)之后的新一代音頻壓縮標準,
在MPEG-2制訂的早期,本來是想將其音頻編碼部分保持與MPEG-1兼容的,但后來為了適應演播電視的要求而將其定義成為一個可以獲得更高質量的多聲 道音頻標準,理所當然地,這個標準是不兼容MPEG-1的,因此被稱為MPEG-2 AAC,換句話說,從表面上看,要制作和播放AAC,都需要使用與MP3完全不同的工具,
22. Dolby AC-3
型別:Audio
制定者:美國杜比公司
支持帶寬:64kbps
特性:提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的資訊在制作和還原程序中全部數字化,資訊損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用,
優點:環繞立體聲,資訊損失很少,細節豐富,具有真正的立體聲效果
缺點:
應用領域:voip
版稅方式:按個收取
備 注:杜比數字AC-3(Dolby Digital AC-3):美國杜比公司開發的多聲道全頻帶聲音編碼系統,它提供的環繞立體聲系統由5個全頻帶聲道加一個超低音聲道組成,6個聲道的資訊在制作和還原過 程中全部數字化,資訊損失很少,細節豐富,具有真正的立體聲效果,在數字電視、DVD和家庭影院中廣泛使用,
23. ASPEC(Audio Spectral Perceptual Entropy Coding)
型別:Audio
制定者:AT&T
支持帶寬:64kps
特性:音頻質量獲得顯著改善,不過計算復雜度也大大提高,而且在回響、低碼率時聲音質量嚴重下降,
優點:音頻質量獲得顯著改善
缺點:計算復雜度的提高,塊邊界影響、預計算復雜度的提高,回響、低碼率時聲音質量嚴重下降
應用領域:voip
版稅方式:按個收取
備注:變換壓縮技術
24. PAC(Perceptual Audio Coder)
型別:Audio
制定者:AT&T
支持帶寬:64kps
特性:音頻質量獲得顯著改善,不過在回響、低碼率時聲音質量嚴重下降,
優點:音頻質量獲得顯著改善
缺點:塊邊界影響、預回響、低碼率時聲音質量嚴重下降
應用領域:voip
版稅方式:按個收取
備注:變換壓縮技術
25. HR
型別:Audio
制定者: 飛利浦
支持帶寬:8Kbps
特性:以增加GSM網路容量為目的,但是會損害語音質量;由于現在網路頻率緊缺,一些大的運營商已經在大城市密集地帶開通此方式以增加容量,
優點:系統容量大
缺點:語音質量差
應用領域:GSM
版稅方式:按個收費
備注:HF半速率,是一種GSM語音編碼方式,
26. FR
型別:Audio
制定者:飛利浦
支持帶寬:13Kbps
特性:是一般的GSM手機的通信編碼方式,可以獲得達到4.1左右Qos的語音通信質量(國際電聯規定語音通信質量Qos滿分為5)
優點:語音質量得到了提高
缺點:系統容量降低
應用領域:GSM
版稅方式:按個收費
備注:FR全速率,是一種GSM語音編碼方式,
27. EFR
型別:Audio
制定者:飛利浦
支持帶寬:13Kbps
特性:用于GSM手機基于全速率13Kbps的語音編碼和發送,可以獲得更好更清晰的語音質量(接近Qos4.7),需要網路服務商開通此項網路功能,手機才能配合實作,
優點:音質好
缺點:需要網路服務商開通此項網路功能,且系統容量降低
應用領域:GSM
版稅方式:按個收費
備注:EFR增強型全速率,一種GSM網路語音的編碼方式,
28. GSM-AMR(Adaptive Multi-Rate)
型別:Audio
制定者:飛利浦
支持帶寬:8Kbps(4.75 Kbps~12.2 Kbps)
特性: 可以對語音進行替換和消音,平滑噪音,支持間斷式傳輸,對語音進行動態偵查,能在各種網路條件下提供優質的語音效果,
優點:音質出色
缺點:
應用領域:GSM
版稅方式:按個收費
備 注:GSM-ASM是一種廣泛使用在GPRS和W-CDMA網路上的音頻標準,在規范ETSI GSM06.90中對GSM-AMR進行了定義,AMR語音編碼是GSM 2+和WCDMA的默認編碼標準,是第三代無線通訊系統的語音編碼標準,GSM-AMR標準基于ACELP(代數激勵線性預測)編碼,它能在廣泛的傳輸條 件下提供高品質的語音效果,
29. EVRC(Enhanced Variable Rate Coder,增強型可變速率編碼器)
型別:Audio
制定者:美國Qualcomm通信公司(即高通)
支持帶寬:8Kbps或13Kbps
特性:支持三種碼率(9.6 Kbps, 4.8 Kbps 和 1.2 Kbps),噪聲抑制,郵件過濾,能在各種網路條件下提供優質的語音效果,
優點:音質出色
缺點:
應用領域:CDMA
版稅方式:按個收費
備 注:EVRC編碼廣泛使用于CDMA網路,EVRC標準遵循規范TIA IS-127的內容,EVRC編碼基于RCELP(松弛碼激勵線性預測)標準,該編碼可以以Rate 1(171bits/packet),Rate 1/2(80bits/packet)或是Rate 1/8(16bits/packet)的容量進行操作,在要求下,它也能產生空包(0bits/packet),
30. QCELP(QualComm Code Excited Linear Predictive,受激線性預測編碼)
型別:Audio
制定者:美國Qualcomm通信公司(即高通)
支持帶寬:8k的語音編碼演算法(可作業于4/4.8/8/9.6Kbps等固定速率上,而且可變速率地作業于800Kbps~9600Kbps之間)
特 性:使用適當的門限值來決定所需速率,QCELP是一種8k的語音編碼演算法(可以在8k的速率下提供接近13k的話音壓縮質量),這是一種可變速率話音編 碼,根據人的說話特性(大家應該能夠體會我們日常的溝通和交流時并不是一直保持某種恒定的方式講話,有間斷、有不同的聲音頻率等都是人的自然表達)而采取 的一種優化技術,
優點:話音清晰、背景噪聲小,系統容量大
缺點: 不是Free
應用領域:CDMA
版稅方式:每年支付一筆使用權費用
備 注:QCELP,即QualComm Code Excited Linear Predictive(QualComm受激線性預測編碼),美國Qualcomm通信公司的專利語音編碼演算法,是北美第二代數字移動電話(CDMA)的 語音編碼標準(IS95),這種演算法不僅可作業于4/4.8/8/9.6kbit/s等固定速率上,而且可變速率地作業于 800bit/s~9600bit/s之間,QCELP演算法被認為是到目前為止效率效率最高的一種演算法,它的主要特點之一,是使用適當的門限值來決定所需速率,I‘1限值懈景噪聲電平變化而變化,這樣就抑制了背景噪聲,使得即使在喧鬧的環境中,也能得到良好的話音質量, CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音,CDMA采用QCELP編碼等一系列技術,具有話音清晰、背景噪聲小等優勢,其性能明顯 優于其他無線移動通信系統,語音質量可以與有線電話媲美, 無線輻射低,
31. Apt-X
型別:Audio
制定者:Audio Processing Technology 公司
支持帶寬:10Hz to 22.5 kHz,56kbit/s to 576 kbit/s(16 bit 7.5 kHz mono to 24-bit, 22.5kHz stereo)
特性:主要用于專業音頻領域,提供高品質的音頻,其特點是:
①采用4:1:4的壓縮與放大方案;
②硬體低復雜度;
③極低的編碼延遲;
④由單芯片實作;
⑤單聲道或立體聲編解碼;
⑥只需單設備即可實作22.5kHz的雙通道立體聲;
⑦高達48kHz的采樣頻率;
⑧容錯性好;
⑨完整的AUTOSYNC?編解碼同步方案;
⑩低功率消耗
優點:高品質的音頻,硬體復雜度低,設備要求低
缺點:不是Free
應用領域:voip
版稅方式:一次性付費
備注:子帶ADPCM(SB-ADPCM)技術
32. SPEEX
型別:Audio
制定者:https://www.xiph.org/
支持采樣率:8KHz, 16KHz, 32KHz(對應窄帶,寬帶,超寬帶)
應用領域:voip
編碼:Speex編解碼器是基于CELP(Code Excited Linear Prediction)激勵線性預測編碼的,而且專門為2至44kbps的語音壓縮而設計的,是有損壓縮,通常用0~10范圍內的質量引數來控制Speex編碼,正常情況下,復雜度為1時噪聲級會比復雜度為10時高1~2 dB(分貝),而復雜度為10的CPU需求是復雜度為1的5倍,實踐證明,最好將復雜度設定在2~4,設定較高則對非語音編碼如雙音多頻(DTMF)音質較為有用,
Speex的主要特性總結如下:
- a. 只支持單聲道,不支持多聲道,
- b. 只能對音頻資料進行處理,不支持音頻資料的輸入輸出,也就是不支持錄音和播放,
- c. 支持強化立體聲編碼(Intensity Stereo Encoding),
- d. 支持資料包丟失隱藏(Packet Loss Concealment、PLC),
- e. 支持固定位元率(Constant Bit Rate、CBR),
- f. 支持可變位元率(Variable Bit Rate、VBR),可大范圍改變位元率(bit-rate)(從2.15kbps到44kbps )
- g. 支持平均位元率(Average Bit Rate、ABR),
- h. 支持非連續傳輸(Discontinuous transmission、DTX),
- i. 支持定點執行(Fixed-point implementation),
- j. 支持浮點執行(Floating-point implementation),
- k. 支持聲學回音消除(Acoustic Echo Canceller、AEC),
- l. 支持殘余回音消除(Residual Echo Canceller、REC),
- m. 支持噪音抑制(Noise Suppression、NS),
- n. 支持混響音消除(Dereverb),
- o. 支持自動增益控制(Automatic Gain Control、AGC),
- p. 支持語音活動檢測(Voice Activity Detection、VAD),
- q. 支持多速率(multi-rate),
- r. 支持嵌入式(Embedded),
- s. 支持重采樣(Resample),
- t. 開源的自由軟體,免專利,免著作權,
- u. 支持可變復雜度(0~10)
- v. 支持定點執行
Speex庫官方網站:http://www.speex.org/
Speex庫API官方英文詳解:http://www.speex.org/docs/api/speex-api-reference/index.html
NSpeex庫(用于.Net和Silverlight的Speex庫)官方網站:http://nspeex.codeplex.com/
Speex庫目前最新的版本是Speex 1.2.0和SpeexDSP 1.2.0,

33. AMR(Adaptive Multi-Rate,自適應多速率)
- 型別:Audio
制定者: AMR由歐洲通信標準化委員會提出,是在移動通信系統中使用最廣泛的語音標準,MMS也采用這一格式作為聲音標準,支持機型:阿爾卡特OT756、西門子CX65等, 和ADPCM一樣,AMR并不是專門的手機鈴聲格式,AMR是被各大手機廠商廣泛認可的一種保存手機錄音的格式,Nokia為WB-AMR格式(AWB)的鈴聲所作的商業命名,已被3GPP(The 3rd Generation Partnership Project,第三代合作伙伴計劃)選定為GSM和3G WCDMA應用的寬帶語言編解標準, - 作用:AMR音頻主要用于移動設備的音頻壓縮,壓縮比非常高,但是音質比較差,主要用于語音類的音頻壓縮,不適合對音質要求較高的音樂類音頻的壓縮,
- 應用領域:voip
- 種類:AMR又分為兩種,一種是AMR-NB(AMR-NarrowBind),語音帶寬范圍:300-3700Hz,8KHz采樣頻率;另外一種是AMR-WB(AMR WideBand),語音帶寬范圍50-7000Hz,16KHz采樣頻率,但考慮語音的短時相關性,每幀長度均為20ms,
- 實作原理:
- (1)AMR-NB
- AMR的采樣頻率為8KHz,每20ms編碼一幀,每個幀中包含160個語音樣點,
- AMR采用的是基于代數碼激勵線性預測(ACELP)的編碼模式,編碼端提取ACELP模型引數(線性預測系數,自適應碼本和固定碼本索引及增益),解碼端接收到資料然后根據這些引數從新合成語音,TD-SCDMA中AMR-NB的實作,此編碼器運用了代數碼本線性預測(ACELP)混合編碼方式,也就是數字語音信號中既包括若干語音特征引數又包括部分波形編碼資訊,再運用這些特征資訊重新合成語音信號的程序,控制這些引數的提取數目,根據速率要求對資訊進行取舍而得到了以下8種速率,混合組成如表一所示的自適應語音編碼器,如模式AMR_12.20就提取出244位元的引數資訊,而模式AMR_4.70卻只提取了95位元資訊,根據這些位元所含的資訊量可以將其分為3類位元class 0,1和2,在信道編碼時class 0和1都將會使用回圈冗余校驗碼進行差錯檢驗,對于class 2則根據上一幀進行恢復,
- (2)AMR-WB
- AMR-WB”全稱為“Adaptive Multi-rate – Wideband”,即“自適應多速率寬帶編碼”,采樣頻率為16kHz,是一種同時被國際標準化組織ITU-T和3GPP采用的寬帶語音編碼標準,也稱為G722.2標準,AMR-WB 支持9種不同的編碼方式:6.6kb/s 8.85kb/s 12.65kb/s 14.25kb/s 15.85kb/s 18.25kb/s 19.85kb/s ,23.05kb/s,23.85kb/s,提供的語音帶寬范圍達到50~7000Hz,人聲感覺比以前更加自然、舒適和易于分辨 ,
- 特性說明:
- a. 位元率是指將數字聲音由模擬格式轉化成數字格式的采樣率,采樣率越高,還原后的音質就越好,
- b. 位元率值與現實音頻對照:
- c. 16kbps=電話音質
- d. 24kbps=增加電話音質、短波廣播、長波廣播、歐洲制式中波廣播
- e. 40kbps=美國制式中波廣播
- f. 56kbps=話音
- g. 64kbps=增加話音(手機鈴聲最佳位元率設定值、手機單聲道MP3播放器最佳設定值)
- h. 112kbps=FM調頻立體聲廣播
- i. 128kbps=磁帶(手機立體聲MP3播放器最佳設定值、低檔MP3播放器最佳設定值)
- j. 160kbps=HIFI高保真(中高檔MP3播放器最佳設定值)
- k. 192kbps=CD(高檔MP3播放器最佳設定值)
- l. 256kbps=Studio音樂作業室(音樂發燒友適用)
速率:

MOS得分:

34. OPUS
型別:Audio/Music
制定者:https://www.xiph.org/
作用:Opus可以處理各種音頻應用,包括IP語音、視頻會議、游戲內聊天、流音樂、甚至遠程現場音樂表演,它可以從低位元率窄帶語音擴展到非常高清音質的立體聲音樂,
技術標準:https://tools.ietf.org/html/rfc6716
兩種聲音編碼的技術:以語音編碼為導向的SILK和低延遲的CELT,Opus可以無縫調節高低位元率,在編碼器內部它在較低位元率時使用線性預測編碼在高位元率時候使用變換編碼(在高低位元率交界處也使用兩者結合的編碼方式),
延遲:Opus具有非常低的演算法延遲(默認為22.5 ms),非常適合用于低延遲語音通話的編碼,像是網上上的即時聲音流、即時同步聲音旁白等等,此外Opus也可以透過降低編碼碼率,達成更低的演算法延遲,最低可以到5 ms,在多個聽覺盲測中,Opus都比MP3、AAC、HE-AAC等常見格式,有更低的延遲和更好的聲音壓縮率,
版稅方式: Opus格式是一個開源免費格式,使用上沒有任何專利或限制,
應用領域:voip
特性說明:
- a. 6 kb/秒到510 kb/秒的位元率;單一頻道最高256 kb/秒
- b. 采樣率從8 kHz(窄帶)到48 kHz(全頻)
- c. 幀大小從2.5毫秒到60毫秒
- d. 支持恒定位元率(CBR)、受約束位元率(CVBR)和可變位元率(VBR)
- e. 支持語音(SILK層)和音樂(CELT層)的單獨或混合模式
- f. 支持單聲道和立體聲;支持多達255個音軌(多資料流的幀)
- g. 可動態調節位元率,音頻帶寬和幀大小
- h. 良好的魯棒性丟失率和資料包丟失隱藏(PLC)
- i. 浮點和定點實作
35. OGG(容器)
型別:Audio
制定者:https://www.xiph.org/
作用:ogg是一種多媒體容器,可以包含很多種音視頻格式
質量:一般見的.ogg的檔案大都ogg的vorbis音頻格式,是一種效果和MP3相媲美的音頻,我最初接觸ogg的時候,以為是純音頻,看過官網的介紹發現他是一個很強大的容器結構,xiph提供的免費的視頻Theora和音頻vorbis都是開源免費的,都包含在ogg的容器中,此外ogg也能包含很多其他音視頻,如:flac,MP3等.
36. iLBC(internet lowbitrate codec)
型別:Audio
制定者:GIPS(google)
性能:它是低位元率的編碼解碼器,提供在丟包時具有的強大的健壯性,iLBC 提供的語音音質等同于或超過 G.729 和 G.723.1,并比其它低位元率的編碼解碼器更能阻止丟包,
支持帶寬:iLBC 以13.3 kb/s (每幀30毫秒)和15.2 kb/s (每幀20毫秒)
優點: iLBC的主要優勢在于對丟包的處理能力,iLBC獨立處理每一個語音包,是一種理想的包交換網路語音編解碼,在正常情況下,iLBC會記錄下當前資料的相關引數和激勵信號,以便在之后的資料丟失的情況下進行處理;在當前資料接收正常而之前資料包丟失的情況下,iLBC會對當前解碼出的語音和之前模擬生成的語音進行平滑處理,以消除不連貫的感覺;在當前資料包丟失的情況下,iLBC會對之前記錄下來的激勵信號作相關處理并與隨機信號進行混合,以得到模擬的激勵信號,從而得到替代丟失語音的模擬語音,總的來說,和標準的低位速率編解碼相比,iLBC使用更多自然、清晰的元素,精確的模仿出原始語音信號,被譽為更適合包交換網路使用的可獲得高語音質量的編解碼,
此外,大部分標準的低位速率編解碼,如G.723.1和G.729,僅對300Hz——3400Hz的頻率范圍進行編碼,在這個頻率范圍里,用G.711編解碼所達到的語音質量,就是傳統PSTN網路進行語音通話的效果,iLBC充分利用了0——4000Hz的頻率帶寬進行編碼,擁有超清晰的語音質量,這大大超出傳統300Hz——3400Hz的頻率范圍,廣受歡迎的Skype網路電話的核心技術之一就是iLBC語音編解碼技術,Global IP Sound稱該編碼器語音品質優于PSTN,而且能忍受高達30%的封包損失,
總的來說,在相同的包交換通信條件下,iLBC的語音質量效果比G.729、G.723.1以及G.711更好,聲音更加圓潤飽滿,且丟包率越高,iLBC在語音質量上的優勢就越明顯!
目前,在國際市場上已經有很多VoIP的設備和應用廠商把iLBC集成到他們的產品中,如:Skype, Nortel等,在國內市場上,目前尚無VoIP廠家正式推出支持“iLBC”的網關設備,迅時公司 率先推出支持“iLBC”的中繼網關和IAD設備,
橫向對比:

37. ISAC(Internet Speech Audio Codec)
- 型別:Audio
- 制定者:GIPS(google)
- 應用范圍:voip(曾被很多公司應用,包括AIM,QQ,Google Talk)
- 版稅方式:FreeI
- 采樣率支持:16khz,24khz,32khz(webrtc中代碼)支持ABR,VBR和CBR:10kbps ~ 52kbps自適應包大小:30~60ms
- 演算法延時:frame + 3ms,
- 框圖如下:

常用codec綜合比較

圖1. 不同編解碼綜合對比

圖2. 不同編解碼延遲

圖3. 不同編解碼質量
參考資料:
1. https://www.itu.int/en/Pages/default.aspx
2. https://www.xiph.org/
3. Google
4. 音頻編解碼標準
學淺,偶有紕漏,望不吝指出,本內容由靈聲訊音頻-語音演算法實驗室整理創作,轉載和使用請與“靈聲訊”聯系,聯系方式:音頻/識別/合成演算法QQ群(696554058)

福利小貼士:
理科只是為自己插上騰飛的翅膀,文科才能讓你飛黃騰達,同意的點贊,謝謝!
贈送原創詩歌公眾號“天一色”,以饗讀者!
發布于 2020-12-18
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/237548.html
標籤:其他
