音視頻入門（四）-JPEG壓縮演算法原理-有解無憂

一、JPEG的引入

JPEG屬于一種圖片壓縮格式，之前我們通過對YUV420影像格式的學習，了解了怎么計算一幀YUV影像的大小，假設這里一幀圖片的解析度為1080p，像素格式為YUV420，那么它的大小就應該為192010803/2，大約為3M大小，那么如果幀率為10fps時，一秒鐘的大小就為30M，顯然，耗費的記憶體過于龐大，這個時候就應該引入影像壓縮的概念，JPEG就是一種最常用的影像壓縮格式，

二、JPEG壓縮原理簡述

在日常生活中所見的壓縮有分為有損壓縮和無損壓縮，JPEG壓縮屬于有損壓縮的一種，有損壓縮的原理也就是把原始資料中不重要的部分去掉，這樣就可以節省它的記憶體占用，比如說“3.141592653”這個小數，我們計算的時候可以取“3.14”，這便是一種有損壓縮的形式，JPEG壓縮的簡單原理亦是如此，將影像資料分為重要資料和不重要資料，這里的不重要資料就是人眼不易觀察的部分，這里可以適當地去除，如上，便是JPEG壓縮設計的簡單原理，

三、JPEG壓縮的具體步驟

步驟一：影像分割

JPEG演算法的第一步，會將一幀完整的圖片切割為8*8大小的小塊，被切割的這些小塊在JPEG壓縮的程序中被當作最小處理單元，
切割前
切割后

步驟二：圖片像素格式由RGB轉YUV

之前的文章中講解過RGB轉YUV，這里簡單說明一下為什么要轉成YUV格式，對于我們而言，壓縮最重要的是將重要的資訊和不重要的資訊分開來，YUV格式的影像格式恰好能做到這一點，對于人眼來說，明暗的變化更容易感知，這里相關生物學的知識就不班門弄斧了，因為本人也不是專業的，這里，YUV格式的圖片將亮度和色度進行了分離，這樣可以方便我們分離開資料的重要程度，從而進行下一步驟的處理，這就是為什么要轉成YUV格式，

步驟三：離散余弦變換

下面我們來介紹一下JPEG壓縮的核心技術，離散余弦變換（DCT變換），具體的故事背景感興趣的自己百度，
前面在步驟一中，我們對影像進行了分割，分成了一個個小塊，每一小塊中，像素的數值的變化是平滑的，假設這一小塊的像素值在79-81之間變化，如果這里用cos函式去模擬這段變化的軌跡，由于塊的大小特別小，所以這里cos函式的頻率是特別大的，這些變化被稱為高頻資訊，
人眼對于這些高頻資訊是不敏感的，對低頻資訊比較敏感，假如將8*8的影像塊和你的電腦背景作為對比，這樣像素值會出現不平滑的變化，變化很大，這時要用函陣列合去擬合這段離散數值時, 就會出現低頻資訊，
因此, 再結合影像壓縮的核心思想, 要用較少的不同數值來表示影像, 就需要找到一種變換, 將影像高頻的資訊和低頻的資訊區分開來, 并將人眼不敏感的資訊映射到接近或等于0，
當我們要處理的是一堆離散的資料時，并且這些資料是對稱的話，那么傅里葉變化出來的函式只含有余弦項，這種變換稱為離散余弦變換，舉個例子，有一組一維資料[x0,x1,x2,…,xn-1],那么可以通過DCT變換得到n個變換級數Fi
在這里插入圖片描述

這個變換是可逆的，原始資料Xi可以通過離散余弦變換變化的逆變換（IDCT)表達出來，
在這里插入圖片描述
經過DCT變換，可以把一個陣列分解成數個陣列的和，如果我們陣列視為一個一維矩陣，那么可以把結果看做是一系列矩陣的和

經過DCT，雜亂的資料會被轉換成幾個工整變化的資料，DCT轉換后的陣列中第一個是一個直線資料，因此又被稱為“直流資料”，簡稱DC，后面的資料被稱為“交流資料”，簡稱AC，這個稱呼起源于信號分析中的術語
在JPEG壓縮程序中，經過顏色空間的轉換，每一個8X8的影像塊，在資料上表現為3個8X8的矩陣，緊接著我們對這三個矩陣做一個二維的DCT轉換，二維的DCT轉換公式為
在這里插入圖片描述
下面我們做一個實際的測驗，比如一個所有數值都一樣的矩陣，經過DCT轉換后，將所有級陣列合成一個新的矩陣

可以看到，經過DCT轉換，矩陣的“能量”被全部集中在左上角上的直流分量F(0,0）上，其他位置都變成了0，
在實際的JPEG壓縮程序中，由于影像本身的連貫性，一個8X8的影像中的數值一般不會出現大的跳躍，經過DCT轉換會有類似的效果，左上角的直流分量保存了一個大的數值，其他分量都接近于0，我們以剛剛那張圖片的左上角第一塊影像的Y分量為例，經過變換的矩陣為
在這里插入圖片描述
可以看到，資料經過DCT變化后，被明顯分成了直流分量和交流分量兩部分，為后面的進一步壓縮起到了充分的鋪墊作用，可以說是整個JPEG中最重要的一步，后面我們會介紹資料量化，

步驟四：資料量化

剛剛將資料進行了離散余弦變換，并從剛剛的講述中可以得知，離散余弦變換是有逆程序的，所以上一個步驟是無損的，真正有損的步驟是在這一步的資料量化，
經過剛剛的格式轉換和離散余弦變換后，每一個小圖塊都變成了3個8*8的浮點矩陣，為什么是3個，因為每個像素點由Y,U,V三個分量組成，它的資料如下
在這里插入圖片描述
接下來，我要在可以損失一部分精度的情況下，用更小的空間來存盤這些數，這個時候我們用到了資料量化，何為量化，就像我們在看小電影的時候，每次快進沒有按幀快進，而是按照10s一次往前進，忽略了一些不太必要的細節，從而達到要求，這里就叫量化，JPEG提供的量化演算法如下：
在這里插入圖片描述
其中G是我們需要處理的影像矩陣，Q稱作量化系數矩陣，JPEG演算法提供了兩張標準的量化系數矩陣，分別用于處理亮度資料Y和色度資料U以及V，

在這里插入圖片描述
亮度量化表

色度量化表

其中round函式是取整函式，但考慮到了四舍五入，也就是說
在這里插入圖片描述
比如上面資料，以左上角的-415.38為例，對應的量子化系數是16，那么round(-415.38/16)=round(-25.96125)=-26，最終得到的量子化后的結果為

可以看到，一大部分資料變成了0，這非常有利于后面的壓縮存盤，這兩張神奇的量化表也是有講究的，有損壓縮就是把資料中重要的資料和不重要的資料分開，然后分別處理，DCT系數矩陣中的不同位置的值代表了影像資料中不同頻率的分量，這兩張表中的資料時人們根據人眼對不不同頻率的敏感程度的差別所積累下的經驗制定的，一般來說人眼對于低頻的分量必高頻分量更加敏感，所以兩張量化系數矩陣左上角的數值明顯小于右下角區域，在實際的壓縮程序中，還可以根據需要在這些系數的基礎上再乘以一個系數，以使更多或更少的資料變成0，我們平時使用的影像處理軟體在生成jpg檔案時，在控制壓縮質量的時候，就是控制的這個系數，
在進入下一節之前，矩陣的量化還有最后一步要做，就是把量化后的二維矩陣轉變成一個一維陣列，以方便后面的霍夫曼壓縮，但在做這個順序轉換時，需要按照一個特定的取值順序，
在這里插入圖片描述
這么做的目的只有一個，就是盡可能把0放在一起，由于0大部分集中在右下角，所以才去這種由左上角到右下角的順序，經過這種順序變換，最終矩陣變成一個整數陣列

-26,-3,0,-3,-2,-6,2,-4,1,-3,0,1,5,1,2,-1,1,-1,2,0,0,0,0,0,-1,-1,0,0,0,0,…,0,0

步驟五：編碼

JPEG最后一步是對變換,量化后的影像進行編碼. 用huffman編碼或者其他編碼方式, 可以顯著節省存盤空間，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/271478.html

標籤：其他

上一篇：數字一階低通濾波器simulink仿真

下一篇：題目：求最大公約數和最小公倍數