人間觀察

時間的流逝總是悄無聲息的

這篇看下音頻的硬編解碼（MediaCodec），主要內容包含

AudioRecord采集pcm硬編碼為aac
mp3硬解碼為pcm
pcm轉為wav格式

為什么介紹這些呢？因為在直播中音頻基本上都是aac格式的，在短視頻中比如：添加背景音進行混音，替換背景音樂，視頻檔案提取音頻，剪切音頻，插入音頻等等都會涉及，所以比較重要，當然也有軟編碼，后續介紹，

因作業中用不到kotlin，示例代碼我采用kotlin進行，順便練習下

AudioRecord采集pcm硬編碼為aac

首先是音頻的采集，在Android中是用AudioRecord，創建示例為：

audioRecord = AudioRecord(
        MediaRecorder.AudioSource.MIC, SAMPLE_RATE, AudioFormat.CHANNEL_IN_MONO,
        AudioFormat.ENCODING_PCM_16BIT, minBufferSize
    )

函式定義

public AudioRecord(int audioSource, int sampleRateInHz, int channelConfig, int audioFormat,
            int bufferSizeInBytes)

audioSource 音頻來源，一般是Microphone
sampleRateInHz 采樣頻率，比如16000，44100，具體可以參考上篇
channelConfig 聲道數，單聲道AudioFormat.CHANNEL_IN_MONO（在所有設定上支持），雙聲道AudioFormat.CHANNEL_IN_STEREO，一般是單聲到
audioFormat 一個采樣點用幾位描述，取值有AudioFormat.ENCODING_PCM_16BIT，ENCODING_PCM_8BIT，視情況而定，一般是AudioFormat.ENCODING_PCM_16BIT 2個位元組，
bufferSizeInBytes 快取區，需要>=AudioRecord.getMinBufferSize()的大小，否則AudioRecord創建失敗，

如何編碼為aac呢？和視頻一樣用MediaCodec，部分代碼如下分為初始化，配置，啟動等幾個階段，

//AAC
val format = MediaFormat.createAudioFormat(
    MediaFormat.MIMETYPE_AUDIO_AAC,
    SAMPLE_RATE,
    CHANNEL_COUNT
)
//錄音質量
format.setInteger(MediaFormat.KEY_AAC_PROFILE, MediaCodecInfo.CodecProfileLevel.AACObjectLC)
//碼率,1s的bit
format.setInteger(MediaFormat.KEY_BIT_RATE, 64_000)

mediaCodec = MediaCodec.createEncoderByType(MediaFormat.MIMETYPE_AUDIO_AAC)
mediaCodec?.configure(format, null, null, MediaCodec.CONFIGURE_FLAG_ENCODE)
mediaCodec?.start()

開始編碼

override fun run() {
    super.run()
    audioRecord?.startRecording()
    val bufferInfo = MediaCodec.BufferInfo()
    while (isEncoding) {
        // 1.獲取音頻
        val buffer = ByteArray(minBufferSize)
        val len: Int? = audioRecord?.read(buffer, 0, buffer.size)
        if (len!! <= 0) {
            continue
        }
        // 2.編碼
        val index = mediaCodec?.dequeueInputBuffer(10_1000)
        if (index!! >= 0) {
            val inputBuffer = mediaCodec?.getInputBuffer(index)
            inputBuffer!!.clear()
            inputBuffer.put(buffer, 0, len)
            mediaCodec?.queueInputBuffer(index, 0, len, System.nanoTime() / 1000, 0)
        }

        // 3.獲取編碼后的資料進行下一步的處理（比如：推流等）
        var outIndex = mediaCodec?.dequeueOutputBuffer(bufferInfo, 10_000)
        while (outIndex!! >= 0 && isEncoding) {
            mediaCodec?.getOutputBuffer(outIndex)
            val outData = ByteArray(bufferInfo.size)

            // outData 為編碼后的aac資料,temp to file
            fileOutputStream.write(outData)

            mediaCodec?.releaseOutputBuffer(outIndex, false)
            outIndex = mediaCodec?.dequeueOutputBuffer(bufferInfo, 0)
        }
    }
    fileOutputStream.flush()
    fileOutputStream.close()
    Log.d(TAG, "AudioEnCodeThread done")
}

關于MediaCodec的介紹可以參考Android音視頻【三】硬解碼播放H264 ，

mp3硬解碼為pcm

mp3的解碼這里我們也用Android自帶的硬解碼MediaCodec，也有其它的比如lame，jlayer等開源庫，
本示例是解碼一個mp3檔案，解碼流（網路流等）也差不多，
如果要解碼mp3檔案或者從視頻檔案中提取音頻，要借助MediaExtractor類，選擇對應的音頻軌道selectTrack，然后不斷的提取對應的音頻資料readSampleData，把提取的資料交給mediaCodec解碼得到pcm資料，

選擇對應的音頻軌道

mediaExtractor.setDataSource(srcPath)
var index = -1
val count = mediaExtractor.trackCount
for (i in 0 until count) {
    val format = mediaExtractor.getTrackFormat(i)
    if (format.getString(MediaFormat.KEY_MIME)!!.startsWith("audio/")) {
        index = i
    }
}
mediaExtractor.selectTrack(index)

獲取完音頻軌道的id后再得到音頻的配置資訊MediaFormat，MediaFormat里有采樣率，聲道數等，然后進行初始化音頻解碼器如下：

val format = mediaExtractor.getTrackFormat(index)
val mediaCodec = MediaCodec.createDecoderByType(format.getString(MediaFormat.KEY_MIME)!!)
mediaCodec.configure(format, null, null, 0)
mediaCodec.start()

讀取資料并塞給mediaCodec進行解碼

val info = MediaCodec.BufferInfo()
while (true) {
    val inputIndex = mediaCodec.dequeueInputBuffer(10 * 1000);
    if (inputIndex >= 0) {
        val sampleTimeUs = mediaExtractor.getSampleTime();
        if (sampleTimeUs == -1L) {
            Log.d(TAG, "break")
            break
        }
        info.presentationTimeUs = sampleTimeUs
        info.flags = mediaExtractor.sampleFlags
        info.size = mediaExtractor.readSampleData(buffer, 0)

        val data = ByteArray(buffer.remaining())
        buffer.get(data)

        val inputBuffer = mediaCodec.getInputBuffer(inputIndex)
        inputBuffer!!.clear()
        inputBuffer.put(data)
        mediaCodec.queueInputBuffer(
            inputIndex,
            0,
            info.size,
            info.presentationTimeUs,
            info.flags
        )
        mediaExtractor.advance()
    }

    var outputIndex = mediaCodec.dequeueOutputBuffer(info, 10_000)
    while (outputIndex >= 0) {
        val outByteBuffer = mediaCodec.getOutputBuffer(outputIndex)

        // to file
        writePcmChannel.write(outByteBuffer)

        mediaCodec.releaseOutputBuffer(outputIndex, false)
        outputIndex = mediaCodec.dequeueOutputBuffer(info, 0)
    }
}

在進行解碼的時候不要丟棄了時間戳和flags，時間戳是為了音視頻的同步，雖然在本例中沒有用到，但最好還是帶上，

pcm轉為wav格式

WAV是由微軟開發的一種音頻格式，WAV檔案是在PCM資料的基礎上添加一組頭資訊（大小44個位元組），用于描述這個WAV檔案的采樣率，聲道數，采樣位數，音頻資料大小等資訊，這樣WAV就可以被一般音頻播放器（比如Android的mediaplayer）正確讀取并播放，而PCM檔案因為只有編碼的音頻資料，沒有其他描述資訊，所以無法被一般的音頻播放器識別播放，如果想要播放pcm可以用專業的可以播放pcm檔案的軟體，Android中用Audiotrack進行播放，

WAV檔案格式如下，圖片來源于網路（https://www.jianshu.com/p/86edb2422b21）

wav檔案格式

可以看到，WAV檔案頭資訊由大小44個位元組的資料組成：

private void writeWaveFileHeader(FileOutputStream out, long totalAudioLen,
                                 long totalDataLen, long longSampleRate, int channels, long byteRate)
        throws IOException {
    byte[] header = new byte[44];
    header[0] = 'R'; // RIFF/WAVE header
    header[1] = 'I';
    header[2] = 'F';
    header[3] = 'F';
    // 資料大小
    header[4] = (byte) (totalDataLen & 0xff);
    header[5] = (byte) ((totalDataLen >> 8) & 0xff);
    header[6] = (byte) ((totalDataLen >> 16) & 0xff);
    header[7] = (byte) ((totalDataLen >> 24) & 0xff);
    header[8] = 'W';  //WAVE
    header[9] = 'A';
    header[10] = 'V';
    header[11] = 'E';
    header[12] = 'f'; // 'fmt ' chunk
    header[13] = 'm';
    header[14] = 't';
    header[15] = ' '; //過渡位元組
    header[16] = 16;  // 4 bytes
    header[17] = 0;
    header[18] = 0;
    header[19] = 0;
    // 2位元組資料，內容為一個短整數，表示格式種類（值為1時，表示資料為線性PCM編碼）
    header[20] = 1;   // format = 1
    header[21] = 0;
    header[22] = (byte) channels;  //通道數（單聲道為1，雙聲道為2）
    header[23] = 0;
    //采樣率，每個通道的播放速度，用4位元組表示 
    header[24] = (byte) (longSampleRate & 0xff);
    header[25] = (byte) ((longSampleRate >> 8) & 0xff);
    header[26] = (byte) ((longSampleRate >> 16) & 0xff);
    header[27] = (byte) ((longSampleRate >> 24) & 0xff);
    //音頻資料傳送速率,采樣率*通道數*采樣深度/8
    header[28] = (byte) (byteRate & 0xff);
    header[29] = (byte) ((byteRate >> 8) & 0xff);
    header[30] = (byte) ((byteRate >> 16) & 0xff);
    header[31] = (byte) ((byteRate >> 24) & 0xff);
    // 確定系統一次要處理多少個這樣位元組的資料，確定緩沖區，通道數*采樣位數 用2個位元組表示
    header[32] = (byte) (channels * 16 / 8); // block align
    header[33] = 0;
    header[34] = 16;  // bits per sample 每個樣本的資料位數
    header[35] = 0;
    header[36] = 'd'; //data
    header[37] = 'a';
    header[38] = 't';
    header[39] = 'a';
    // pcm資料的大小
    header[40] = (byte) (totalAudioLen & 0xff);
    header[41] = (byte) ((totalAudioLen >> 8) & 0xff);
    header[42] = (byte) ((totalAudioLen >> 16) & 0xff);
    header[43] = (byte) ((totalAudioLen >> 24) & 0xff);
    out.write(header, 0, 44);
}

只要按照wav格式的拼接即可，

總結

本文介紹了AudioRecord采集pcm通過MediaCodec硬編碼為aac資料，
如何把音頻mp3檔案解碼為PCM資料，以及如何把PCM編碼為WAV，有了這些基礎后，然后進行音頻檔案的裁剪，插入，合成，混音等編輯操作和對應的處理原理就比較容易處理了，任何音頻的操作都是對pcm資料進行處理，

原始碼

https://github.com/ta893115871/AudioAACAndMP3

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/259829.html

標籤：其他

上一篇：C++描述 LeetCode 5676. 生成交替二進制字串的最少運算元

下一篇：765. 情侶牽手

android音視頻【九】音頻硬編解碼pcm&aac&wav

AudioRecord采集pcm硬編碼為aac

mp3硬解碼為pcm

pcm轉為wav格式

總結

原始碼