主頁 >  其他 > 假期之不務正業—— Qt+FFmpeg+百度api進行視頻的語音識別

假期之不務正業—— Qt+FFmpeg+百度api進行視頻的語音識別

2021-02-15 13:12:33 其他

假期之不務正業——Qt+FFmpeg+百度api進行視頻的語音識別

  • 一、前言
  • 二、FFmpeg進行音頻提取和重采樣
  • 三、對音頻分段
  • 四、百度api呼叫
  • 五、Qt編程的一些補充
  • 六、結語

一、前言

現在語音識別技術逐漸發展,先有siri開個好頭,現在有各種小度小愛什么的輪番上陣,王者榮耀有語音識別以后,祖安起來也省事多了,我看一些視頻教程的時候,對一些講的不錯的,也有記筆記的習慣,可是每次都是把視頻暫停,然后一句一句敲出word,說實話,也沒見學習效果有多好,反而效率變得低到不行,想來想去,咱也不能一直停留在這么笨比的方式,總是想整點活,

其實網上就有一些提取字幕的、或是語音識別的應用,應該效果也不錯(我沒試),但是要錢(emmmmm),所以暫時先放棄這個方案,而且如果自己做一個那不是快樂加倍?于是利用假期時間,自己找了一些資料借(chao)鑒(xi)了一下,也是算是自己從零開始做的垃圾,

先放一下目前做到的:
主界面
運行視窗
除錯視窗
我主要選擇了4個B站的視頻來測驗運行結果,順便一提,B站用手機端下載視頻后,會在快取檔案里發現audio.m4s和vedio.m4s,實際上,FFmpeg可以直接打開m4s格式,因此如果僅僅是為了對音頻進行處理,不需要將兩個檔案合流為一個(合流的方法也很簡單,尤其是使用FFmpeg,可以直接百度),

我選擇的4個視頻分別是冰冰vlog、盧本偉17張牌名場面、小潮院長的不要做挑戰和吳恩達老師的機器學習課程,鏈接放在下文,我這里就夾帶私貨安利一波,下面是識別結果:
結果1
結果2
結果3
結果4

簡單復盤一下:識別結果也算還可以,與英文相比,中文能夠帶上標點符號看起來更利落一些,顯然,語速放慢,說話更標準時,識別效果更好(這不是廢話嗎),可以看到小潮的不要做挑戰的前面正經講游戲規則時,識別結果還能接受,到后面整活了,識別結果驢唇不對馬嘴,對于語速中規中矩的視頻(尤其對于目的:視頻教程),能有一些幫助;但如果是小視頻(尤其節奏比較快的),那還是算了吧,

總體思路就是:Qt做個外殼,FFmpeg提取視頻里的音頻,百度api進行語音識別,由于百度開放的免費介面要求時長在1分鐘以內,所以對于超過一分鐘時長的音頻,需要進行分段(順便一提,免費介面使用量是中文普通話5w次,英文2w次),下面對于各個部分的內容和遇到的(包括未處理完的)問題簡單做一下記錄,

以下是本實作主要參考資料的相關鏈接:
1、提供FFmpeg相關操作流程:
《使用 FFmpeg 進行音視頻操作》,這個CSDN博客介紹了FFmpeg的主要模塊、音視頻解碼與重采樣等內容,主要都是文字介紹,具體代碼實作也有一部分,有一定的參考價值(后面的記錄僅寫一些我的作業和問題吧,這個博客的內容不會轉載的),放下鏈接:
https://gitchat.csdn.net/activity/5d08d7d44ea36e699ecac739
2、提供百度API相關操作流程:
《Qt語音識別 | 百度語音識別應用》,這個B站視頻介紹百度API的介面、使用Qt來呼叫百度API的方法,我的相關操作全部參考這個視頻(因此后面的記錄里代碼部分不會太多,參考也經過老師同意),有興趣的直接看視頻吧,放下鏈接:
https://www.bilibili.com/video/BV19K411V79h

以下是上面效果展示的原視頻鏈接:
1、【冰冰vlog.001】帶大家看看每個冬天我必去的地方
https://www.bilibili.com/video/BV1vy4y1i7bS
2、【名場面】17張牌你能秒我?你能秒殺我?你今天17張牌把盧本偉秒了,我當場就把這個電腦螢屏吃掉!
https://www.bilibili.com/video/BV1W4411r7ue
3、不要“做”挑戰 ?
https://www.bilibili.com/video/BV1x7411Z7VA
4、[中英字幕]吳恩達機器學習系列課程
https://www.bilibili.com/video/BV164411b7dx

二、FFmpeg進行音頻提取和重采樣

關于FFmpeg的介紹、使用,可以直接看前言的鏈接,或者找其他教程,這里也直接梳理一下我們需要做的事情和以及整個程序:
1.對于視頻檔案,需要解封裝,即分離出音頻流或者視頻流或者其他亂七八糟的東西,得到音頻流引數,如聲道數、采樣率、采樣格式等等,
2.解封裝后的音頻流,再進行解碼,得到音頻的實際采樣資料,
3.設定重采樣引數,分配存盤重采樣的資料空間,對于重采樣引數,需要配合百度API的要求:單聲道、采樣率16000Hz、16bit量化,
4.讀取原資料,將重采樣后得到的資料,并將資料寫入檔案,建議直接pcm檔案,簡單粗暴,
5.釋放之前申請的資源,

對于這部分,我們可以考慮封裝成一個類ExtractAudio(請不要吐槽我的命名品味,真不會),方便呼叫和后續的查看,最開始除錯時我就是直接全寫在一個函式里面的,省事是省事,但是太長了會看得累,以下是代碼(.cpp)部分:

void ExtractAudio::init()
{
	//初始化引數
	in_nb_samples = 1024; //輸入采樣點數
	out_channel_layout = AV_CH_LAYOUT_MONO; //輸出格式(聲道數)
	out_sample_rate = SAMPLE_RATE; //輸出采樣率
	out_sample_fmt = AV_SAMPLE_FMT_S16; //輸出樣本格式
}


//打開檔案函式,回傳值為解封裝背景關系
AVFormatContext *ExtractAudio::open(QString inpath)
{
	av_register_all();//初始化封裝庫
	AVDictionary *opts = NULL;//引數設定
	AVFormatContext *format = avformat_alloc_context();//解封裝背景關系
	//QString轉換為char陣列
	QByteArray ba = inpath.toLocal8Bit();
	char* cpath = ba.data();
	//打開視頻檔案,引數3:0表示自動選擇解封器,引數4:引數設定(比如rtsp的延時時間)
	int re = avformat_open_input(&format, (const char*)cpath, 0, &opts);
	if (re != 0)//打開失敗
		return NULL;
	else
		return format;
}


//解碼函式,回傳值為解碼器背景關系
AVCodecContext *ExtractAudio::decodec(AVFormatContext *format)
{
	//獲取流資訊,不是所有的格式都需要呼叫
	//但是即便頭已經獲取過,這里再獲取也沒有問題
	//所以原則上每次都獲取一下
	int re = avformat_find_stream_info(format, 0);//獲取流資訊
	if (re < 0)
		return NULL;

	//使用遍歷的方法獲取音視頻流資訊
	for (int i = 0; i < format->nb_streams; i++)
	{
		AVStream *as = format->streams[i];
		//音頻
		if (as->codecpar->codec_type == AVMEDIA_TYPE_AUDIO)
		{
			audioStream = i;
			break;
		}
	}
	
	//音頻解碼器打開
	AVCodec *acodec = avcodec_find_decoder(format->streams[audioStream]->codecpar->codec_id); //找到音頻解碼器
	if (!acodec) //沒有找到音頻解碼器
		return false;

	AVCodecContext *avctx = avcodec_alloc_context3(acodec); //創建解碼器背景關系
	avcodec_parameters_to_context(avctx, format->streams[audioStream]->codecpar); //配置解碼器背景關系引數
	avctx->thread_count = 8; //解碼執行緒數改為8
	re = avcodec_open2(avctx, 0, 0); //打開解碼器背景關系
	if (re != 0) //打開解碼器失敗
		return NULL;

	return avctx;
}


//音頻重采樣初始化函式,回傳值為音頻重采樣背景關系
SwrContext *ExtractAudio::initswr(AVCodecContext *avctx, uint8_t **out_data)
{
	//設定音頻重采樣
	SwrContext *swr = swr_alloc();
	in_channel_layout = avctx->channel_layout;
	in_sample_rate = avctx->sample_rate;
	in_sample_fmt = avctx->sample_fmt;

	av_opt_set_int(swr, "in_channel_layout", in_channel_layout, 0);
	av_opt_set_int(swr, "out_channel_layout", out_channel_layout, 0);
	av_opt_set_int(swr, "in_sample_rate", in_sample_rate, 0);
	av_opt_set_int(swr, "out_sample_rate", out_sample_rate, 0);
	av_opt_set_sample_fmt(swr, "in_sample_fmt", in_sample_fmt, 0);
	av_opt_set_sample_fmt(swr, "out_sample_fmt", out_sample_fmt, 0);
	swr_init(swr);
	if (!swr_is_initialized(swr))
		return NULL;

	//計算轉換樣本的數量:避免快取
	//確保輸出緩沖區至少包含所有轉換后的輸入樣本
	out_nb_samples = av_rescale_rnd(in_nb_samples, out_sample_rate, in_sample_rate, AV_ROUND_UP);
	//緩沖區將直接寫入原始音頻檔案,無需對齊
	out_nb_channels = av_get_channel_layout_nb_channels(out_channel_layout);
	int re = av_samples_alloc_array_and_samples(&out_data, &out_linesize, out_nb_channels,
		out_nb_samples, out_sample_fmt, 0);
	if (re < 0)
		return NULL;

	return swr;
}


//音頻重采樣函式,回傳值為輸出緩沖區的位元組數
//回傳值為0時,未找到音頻流或暫無音頻流,可繼續執行函式
//回傳值為-1時,重采樣失敗,應中斷
int ExtractAudio::resample(AVFormatContext *format, AVCodecContext *avctx, 
	SwrContext *swr, uint8_t **out_data, AVFrame *frame, AVPacket *pkt)
{
	if (pkt->stream_index != audioStream) //判斷是否為音頻流
		return 0;

	//解碼一幀音頻
	int gotFrame;
	if (avcodec_decode_audio4(avctx, frame, &gotFrame, pkt) < 0)
		return -1;
	if (!gotFrame)
		return 0;

	//重采樣
	int frame_count = swr_convert(swr,
		out_data, out_nb_samples, //輸出
		(const uint8_t **)frame->data, in_nb_samples  //輸入
	);
	if (frame_count < 0)
		return -1;

	out_bufsize = av_samples_get_buffer_size(&out_linesize, out_nb_channels, frame_count, out_sample_fmt, 1);
	av_packet_unref(pkt);//釋放,參考計數-1,為0釋放空間
	av_frame_unref(frame);
	return out_bufsize;
}


// 釋放空間函式
void ExtractAudio::clear(AVFormatContext *format, AVCodecContext *avctx, 
	SwrContext *swr, AVFrame *frame, AVPacket *pkt)
{
	//結束,釋放空間
	avformat_close_input(&format);
	avcodec_close(avctx);
	swr_free(&swr);
	av_frame_free(&frame);
	av_packet_free(&pkt);
	av_free(frame);
	av_free(pkt);
}

但是這里雖然代碼上釋放了,占用空間并沒有釋放,我自己測驗如果打開了一個2G的視頻,即便將整個程序都跑完,參考計數也減了,free函式也用了,2G記憶體還是占著,吐血,所以每次感覺視頻大小差不多了,就可以把應用關了重開吧,

三、對音頻分段

得到重采樣完的資料之后,就可以進行分段處理了,對于短語音識別,時長不能超過1分鐘,我這里采用的方法就是,在從每段音頻第30s處開始,一直到第60s前,計算1s以內采樣值(絕對值)之和,和最小的地方,是我認為這個人聲說話的停頓處,有幾點補充就是,一是采樣率已經默認好是16000Hz;二是每兩次求和間的步進,我暫時默認為是0.01s,比如求完了第30s—第31s的和,下一次就求30.01s—31.01s的和,當然這個步進是可以進行變化的,但是個人認為沒有必要使步進太小,計算次數變多后很慢(我做過步進是一個采樣點的嘗試,速度非常非常的慢),

當然這個方法肯定并不是最優的,對于有BGM的視頻來說,可能人不在說話,背景音樂還是有的,從一句話中間給掐斷的可能性不是沒有,另一個是引數的設定,這里面有很多引數是需要根據視頻的情況的調整的,包括比如上面說的從第30s開始,可以換成別的數字;再比如計算1s以內的采樣值之和,如果視頻的節奏比較快(像小潮的一些視頻)或者說話人語速感人,也可以調整;或者是步進等其他引數,但是我覺得我這里設定的引數還算中規中矩,也可以不變,對于這一部分,我們封裝為SeparatePCM類,以下是代碼(.cpp)部分:

#include "SeparatePCM.h"

#include <qdir.h>

#define SAMPLE_RATE 16000

SeparatePCM::SeparatePCM()
{
	//初始化
	//創建一個新緩沖檔案夾,用于保存分段后的每一段音頻資料
	QDir *folder = new QDir;
	folderStr = "D:\\temp\\temp\\";
	bool exist = folder->exists(folderStr);
	if (!exist)
	{
		folder->mkdir(folderStr);
	}
	delete folder;

	//音頻處理相關系數初始化
	sample_rate = SAMPLE_RATE;
	sample_amount = 60 * sample_rate; //60s內的樣點總數
	start = 0; //每次分段時的第0s的位置
	position = 0; //當前位置
	best_position = 0; //判斷的最佳靜音段位置
	now_sum = 0; //初始分段的采樣點值之和
	number = 1; //初始分段序號

	//下面的引數可以根據實際情況進行調整
	step = 0.01 * sample_rate; //步進,這里設定為0.01s,可以根據實際情況調整
	threshold_len_silence = 1 * sample_rate; //判斷為靜音段的默認時長,這里設定為1s,可以根據實際情況調整
	start_position = (long)sample_amount / 6 * 3; //開始分段的位置,這里設定為第30s,可以根據實際情況調整
}


SeparatePCM::~SeparatePCM()
{
}


//打開檔案函式,回傳打開檔案是否成功
bool SeparatePCM::open(QString inpath)
{
	filePath = inpath;
	QByteArray ba = filePath.toLocal8Bit();
	char* path = ba.data();
	//獲取檔案的指標
	FILE *file = fopen((const char*)path, "rb");
	if (!file)
		return false;
	//把指標移動到檔案的結尾 ,獲取檔案長度
	fseek(file, 0, SEEK_END);
	//獲取檔案長度
	fileLength = ftell(file);
	//關閉檔案
	fclose(file);
	return true;
}


//音頻檔案分段處理函式
void SeparatePCM::execute()
{
	// 打開檔案
	QByteArray ba = filePath.toLocal8Bit();
	char* path = ba.data();
	FILE *file = fopen((const char*)path, "rb");

	//定義陣列長度
	long bufferSize = fileLength / 2;
	
	//判斷音頻時長是否夠60s
	if (bufferSize < sample_amount)
	{
		//音頻檔案時長不足60s,不需要分段
		outpath = folderStr + pcmStr.arg(1);
		QFile::copy(filePath, outpath);
		fclose(file);
		return;
	}

	//設定讀取檔案存盤區
	short *fileBuffer = new short[bufferSize];
	//讀檔案
	fread(fileBuffer, sizeof(short), bufferSize, file);

	//對超過60s音頻檔案進行分段
	short max_value = 0; //音頻檔案采樣值的最大值(絕對值)
	for (long i = 0; i < bufferSize; i++)
	{
		if (abs(fileBuffer[i]) > max_value)
			max_value = abs(fileBuffer[i]);
	}
	
	//記錄分段中最小的采樣點值之和,初始值設定大一些方便后續更新
	min_sum = (long)threshold_len_silence * max_value; 
	//分段資料緩沖區
	short *cutfileBuffer = new short[sample_amount];
	
	//回圈執行音頻分段,直到剩一段時長<60s
	while (true)
	{
		//從分段的位置開始,間隔步長,遍歷尋找分段點
		for (position = start_position + start; position < (long)sample_amount + start - 1; position += step)
		{
			//計算默認靜音時長下的采樣值的和
			for (int i = 0; i < threshold_len_silence; i++)
			{
				now_sum = now_sum + (long)abs(fileBuffer[position - i]);
			}
			//判斷是否最小
			if (now_sum < min_sum)
			{
				min_sum = now_sum;
				//best_position = position - threshold_len_silence / 2;
				best_position = position - (long)threshold_len_silence / 2;
			}
			now_sum = 0;
		}
		//復制資料并把結果寫入檔案
		copyData_and_writeFile(fileBuffer, cutfileBuffer, best_position - start + 1);
	
		//判斷剩下的資料是否還需要分段(若剩下的資料不足60s,直接匯出即可)
		start = best_position + 1;
		number++;
		if (start > bufferSize - sample_amount)
		{
			//復制資料并把結果寫入檔案
			copyData_and_writeFile(fileBuffer, cutfileBuffer, bufferSize - start + 1);
			break;
		}
		//為下次分段初始化
		now_sum = 0;
		min_sum = (long)threshold_len_silence * max_value;
	}
	delete[] cutfileBuffer;
	delete[] fileBuffer;

	fclose(file);

	//洗掉提取的音頻檔案
	QFile fileTemp(filePath);
	fileTemp.remove();
	fileTemp.close();
}


//復制資料并將其寫入檔案
//引數:檔案存盤區指標、分段資料緩沖區指標、資料長度
void SeparatePCM::copyData_and_writeFile(short *fileBuffer, short *cutfileBuffer, int len_cut)
{
	short *pfile = NULL; //設定原檔案讀取指標
	//復制資料
	pfile = fileBuffer + start;
	memcpy(cutfileBuffer, pfile, len_cut * 2);
	//把結果寫入檔案
	outpath = folderStr + pcmStr.arg(number);
	QByteArray qba = outpath.toLocal8Bit();
	char *cpath = qba.data();
	FILE *cfile = fopen((const char*)cpath, "wb");
	fwrite(cutfileBuffer, sizeof(short), len_cut, cfile);
	fclose(cfile);
}

四、百度api呼叫

這里也不再多說,請全部參考上文的B站視頻吧,代碼也不放了,基本是一模一樣的,唯一的區別是我加上了“中文”或者“英文”的判斷,在url里改變pid=1537或者1737,在這基礎上,封裝成了一個WriteText類,以下是代碼(.cpp)部分:

#include "WriteText.h"
#include "Speech.h"
#include <qdir.h>
#include <qfile.h>
#include <qiodevice.h>


WriteText::WriteText()
{
}


WriteText::~WriteText()
{
}


void WriteText::execute(QString fileName, int id)
{
	QFile file(fileName);
	file.open(QIODevice::WriteOnly | QIODevice::Text | QIODevice::Append);

	//開始識別
	//可以獲取檔案夾路徑下的所有檔案資訊
	QStringList filter;
	//檔案篩選,可以置為空,獲取所有檔案資訊
	filter << QString("*.pcm");
	//找到分段后的緩沖檔案夾
	QString folderStr = "D:\\temp\\temp\\";
	//獲取檔案夾資訊,并初始化需要識別的檔案
	QDir dir(folderStr);
	dir.setNameFilters(filter);
	QFileInfoList fileInfoList = dir.entryInfoList(filter);
	int dir_count = fileInfoList.count();
	QString pcmFileName("%1.pcm");
	QString fullFileName;

	for (int i = 0; i < dir_count; i++)
	{
		//遍歷檔案夾內的所有檔案
		fullFileName = folderStr + pcmFileName.arg(i + 1);
		//利用百度api進行音頻識別
		Speech m_speech;
		QString str = m_speech.speechIdentify(fullFileName, id);
		//將結果寫入檔案中
		QTextStream txtStream(&file);
		txtStream << str << "\n";

		//洗掉快取的音頻分段檔案
		QFile fileTemp(fullFileName);
		fileTemp.remove();
		fileTemp.close();
	}
	file.close();

	//洗掉保存分段音頻的快取檔案夾
	dir.removeRecursively();
}

另外在提醒一點就是,呼叫api之前,一定要先確保自己的免費額度已經領取(如下圖),否則呼叫api失敗的同時貌似還占用了次數(我也不太清楚),反正就是算是個坑吧,我就找了半天錯誤,查了好久才發現是這里出錯了QAQ,錯誤碼3304,
百度API

五、Qt編程的一些補充

1、Qt在打開檔案時,可能面對一些帶有中文的字串,我的方法是在需要支持中文的cpp最開始進行以下宣告:

//設定UTF-8編碼以支持中文
#if defined(_MSC_VER) && (_MSC_VER >= 1600)    
# pragma execution_character_set("utf-8")    
#endif

然后在建構式里添加:

//設定中文編碼
QTextCodec *codec = QTextCodec::codecForName("GBK");
QTextCodec::setCodecForLocale(codec);

即可,
當然GBK是windows系統下的,如果跨平臺的話還需要找其他編碼,

2、整個流程執行下來速度不算慢,但是也需要等待,這個時候肯定是要把運算的流程放入運算執行緒里面防止界面卡死,創建自定義執行緒類MyThread,繼承于QThread,重寫run函式,并定義bool值判斷執行緒結束與否,先放代碼:
MyThread.h:

#ifndef MYTHREAD_H
#define MYTHREAD_H
#include <QThread>
#include <QFileInfo>
#include <QMessageBox>
#include <QTextCodec>
#include <QFile>

#include "ExtractAudio.h"
#include "SeparatePCM.h"
#include "WriteText.h"

class QString;

class MyThread : public QThread
{
	Q_OBJECT
public:
	MyThread();

	void setMessage(const QStringList &message);
	void setLanguage(int id);
	void stop();

protected:
	void run();

	void extracrAudio(QString strInPath, QString strOutPath); //提取音頻并重采樣
	QString separatePCM(QString strInPath); //音頻分段
	void writeText(QString strInPath); //語音識別并將結果寫入txt

private:
	QStringList str_path_list; //待處理的視頻檔案串列
	int languageId; //傳入語種id
	volatile bool m_Stopped;

signals:
	void updateProgress(int);
	void updateLabel(QString);
};

#endif // MYTHREAD_H

MyThread.cpp:

#include "mythread.h"
#include <iostream>
using namespace std;

//設定UTF-8編碼以支持中文
#if defined(_MSC_VER) && (_MSC_VER >= 1600)    
# pragma execution_character_set("utf-8")    
#endif

MyThread::MyThread()
{
	m_Stopped = false;

	//設定中文編碼
	QTextCodec *codec = QTextCodec::codecForName("GBK");
	QTextCodec::setCodecForLocale(codec);
}

void MyThread::setMessage(const QStringList &message)
{
	str_path_list = message;
}

void MyThread::setLanguage(int id)
{
	languageId = id;
}

void MyThread::stop()
{
	m_Stopped = true;
}

void MyThread::run()
{
	while (!m_Stopped)
	{
		//doSomething
		QString strShowLabel;
		for (int i = 0; i < str_path_list.size(); i++)
		{
			QString inPath = str_path_list[i]; //單個輸入檔案路徑
			QFileInfo fileInfo = QFileInfo(inPath); //獲取輸入檔案資訊
			QString file_name = fileInfo.fileName(); //輸入檔案名
			QString fileSuffix = fileInfo.suffix(); //輸入檔案后綴

			strShowLabel = "正在處理:" + file_name; 
			emit updateLabel(strShowLabel);

			QString outPcmName = file_name.replace(fileSuffix, "pcm"); //輸出pcm檔案名
			QString outPcmPath = "D:\\temp\\" + outPcmName; //輸出pcm路徑
			QString outTextName = file_name.replace("pcm", "txt"); //輸出txt檔案名
			QString outTextPath = "D:\\temp\\" + outTextName; //輸出txt路徑

			//下面這一段是處理步驟
			extracrAudio(inPath, outPcmPath); //提取音頻并重采樣
			QString temppath = separatePCM(outPcmPath); //音頻分段,并獲取緩沖檔案夾
			writeText(outTextPath); //音頻識別,并將結果寫入txt中
			cout << endl;

			int v = 100 * (i + 1) / str_path_list.size();
			emit updateProgress(v);
		}
		str_path_list.clear();
		strShowLabel = tr("處理結束!");
		emit updateLabel(strShowLabel);
	}		

	m_Stopped = false;
}


//提取音頻并重采樣
void MyThread::extracrAudio(QString strInPath, QString strOutPath)
{
	//申請輸出空間,先按照最大需求量申請
	uint8_t **out_data;
	int GroupSize = 1; //外層size
	int innerSize = 60 * 16000 * 2; //內層size,60s*16000Hz*2Bytes*1channel
	int maxbufferSize = 0;
	out_data = (uint8_t**)malloc(sizeof(uint8_t*)*GroupSize);
	for (int i = 0; i < GroupSize; i++)
	{
		out_data[i] = (uint8_t*)malloc(sizeof(uint8_t)*innerSize);
	}

	ExtractAudio ea; //創建物件
	ea.init(); //初始化

	AVFormatContext *format = ea.open(strInPath); //打開檔案
	if (!format)
	{
		QMessageBox::warning(NULL, "提示", "打開檔案失敗!");
		return;
	}
	cout << "Open file successed!" << endl;

	AVCodecContext *avctx = ea.decodec(format);; //解碼
	if (!avctx)
	{
		QMessageBox::about(NULL, "提示", "解碼失敗!");
		return;
	}
	cout << "Decodec successed!" << endl;

	SwrContext *swr = ea.initswr(avctx, out_data); //音頻重采樣初始化
	if (!swr)
	{
		QMessageBox::about(NULL, "提示", "音頻重采樣初始化失敗!");
		return;
	}
	cout << "Initswr successed!" << endl;

	AVFrame *frame = av_frame_alloc(); //malloc AVFrame 并初始化
	AVPacket *pkt = av_packet_alloc(); //malloc AVPacket 并初始化
	int bufferSize = 0; //輸出緩沖區的位元組數
	//創建寫出的pcm檔案
	QFile outFile(strOutPath);
	outFile.open(QIODevice::WriteOnly);
	//讀取資料
	while (av_read_frame(format, pkt) >= 0)
	{
		// 重采樣并獲取輸出位元組數
		bufferSize = ea.resample(format, avctx, swr, out_data, frame, pkt);

		if (bufferSize > 0) //有重采樣的資料,寫入檔案中
			outFile.write((const char*)out_data[0], bufferSize);
		else if (bufferSize == 0) //暫無重采樣的資料,繼續執行
			continue;
		else //重采樣出現錯誤,停止執行
		{
			QMessageBox::about(NULL, "提示", "音頻重采樣失敗!");
			break;
		}
	}
	outFile.close();

	ea.clear(format, avctx, swr, frame, pkt); //釋放空間
	cout << "ExtracrAudio Finish!" << endl;

	//釋放空間
	for (int i = 0; i < GroupSize; i++)
	{
		free(out_data[i]);
	}
	free(out_data);
}


//音頻分段
QString MyThread::separatePCM(QString strInPath)
{
	SeparatePCM sp; //創建物件
	bool flag = sp.open(strInPath); //打開檔案
	if (!flag)
	{
		QMessageBox::warning(NULL, "提示", "打開音頻檔案失敗!");
		return NULL;
	}
	sp.execute(); //音頻分段
	return sp.folderStr;
	cout << "SeparatePCM Finish!" << endl;
}


//語音識別并將結果寫入txt
void MyThread::writeText(QString strInPath)
{
	WriteText wt; //創建物件
	wt.execute(strInPath, languageId); //執行
	cout << "WriteText Finish!" << endl;
}

執行緒函式里,兩個信號void updateProgress(int)和void updateLabel(QString)用來更新界面的進度條和便簽,在MyThread里面發送信號后,在界面連接信號和槽:

connect(&m_thread, SIGNAL(updateProgress(int)), this, SLOT(updateProgress(int)));
connect(&m_thread, SIGNAL(updateLabel(QString)), this, SLOT(updateLabel(QString)));

其中信號是MyThread的信號(signals),槽是界面的槽(slots),
而如果界面向執行緒發送引數的話,直接呼叫執行緒里的函式,例如在界面中有兩個單選按鈕來提供選擇“中文”或是“英文”的功能,并且將這兩個合并成一個組合:

// 設定單選按鈕組合
groupButton = new QButtonGroup(this);
groupButton->addButton(ui.rbtn_Chinese, 0);
groupButton->addButton(ui.rbtn_English, 1);
ui.rbtn_Chinese->setChecked(true); //默認選擇中文

在點擊開始按鈕時,我們就需要判斷選擇了哪個單選按鈕,并把結果傳遞給運算執行緒:

int id = groupButton->checkedId();
m_thread.setLanguage(id);

上述的void setLanguage(int id)是執行緒類里的一個公共函式,直接在界面里面呼叫即可,把界面所確定的檔案串列傳遞給執行緒類也是同理,

六、結語

內容差不多就這些了,也都是一些很新手的東西,非常歡迎大佬們給出一些好的建議(尤其是FFmpeg釋放記憶體那里,能連帶解決方案就更好了),demo就不放出來了,弄了一個半成品再放出來就覺得很慚愧,

計劃以后每年都利用各種假期的時間集合起來,做個小東西,同時更新一下這個系列,做什么方向就看自己的腦洞和心情,反正是假期不務正業時間,如果有好的想法也歡迎一起學習一起做,

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/259833.html

標籤:其他

上一篇:藍橋杯 java 基礎練習 vip試題 階乘計算

下一篇:C++描述 LeetCode 5677. 統計同構子字串的數目

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 2023年最新微信小程式抓包教程

    01 開門見山 隔一個月發一篇文章,不過分。 首先回顧一下《微信系結手機號資料庫被脫庫事件》,我也是第一時間得知了這個訊息,然后跟蹤了整件事情的經過。下面是這起事件的相關截圖以及近日流出的一萬條資料樣本: 個人認為這件事也沒什么,還不如關注一下之前45億快遞資料查詢渠道疑似在近日復活的訊息。 訊息是 ......

    uj5u.com 2023-04-20 08:48:24 more
  • web3 產品介紹:metamask 錢包 使用最多的瀏覽器插件錢包

    Metamask錢包是一種基于區塊鏈技術的數字貨幣錢包,它允許用戶在安全、便捷的環境下管理自己的加密資產。Metamask錢包是以太坊生態系統中最流行的錢包之一,它具有易于使用、安全性高和功能強大等優點。 本文將詳細介紹Metamask錢包的功能和使用方法。 一、 Metamask錢包的功能 數字資 ......

    uj5u.com 2023-04-20 08:47:46 more
  • vulnhub_Earth

    前言 靶機地址->>>vulnhub_Earth 攻擊機ip:192.168.20.121 靶機ip:192.168.20.122 參考文章 https://www.cnblogs.com/Jing-X/archive/2022/04/03/16097695.html https://www.cnb ......

    uj5u.com 2023-04-20 07:46:20 more
  • 從4k到42k,軟體測驗工程師的漲薪史,給我看哭了

    清明節一過,盲猜大家已經無心上班,在數著日子準備過五一,但一想到銀行卡里的余額……瞬間心情就不美麗了。最近,2023年高校畢業生就業調查顯示,本科畢業月平均起薪為5825元。調查一出,便有很多同學表示自己又被平均了。看著這一資料,不免讓人想到前不久中國青年報的一項調查:近六成大學生認為畢業10年內會 ......

    uj5u.com 2023-04-20 07:44:00 more
  • 最新版本 Stable Diffusion 開源 AI 繪畫工具之中文自動提詞篇

    🎈 標簽生成器 由于輸入正向提示詞 prompt 和反向提示詞 negative prompt 都是使用英文,所以對學習母語的我們非常不友好 使用網址:https://tinygeeker.github.io/p/ai-prompt-generator 這個網址是為了讓大家在使用 AI 繪畫的時候 ......

    uj5u.com 2023-04-20 07:43:36 more
  • 漫談前端自動化測驗演進之路及測驗工具分析

    隨著前端技術的不斷發展和應用程式的日益復雜,前端自動化測驗也在不斷演進。隨著 Web 應用程式變得越來越復雜,自動化測驗的需求也越來越高。如今,自動化測驗已經成為 Web 應用程式開發程序中不可或缺的一部分,它們可以幫助開發人員更快地發現和修復錯誤,提高應用程式的性能和可靠性。 ......

    uj5u.com 2023-04-20 07:43:16 more
  • CANN開發實踐:4個DVPP記憶體問題的典型案例解讀

    摘要:由于DVPP媒體資料處理功能對存放輸入、輸出資料的記憶體有更高的要求(例如,記憶體首地址128位元組對齊),因此需呼叫專用的記憶體申請介面,那么本期就分享幾個關于DVPP記憶體問題的典型案例,并給出原因分析及解決方法。 本文分享自華為云社區《FAQ_DVPP記憶體問題案例》,作者:昇騰CANN。 DVPP ......

    uj5u.com 2023-04-20 07:43:03 more
  • msf學習

    msf學習 以kali自帶的msf為例 一、msf核心模塊與功能 msf模塊都放在/usr/share/metasploit-framework/modules目錄下 1、auxiliary 輔助模塊,輔助滲透(埠掃描、登錄密碼爆破、漏洞驗證等) 2、encoders 編碼器模塊,主要包含各種編碼 ......

    uj5u.com 2023-04-20 07:42:59 more
  • Halcon軟體安裝與界面簡介

    1. 下載Halcon17版本到到本地 2. 雙擊安裝包后 3. 步驟如下 1.2 Halcon軟體安裝 界面分為四大塊 1. Halcon的五個助手 1) 影像采集助手:與相機連接,設定相機引數,采集影像 2) 標定助手:九點標定或是其它的標定,生成標定檔案及內參外參,可以將像素單位轉換為長度單位 ......

    uj5u.com 2023-04-20 07:42:17 more
  • 在MacOS下使用Unity3D開發游戲

    第一次發博客,先發一下我的游戲開發環境吧。 去年2月份買了一臺MacBookPro2021 M1pro(以下簡稱mbp),這一年來一直在用mbp開發游戲。我大致分享一下我的開發工具以及使用體驗。 1、Unity 官網鏈接: https://unity.cn/releases 我一般使用的Apple ......

    uj5u.com 2023-04-20 07:40:19 more