主頁 > 軟體工程 > 一文帶你了解百度大腦云狐語音全攻略(附代碼)

一文帶你了解百度大腦云狐語音全攻略(附代碼)

2020-09-11 02:41:06 軟體工程

一、云狐簡介

云狐語音識別軟體是基于百度智能云,由進擊的狐貍進行開發的一款軟體,注意,因為核心類代碼是2017年就已經寫好的了,所以使用的C# SDK包不是最新的,云狐目前支持的平臺是Windows系統平臺,使用時需要安裝微軟最新的.net framework ,云狐的主要功能是長時間的語音識別,支持時長超過一分鐘的各種型別的語音檔案識別,缺點就是速度較慢一些,

云狐視頻演示及代碼決議的視頻鏈接:

https://v.qq.com/x/page/j3023vgs9yz.html

云狐語音識別軟體下載:

https://blog.csdn.net/ciel_arc/article/details/103172138

另外,云狐和云貓實際上是姐妹軟體,因為他們都是基于百度智能云,用C#進行開發的,使用的是百度最新的人工智能技術,而且他們目前都是免費的,這里聯動一下,對云貓OCR和云狐語音感興趣的同學,可以百度搜索“云貓OCR”或“云狐語音” 進行了解,

二、云狐的簡單評測

云狐軟體自帶有計時功能,我們可以簡單做一下評測,從上文視頻演示的結果可以看出,1分鐘左右的語音檔案,云狐可以在10秒以內識別完畢,而30分鐘左右的語音檔案,云狐需要120秒即2分鐘左右,才能識別完畢,從中推算出識別速度大概是4秒/分鐘,

三、云狐軟體的代碼原理

    百度智能云給出的長語音識別介面只支持一分鐘以內的語音檔案的識別,而對于超過一分鐘的語音檔案識別,我們需要怎么做呢?

   云狐軟體的原理就是:把超過一分鐘的檔案進行切片,切成若干個小于或者等于一分鐘時長的語音檔案,對每個切片檔案呼叫百度云語音識別介面進行識別,再把結果串聯起來即可,

四、云狐的代碼簡明決議

(一)核心類foxSpeechDemo

namespace foxAudio2Word

{

    class foxSpeechDemo

    {

        private readonly Asr _asrClient;

        public foxSpeechDemo(string myAPIKey,string mySecretKey)

        {

            _asrClient = new Asr(myAPIKey,mySecretKey);

        }

        // 識別本地檔案

        public string AsrData(string pcmFilePath)

        {

            var data = File.ReadAllBytes(pcmFilePath);

            var result = _asrClient.Recognize(data, "pcm", 16000);

            return result.ToString();

        }

}

}

   上面的代碼是根據百度SDK包檔案,進行少量改動實作的,注意為了簡便,這里貼出的代碼段可能跟具體的云狐實作代碼有一些出入,

   不是任何一個語音檔案都可以交給百度智能云直接識別,檔案需要預處理,不然識別效果會很差,具體來說,作者用FFmpeg對語音檔案進行預處理,然后再用百度介面識別,FFmpeg的命令列預處理類似下面的形式:

ffmpeg -y  -i 003_16k.wav  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm

(二)預處理的輔助函式

   共有大概4個關于預處理的輔助函式,代碼如下:

1.此函式的主要功能是用C#程式自動執行命令列陳述句,它可執行任何陳述句的命令列,string cmdStr是形參,可以將命令列陳述句賦值給cmdStr進行執行,

 private string myCmdFun(string cmdStr)

        {

            try

            {

                Process CmdProcess = new Process();

                CmdProcess.StartInfo.FileName = "cmd.exe";

                CmdProcess.StartInfo.CreateNoWindow = true;         // 不創建新視窗    

                CmdProcess.StartInfo.UseShellExecute = false;       //不啟用shell啟動行程  

                CmdProcess.StartInfo.RedirectStandardInput = true;  // 重定向輸入    

                CmdProcess.StartInfo.RedirectStandardOutput = true; // 重定向標準輸出    

                CmdProcess.StartInfo.RedirectStandardError = true;  // 重定向錯誤輸出  

                //CmdProcess.StartInfo.Arguments = "/c " + "=====cmd命令======";//“/C”表示執行完命令后馬上退出

                //string cmdStr = "ffmpeg -y  -i 003_16k.wav  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm";

                CmdProcess.StartInfo.Arguments = "/c " + cmdStr;//“/C”表示執行完命令后馬上退出  

                CmdProcess.Start();//執行  

                string temp = CmdProcess.StandardOutput.ReadToEnd();//輸出  

                CmdProcess.WaitForExit();//等待程式執行完退出行程  

                CmdProcess.Close();//結束

                return temp;

            }

            catch (Exception ex)

            {

                return ex.ToString();

            }

        }

2.此函式表示利用ffprobe命令列獲取語音檔案的時長資訊,以便對語音檔案進行分割,注意回傳值是整形變數,比如語音時長有1.5分鐘,這個函式就會回傳2 ,以此類推,

/// 

 

        /// 獲取音頻檔案的持續時間資訊

        /// 

 

        /// 

        /// 

        private int foxGetAudioDuration(string filename)

        {

            //使用命令列要非常小心對空格的處理

            string tempCmdStr = "ffprobe -v quiet -print_format json -show_streams "

                + filename;

            string result = myCmdFun(tempCmdStr);

            //結果使用json格式決議

            JObject jo = (JObject)JsonConvert.DeserializeObject(result);

            string audioDuration = jo["streams"][0]["duration"].ToString();

            //直接回傳整形資料,單位是秒

            int durationSecond = (int)Math.Ceiling(System.Convert.ToDouble(audioDuration));

            //轉成分鐘表示

            int durationMinute = (durationSecond / 60) + 1;

            return durationMinute;

        }

3.此函式主要功能是對語音檔案進行分割,時間單位是秒,比如我有一個2分鐘的語音檔案,程式就把這個檔案分成2塊,每塊60秒即1分鐘,以此類推,

///分割的時間單位應該是秒

        ///分割音頻檔案

        private void foxAudioCut(string filename,int timePos,int duration,int fileIndex)

        {

            //string tempCmdStr = "ffmpeg -i 003_16k.wav -ss 10 -t 10 003_1.wav";

            string tempCmdStr = "ffmpeg -y -i "+filename+

                " -ss "+timePos.ToString()

                +" -t "+duration.ToString()

                +" "+ "temp\\" + fileIndex.ToString()+".wav";

 

            myCmdFun(tempCmdStr);

        }

4.此函式的主要功能是把切片檔案轉換成百度云能夠進行正常識別的檔案格式,

/// 

 

        /// 把目標音頻檔案轉換為百度語音能夠識別的檔案

        /// 

 

        /// 

        private string foxAudioConvert(string filename,int fileIndex)

        {

            //臨時作業夾目錄設定為“temp”

            string resultFileName = "Convert_" + fileIndex.ToString() + ".wav";

            //注意這句含有兩個“temp\\”

            string tempCmdStr = "ffmpeg -y  -i "+ "temp\\" + filename

                +"  -acodec pcm_s16le -ac 1 -ar 16000 " 

                + "temp\\" +resultFileName;

            myCmdFun(tempCmdStr);

 

            return resultFileName;

        }

(三)主函式的代碼邏輯

//注意:檔案路徑里面不能含有空格

                    string tempFilePath = Path.GetFullPath(openFileDialog1.FileName);

                    //獲取音頻檔案持續時間資訊

                    int duration = foxGetAudioDuration(tempFilePath);

                    //主要的長語音識別邏輯

                    //將音頻檔案分成塊,每塊的長度默認為1分鐘

                    for (int i = 0; i < duration; i++)

                    {

                        //首先分割檔案

                        foxAudioCut(tempFilePath, i * 60, 60, i);

                        //然后轉換格式

                        string tempConvertFileName = foxAudioConvert(i.ToString() + ".wav", i);

                        //最后進行識別

                        //tempResult += fd.AsrData("temp\\" + tempConvertFileName);

                        //決議json

                        string tempStr = fd.AsrData("temp\\" + tempConvertFileName);

                        JObject jo = (JObject)JsonConvert.DeserializeObject(tempStr);

                        if (jo["err_no"].ToString().Equals("0"))

                        {

                            string result = jo["result"][0].ToString();

                            tempResult += result;

                        }

                    }

                    richTextBox1.Text = tempResult;

    上面是主函式里面的核心代碼段,里面有很多的注釋,大家可以仔細看看,主要功能就是整合預處理輔助函式的作用,把檔案切片并轉換格式,最后提交給百度智能云進行識別,并對識別結果進行決議,把json轉換成對人類友好的文本格式,

作者:kohakuarc

轉載請註明出處,本文鏈接:https://www.uj5u.com/gongcheng/4060.html

標籤:其他

上一篇:CODING 攜手優普豐,道器合璧打造敏捷最佳實踐

下一篇:[Microsoft Teams]使用連接器接收Azure DevOps的通知

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • Git本地庫既關聯GitHub又關聯Gitee

    創建代碼倉庫 使用gitee舉例(github和gitee差不多) 1.在gitee右上角點擊+,選擇新建倉庫 ? 2.選擇填寫倉庫資訊,然后進行創建 ? 3.服務端已經準備好了,本地開始作準備 (1)Git 全域設定 git config --global user.name "成鈺" git c ......

    uj5u.com 2020-09-10 05:04:14 more
  • CODING DevOps 代碼質量實戰系列第二課,相約周三

    隨著 ToB(企業服務)的興起和 ToC(消費互聯網)產品進入成熟期,線上故障帶來的損失越來越大,代碼質量越來越重要,而「質量內建」正是 DevOps 核心理念之一。**《DevOps 代碼質量實戰(PHP 版)》**為 CODING DevOps 代碼質量實戰系列的第二課,同時也是本系列的 PHP ......

    uj5u.com 2020-09-10 05:07:43 more
  • 推薦Scrum書籍

    推薦Scrum書籍 直接上干貨,推薦書籍清單如下(推薦有順序的哦) Scrum指南 Scrum精髓 Scrum敏捷軟體開發 Scrum捷徑 硝煙中的Scrum和XP : 我們如何實施Scrum 敏捷軟體開發:Scrum實戰指南 Scrum要素 大規模Scrum:大規模敏捷組織的設計 用戶故事地圖 用 ......

    uj5u.com 2020-09-10 05:07:45 more
  • CODING DevOps 代碼質量實戰系列最后一課,周四發車

    隨著 ToB(企業服務)的興起和 ToC(消費互聯網)產品進入成熟期,線上故障帶來的損失越來越大,代碼質量越來越重要,而「質量內建」正是 DevOps 核心理念之一。 **《DevOps 代碼質量實戰(Java 版)》**為 CODING DevOps 代碼質量實戰系列的最后一課,同時也是本系列的 ......

    uj5u.com 2020-09-10 05:07:52 more
  • 敏捷軟體工程實踐書籍

    Scrum轉型想要做好,第一步先了解并真正落實Scrum,那么我推薦的Scrum書籍是要看懂并實踐的。第二步是團隊的工程實踐要做扎實。 下面推薦工程實踐書單: 重構:改善既有代碼的設計 決議極限編程 : 擁抱變化 代碼整潔代碼 程式員的職業素養 修改代碼的藝術 撰寫可讀代碼的藝術 測驗驅動開發 : ......

    uj5u.com 2020-09-10 05:07:55 more
  • Jenkins+svn+nginx實作windows環境自動部署vue前端專案

    前面文章介紹了Jenkins+svn+tomcat實作自動化部署,現在終于有空抽時間出來寫下Jenkins+svn+nginx實作自動部署vue前端專案。 jenkins的安裝和配置已經在前面文章進行介紹,下面介紹實作vue前端專案需要進行的哪些額外的步驟。 注意:在安裝jenkins和nginx的 ......

    uj5u.com 2020-09-10 05:08:49 more
  • CODING DevOps 微服務專案實戰系列第一課,明天等你

    CODING DevOps 微服務專案實戰系列第一課**《DevOps 微服務專案實戰:DevOps 初體驗》**將由 CODING DevOps 開發工程師 王寬老師 向大家介紹 DevOps 的基本理念,并探討為什么現代開發活動需要 DevOps,同時將以 eShopOnContainers 項 ......

    uj5u.com 2020-09-10 05:09:14 more
  • CODING DevOps 微服務專案實戰系列第二課來啦!

    近年來,工程專案的結構越來越復雜,需要接入合適的持續集成流水線形式,才能滿足更多變的需求,那么如何優雅地使用 CI 能力提升生產效率呢?CODING DevOps 微服務專案實戰系列第二課 《DevOps 微服務專案實戰:CI 進階用法》 將由 CODING DevOps 全堆疊工程師 何晨哲老師 向 ......

    uj5u.com 2020-09-10 05:09:33 more
  • CODING DevOps 微服務專案實戰系列最后一課,周四開講!

    隨著軟體工程越來越復雜化,如何在 Kubernetes 集群進行灰度發布成為了生產部署的”必修課“,而如何實作安全可控、自動化的灰度發布也成為了持續部署重點關注的問題。CODING DevOps 微服務專案實戰系列最后一課:**《DevOps 微服務專案實戰:基于 Nginx-ingress 的自動 ......

    uj5u.com 2020-09-10 05:10:00 more
  • CODING 儀表盤功能正式推出,實作作業資料可視化!

    CODING 儀表盤功能現已正式推出!該功能旨在用一張張統計卡片的形式,統計并展示使用 CODING 中所產生的資料。這意味著無需額外的設定,就可以收集歸納寶貴的作業資料并予之量化分析。這些海量的資料皆會以圖表或串列的方式躍然紙上,方便團隊成員隨時查看各專案的進度、狀態和指標,云端協作迎來真正意義上 ......

    uj5u.com 2020-09-10 05:11:01 more
最新发布
  • windows系統git使用ssh方式和gitee/github進行同步

    使用git來clone專案有兩種方式:HTTPS和SSH:
    HTTPS:不管是誰,拿到url隨便clone,但是在push的時候需要驗證用戶名和密碼;
    SSH:clone的專案你必須是擁有者或者管理員,而且需要在clone前添加SSH Key。SSH 在push的時候,是不需要輸入用戶名的,如果配置... ......

    uj5u.com 2023-04-19 08:41:12 more
  • windows系統git使用ssh方式和gitee/github進行同步

    使用git來clone專案有兩種方式:HTTPS和SSH:
    HTTPS:不管是誰,拿到url隨便clone,但是在push的時候需要驗證用戶名和密碼;
    SSH:clone的專案你必須是擁有者或者管理員,而且需要在clone前添加SSH Key。SSH 在push的時候,是不需要輸入用戶名的,如果配置... ......

    uj5u.com 2023-04-19 08:35:34 more
  • 2023年農牧行業6大CRM系統、5大場景盤點

    在物聯網、大資料、云計算、人工智能、自動化技術等現代資訊技術蓬勃發展與逐步成熟的背景下,數字化正成為農牧行業供給側結構性變革與高質量發展的核心驅動因素。因此,改造和提升傳統農牧業、開拓創新現代智慧農牧業,加快推進農牧業的現代化、資訊化、數字化建設已成為農牧業發展的重要方向。 當下,企業數字化轉型已經 ......

    uj5u.com 2023-04-18 08:05:44 more
  • 2023年農牧行業6大CRM系統、5大場景盤點

    在物聯網、大資料、云計算、人工智能、自動化技術等現代資訊技術蓬勃發展與逐步成熟的背景下,數字化正成為農牧行業供給側結構性變革與高質量發展的核心驅動因素。因此,改造和提升傳統農牧業、開拓創新現代智慧農牧業,加快推進農牧業的現代化、資訊化、數字化建設已成為農牧業發展的重要方向。 當下,企業數字化轉型已經 ......

    uj5u.com 2023-04-18 08:00:18 more
  • 計算機組成原理—存盤器

    計算機組成原理—硬體結構 二、存盤器 1.概述 存盤器是計算機系統中的記憶設備,用來存放程式和資料 1.1存盤器的層次結構 快取-主存層次主要解決CPU和主存速度不匹配的問題,速度接近快取 主存-輔存層次主要解決存盤系統的容量問題,容量接近與價位接近于主存 2.主存盤器 2.1概述 主存與CPU的聯 ......

    uj5u.com 2023-04-17 08:20:31 more
  • 談一談我對協同開發的一些認識

    如今各互聯網公司普通都使用敏捷開發,采用小步快跑的形式來進行專案開發。如果是小專案或者小需求,那一個開發可能就搞定了。但對于電商等復雜的系統,其功能多,結構復雜,一個人肯定是搞不定的,所以都是很多人來共同開發維護。以我曾經待過的商城團隊為例,光是后端開發就有七十多人。 為了更好地開發這類大型系統,往 ......

    uj5u.com 2023-04-17 08:18:55 more
  • 專案管理PRINCE2核心知識點整理

    PRINCE2,即 PRoject IN Controlled Environment(受控環境中的專案)是一種結構化的專案管理方法論,由英國政府內閣商務部(OGC)推出,是英國專案管理標準。
    PRINCE2 作為一種開放的方法論,是一套結構化的專案管理流程,描述了如何以一種邏輯性的、有組織的方法,... ......

    uj5u.com 2023-04-17 08:18:51 more
  • 談一談我對協同開發的一些認識

    如今各互聯網公司普通都使用敏捷開發,采用小步快跑的形式來進行專案開發。如果是小專案或者小需求,那一個開發可能就搞定了。但對于電商等復雜的系統,其功能多,結構復雜,一個人肯定是搞不定的,所以都是很多人來共同開發維護。以我曾經待過的商城團隊為例,光是后端開發就有七十多人。 為了更好地開發這類大型系統,往 ......

    uj5u.com 2023-04-17 08:18:00 more
  • 專案管理PRINCE2核心知識點整理

    PRINCE2,即 PRoject IN Controlled Environment(受控環境中的專案)是一種結構化的專案管理方法論,由英國政府內閣商務部(OGC)推出,是英國專案管理標準。
    PRINCE2 作為一種開放的方法論,是一套結構化的專案管理流程,描述了如何以一種邏輯性的、有組織的方法,... ......

    uj5u.com 2023-04-17 08:17:55 more
  • 計算機組成原理—存盤器

    計算機組成原理—硬體結構 二、存盤器 1.概述 存盤器是計算機系統中的記憶設備,用來存放程式和資料 1.1存盤器的層次結構 快取-主存層次主要解決CPU和主存速度不匹配的問題,速度接近快取 主存-輔存層次主要解決存盤系統的容量問題,容量接近與價位接近于主存 2.主存盤器 2.1概述 主存與CPU的聯 ......

    uj5u.com 2023-04-17 08:12:06 more