如何用百度大腦文字識別技術，快速集成實用小工具-有解無憂

一、總體概述

本文主要介紹了由本人開發的、基于百度AI的云貓OCR軟體的主要功能，性能評價及核心代碼解讀，因為是幾個帖子合并成一個，所以篇幅較長，希望各位能耐心看完，當然也可以各取所需，

本文主要分為以下幾個部分：
第一部分是云貓OCR軟體介紹，由開發者本人親自介紹軟體的主要功能，對標ABBYY等OCR軟體，云貓OCR的功能更全面，使用更簡單，關鍵的是云貓OCR目前是完全免費給大家用的，當然因為是試用版，可能存在一些bug，大家使用的時候不要亂按就行，云貓展示版本的下載地址見帖子： https://ai.baidu.com/forum/topic/show/955975
第二部分是云貓OCR基于百度OCR的具體實作方式說明，同時也會對軟體的部分核心代碼進行展示，便于大家進行參考做出更有創意的產品，
第三部分是云貓OCR使用說明及效果評測，但因為云貓OCR是2017年底左右開發的，所以用的不是百度OCR最新介面功能，如果云貓能得到大家的支持，我可以考慮開發新版接入更多百度最新的AI介面，希望大家能多多捧場，
本文的最后部分是附錄，附上了我基于百度OCR進行開發的代碼解讀，使用的是最新的百度手寫體識別介面，也一并打包給大家參考，

第一部分云貓OCR的軟體介紹

一、云貓OCR簡介

云貓OCR是基于百度云OCR演算法，由進擊的狐貍進行開發的一款軟體，本軟體由C#語言進行開發，運行在Windows平臺上，主要呼叫的介面是通用文字識別、通用文字識別（高精度）和表格識別等，

二、云貓OCR目前實作的主要功能：

1.批量圖片文字識別，可以預覽圖片，可以對識別結果進行自動換行和縮進，可以控制QPS并發（QPS功能因為百度云的timeout問題而暫時擱置）；

2.批量表格圖片識別，支持自動打開識別結果，用戶也可以選擇直接打開保存目錄；

3.PDF轉圖片，在我的筆記本（配置為I7處理器/8G記憶體/128G SSD硬碟）的硬體環境下，PDF轉圖片程式模塊占用的記憶體不超過400M，同時可以在2分鐘左右的時間內轉換超過500頁內容的PDF檔案，支持一鍵打開轉換結果檔案夾，

4.云貓軟體支持換膚功能，目前有兩套皮膚；

5.可以設定API Key和Secret Key；

6.支持中途停止識別；

7.支持把設定改變后對同一張圖片進行重新識別；

8.支持多種語言；

9.其他功能，比如識別統計資訊、控制字體大小、右鍵把識別結果另存為rtf檔案、全選和復制識別結果等等；

三、演示帖子鏈接

http://ai.baidu.com/forum/topic/show/492371

四、云貓OCR演示視頻鏈接

https://v.qq.com/x/page/r0564n4a87e.html

建議大家用1.2x或者1.5x倍速觀看，因為本人的聲速有點慢，

第二部分云貓OCR基于百度OCR的具體實作方式說明

一、概述

云貓OCR是基于百度AI，在Windows平臺運行的一款軟體，我是用C#語言在Visual Studio2017集成開發環境中進行開發的，開發方式是SDK包開發，在開發中，我們需要參考百度的技術檔案，

百度云文字識別技術檔案地址：

https://cloud.baidu.com/doc/OCR/index.html

二、準備作業

首先，我們需要下載最新的百度文字識別的SDK包，

C# SDK包的下載地址如下：

http://ai.baidu.com/sdk#ocr

下載完畢后解壓縮，最新的包在檔案夾net45里面，

打開Visual Studio2017開發環境，選擇新建專案，因為我打算用控制臺專案講解，因此要選擇新建專案——C#控制臺專案，建好專案之后，需要在專案中參考上面下載的SDK包，

三、核心代碼講解

（一）呼叫百度OCR函式識別圖片文字，回傳的格式為Json

代碼如下：

using System;

using Newtonsoft.Json;

using Newtonsoft.Json.Linq;

using System.IO;

using System.Drawing;

using System.Collections.Generic;

using System.Linq;

namespace myOCRDemo

{

class Program

{

public static void GeneralBasicDemo()

{

// 設定APPID/AK/SK

var API_KEY = "你的 Api Key";

var SECRET_KEY = "你的 Secret Key";

//創建物件

var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);

client.Timeout = 60000; // 修改超時時間

var image = File.ReadAllBytes("圖片檔案路徑");

// 呼叫通用文字識別, 圖片引數為本地圖片，可能會拋出網路等例外，請使用try/catch捕獲

var result = client.GeneralBasic(image);

Console.WriteLine(result);

}

static void Main(string[] args)

{

GeneralBasicDemo();

Console.Read();

}

注意，具體開發的時候要把上面的API Key和Secret Key分別改為你自己的，至于怎么申請和查看這兩個Key，可以參考我寫的評測篇帖子，帖子鏈接如下：

http://ai.baidu.com/forum/topic/show/955989

另外不要忘了把圖片檔案路徑改為你自己的圖片路徑，下面是識別的結果示例：

原圖如下：

（二）決議Json格式，把識別結果轉變為更為直觀的文本型別

代碼如下：

using System;

using Newtonsoft.Json;

using Newtonsoft.Json.Linq;

using System.IO;

using System.Drawing;

using System.Collections.Generic;

using System.Linq;

namespace myOCRDemo

{

class Program

{

public static void GeneralBasicDemo()

{

// 設定APPID/AK/SK

var API_KEY = "你的Akey";

var SECRET_KEY = "你的SKey";

//創建物件

var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);

client.Timeout = 60000; // 修改超時時間

var image = File.ReadAllBytes(@"你的圖片路徑");

// 呼叫通用文字識別, 圖片引數為本地圖片，可能會拋出網路等例外，請使用try/catch捕獲

var result = client.GeneralBasic(image);

//決議Json的代碼

JObject jo = (JObject)JsonConvert.DeserializeObject(result.ToString());

int num = (int)jo["words_result_num"];

string[] words = new string[num];

for (int i = 0; i < num; i++)

words[i] = jo["words_result"][i]["words"].ToString();

//回傳值

string txtOCR = null;

for (int i = 0; i < num; i++)

txtOCR += words[i] + "\n";

//顯示結果

Console.WriteLine(txtOCR);

}

static void Main(string[] args)

{

GeneralBasicDemo();

Console.Read();

}

程式運行結果如下：

這樣就比較符合人類的閱讀習慣了，上面這段代碼也是核心的基礎代碼，可以通過這些核心的代碼去做一些優化，比如自動換行、自動縮進、根據語言習慣自動改變標點符號等等，

（三）表格識別

百度的表格文字識別的編程較為麻煩，主要分成兩步：第一步是提交表格文字識別請求，獲得requestId；第二步是根據requestId獲取表格文字識別的結果，默認是Excel檔案格式，Json結果會回傳一段下載地址，

我的程式除了上面這兩步以外，還添加了自動下載Excel檔案到本地電腦的代碼，供各位參考，另外要注意的是，提交識別請求和獲得識別結果這兩步之間，程式必須設定延時，否則不能獲得下載的URL ，經過實際測驗，延時為3秒以上較為合適，3秒以下可能會出錯，

代碼如下：

///

/// 表格文字識別

///

public static void myTableRecognitionRequestDemo()

{

// 設定APPID/AK/SK

var API_KEY = "你的API Key";

var SECRET_KEY = "你的Secret Key";

//創建物件

var client = new Baidu.Aip.Ocr.Ocr(API_KEY, SECRET_KEY);

client.Timeout = 60000; // 修改超時時間

var image = File.ReadAllBytes(@"F:\表格圖片1.jpg");//這里要改成你的表格圖片路徑

// 呼叫表格文字識別，可能會拋出網路等例外，請使用try/catch捕獲

var result = client.TableRecognitionRequest(image);

//決議Json

JObject jo = (JObject)JsonConvert.DeserializeObject(result.ToString());

string requestId = jo["result"][0]["request_id"].ToString();

Console.WriteLine("獲得requestId："+requestId);

//延時3秒，這句是必須的

System.Threading.Thread.Sleep(3000);

//獲取表格識別結果

//有時會得不到鏈接，需要多嘗試幾次

var resultExcel = client.TableRecognitionGetResult(requestId);

Console.WriteLine("獲得的表格識別結果如下：");

Console.WriteLine(resultExcel);

//決議Json，獲得鏈接

JObject joResult = (JObject)JsonConvert.DeserializeObject(resultExcel.ToString());

string excelURL = joResult["result"]["result_data"].ToString();

Console.WriteLine("獲得的Excel檔案下載地址是：\n" + excelURL);

//自動下載Excel檔案到電腦

WebClient df = new WebClient();

df.DownloadFile(excelURL, @"F:\識別結果.xls");//這里要改成你的下載檔案路徑

Console.WriteLine("下載完畢");

}

作者使用的測驗用圖片：

表格文字識別結果截圖：

尾記：本文的示例代碼都是最新的代碼，跟百度SDK檔案里面的代碼是一致的，而云貓OCR是2017年末就已經寫好的了，代碼有些陳舊，所以沒直接貼源代碼了，

代碼篇的原帖子地址：

http://ai.baidu.com/forum/topic/show/956037

第三部分云貓OCR的使用說明及效果評測

一、概述

筆者是在2017年接觸百度云服務平臺的，在這里我也稱之為百度AI ，筆者根據百度AI提供的函式介面，自行編程實作了一款OCR軟體——云貓OCR，云貓OCR大部分的代碼開發是在2017年底前完成的，之所以雪藏到現在，是因為筆者的一些私人事務（小孩出生等）——我是利用業余時間進行軟體開發的，所以中斷了大概一年多的時間，現在才有空繼續這個專案，

評測篇的原帖子地址：

http://ai.baidu.com/forum/topic/show/955989

二、評測的具體內容

（一）準備作業

在使用云貓OCR之前，我們必須先去百度云官網進行注冊賬號，有了賬號以后，我們還要去具體的云服務專案下申請API Key和Secret Key ，一般這兩個Key是用戶各人保管的，不能隨便透露給外人，因為百度云現在已經正式收費，而用戶每人每天的免費呼叫次數都是有限的，提高限額需要支付費用，用戶使用百度云AI介面的依據主要就是這兩個Key，所以我們要保管好，下面是簡單的準備作業圖片說明：

（二）正式使用云貓OCR

用戶有了百度云API Key和Secret Key之后，就可以正式使用云貓OCR了，具體使用步驟如下：

（三）評測的具體內容

首先介紹一下云貓OCR呼叫的百度AI的主要介面，首先是通用文字識別（帶位置版），其次是通用文字識別（帶位置高精度版），最后是表格文字識別，下面依次介紹這三種識別，

1. 通用文字識別（帶位置版）和通用文字識別（帶位置高精度版）的混合使用

如上圖所示，用戶可以選擇多種語言（包括德語、法語、西班牙語等等），選擇好后點擊文字識別即可，因為百度云提供的高精度文字識別介面只支持中英文，而通用的文字識別支持除中英文以外的多種語言，所以筆者在撰寫軟體中，這兩種介面是混合使用的，具體怎么混合使用請看代碼篇，一般情況下，高精度的文字識別效果比通用的好，但也比較耗時，

本軟體支持識別的文字結果在本機保存為檔案，具體如下圖操作：

保存的檔案是rtf格式，可以用WPS或者Office Word打開，下面再給出一次性識別20張圖片的統計結果圖示：

從上圖可以看出，百度云的文字識別結果速度還是不錯的，識別速度是平均大概2-3秒一張圖，

2. 表格文字識別

表格文字識別的主要步驟如下圖所示：

識別的結果軟體會自動保存為Excel檔案并打開，如圖：

從上圖可以看出，表格文字識別的速度比普通文字識別要慢一些，大概需要5-6秒，

評測總結：百度OCR對于印刷體的識別還是不錯的，比起以前的OCR軟體來說，百度OCR可以說是革命性的進步，當然，它也有自己的短板，比如手寫體的識別，筆者還沒有評測，但百度云通用文字高精度介面對手寫體的識別是較差的，再比如QPS并發，我的理解是可以提高OCR文字識別的速度，對于大量的圖片文字識別來說尤其是重要，可以節省大量時間，但遺憾的是，百度云對并發好像做的不太好，程式不一定支持QPS并發，這個缺點我們也是希望百度后面能夠有所改正，

附錄：

C#編程實作手寫識別

一、概述

本人是用C#編程，呼叫百度API介面實作手寫體識別的，參考了百度的產品檔案，

檔案地址：https://cloud.baidu.com/doc/OCR/index.html

二、代碼及解說

本人的源代碼大部分是來自百度的產品檔案，但其中也遇到了一些麻煩，比如文字識別的編碼問題，百度的代碼給出的編碼是Default，但在我的機器上這樣做會顯示亂碼，經過查找資料，我把編碼改成UTF8，亂碼的問題才得到解決，

作者的所有源代碼如下：

using System;

using System.Collections.Generic;

using System.Linq;

using System.Text;

using System.Threading.Tasks;

using System.Net.Http;

using Newtonsoft.Json;

using Newtonsoft.Json.Linq;

using System.IO;

using System.Drawing;

using System.Web;

using System.Net;

namespace myHandwrite

{

public static class FileUtils

{

///

/// 轉base64編碼

///

public static String getFileBase64(String fileName)

{

FileStream filestream = new FileStream(fileName, FileMode.Open);

byte[] arr = new byte[filestream.Length];

filestream.Read(arr, 0, (int)filestream.Length);

string baser64 = Convert.ToBase64String(arr);

filestream.Close();

return baser64;

}

class Program

{

// 呼叫getAccessToken()獲取的 access_token建議根據expires_in 時間設定快取

// 回傳token示例

public static String TOKEN = "24.adda70c11b9786206253ddb70affdc46.2592000.1493524354.282335-1234567";

// 百度云中開通對應服務應用的 API Key 建議開通應用的時候多選服務

private static String clientId = "這里改成你的API Key";

// 百度云中開通對應服務應用的 Secret Key

private static String clientSecret = "這里改成你的Secret Key";

///

/// 獲取token的函式

///

public static String getAccessToken()

{

String authHost = "https://aip.baidubce.com/oauth/2.0/token";

HttpClient client = new HttpClient();

List> paraList = new List>();

paraList.Add(new KeyValuePair("grant_type", "client_credentials"));

paraList.Add(new KeyValuePair("client_id", clientId));

paraList.Add(new KeyValuePair("client_secret", clientSecret));

HttpResponseMessage response = client.PostAsync(authHost, new FormUrlEncodedContent(paraList)).Result;

String result = response.Content.ReadAsStringAsync().Result;

//Console.WriteLine(result);

//自己加的代碼

JObject jo = (JObject)JsonConvert.DeserializeObject(result.ToString());

string myToken = jo["access_token"].ToString();

Console.WriteLine("獲得的Token是：" + myToken);

return myToken;

}

///

/// 手寫體文字識別

///

public static string myHandwriting(string token,string filename)

{

//string token = "#####呼叫鑒權介面獲取的token#####";

// 圖片的base64編碼

string strbaser64 = FileUtils.getFileBase64(filename);

string host = "https://aip.baidubce.com/rest/2.0/ocr/v1/handwriting?access_token=" + token;

Encoding encoding = Encoding.Default;

HttpWebRequest request = (HttpWebRequest)WebRequest.Create(host);

request.Method = "post";

request.ContentType = "application/x-www-form-urlencoded";

request.KeepAlive = true;

//這里加上了一些引數

String str = "recognize_granularity=big&image=" + HttpUtility.UrlEncode(strbaser64);

byte[] buffer = encoding.GetBytes(str);

request.ContentLength = buffer.Length;

request.GetRequestStream().Write(buffer, 0, buffer.Length);

HttpWebResponse response = (HttpWebResponse)request.GetResponse();

//顯示結果是亂碼，嘗試改變編碼，經過測驗需要改成UTF8編碼

StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.UTF8);

string result = reader.ReadToEnd();

Console.WriteLine("手寫文字識別:");

//Console.WriteLine(result);

//決議Json的代碼

JObject jo = (JObject)JsonConvert.DeserializeObject(result.ToString());

int num = (int)jo["words_result_num"];

string[] words = new string[num];

for (int i = 0; i < num; i++)

words[i] = jo["words_result"][i]["words"].ToString();

//回傳值

string txtOCR = null;

for (int i = 0; i < num; i++)

txtOCR += words[i] + "\n";

//顯示結果

Console.WriteLine(txtOCR);

return txtOCR;

}

static void Main(string[] args)

{

//這里要改成你的圖片路徑

string filename = @"F:\手寫體5.jpg";

string token = getAccessToken();

myHandwriting(token,filename);

Console.Read();

}

注意，上面的代碼中需要各位改成自己的Akey和Skey，另外要改一下圖片路徑，如果回傳的是亂碼，還需要改一下編碼，

識別的結果如下：

程式用的圖片檔案如下：

作者：kohakuarc

轉載請註明出處，本文鏈接：https://www.uj5u.com/gongcheng/5475.html

標籤：其他

上一篇：免費領取16套深度學習權威實踐課，從零基礎小白到大牛

下一篇：【全代碼攻略】用百度大腦手寫文字識別助力企業降本增效