主頁 >  其他 > OCR -- 文本檢測 - 訓練DB文字檢測模型

OCR -- 文本檢測 - 訓練DB文字檢測模型

2023-06-02 10:48:09 其他

百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 預測部署簡介與總覽
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 Paddle Inference 模型推理(離線部署)
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 基于 Paddle Serving快速使用(服務化部署 - CentOS)
百度飛槳(PaddlePaddle) - PP-OCRv3 文字檢測識別系統 基于 Paddle Serving快速使用(服務化部署 - Docker)

PaddleOCR提供DB文本檢測演算法,支持MobileNetV3、ResNet50_vd兩種骨干網路,可以根據需要選擇相應的組態檔,啟動訓練,

本節以icdar15資料集、MobileNetV3作為骨干網路的DB檢測模型(即超輕量模型使用的配置)為例,介紹如何完成PaddleOCR中文字檢測模型的訓練、評估與測驗,

3.1 資料準備

本次實驗選取了場景文本檢測和識別(Scene Text Detection and Recognition)任務最知名和常用的資料集ICDAR2015,icdar2015資料集的示意圖如下圖所示:


圖 icdar2015資料集示意圖


該專案中已經下載了icdar2015資料集,存放在 /home/aistudio/data/data96799 中,可以運行如下指令完成資料集解壓,或者從鏈接中自行下載,
image

~/train_data/icdar2015/text_localization 
  └─ icdar_c4_train_imgs/         icdar資料集的訓練資料
  └─ ch4_test_images/             icdar資料集的測驗資料
  └─ train_icdar2015_label.txt    icdar資料集的訓練標注
  └─ test_icdar2015_label.txt     icdar資料集的測驗標注

提供的標注檔案格式為:

" 影像檔案名                    json.dumps編碼的影像標注資訊"
ch4_test_images/img_61.jpg    [{"transcription": "MASA", "points": [[310, 104], [416, 141], [418, 216], [312, 179]], ...}]

json.dumps編碼前的影像標注資訊是包含多個字典的list,字典中的points表示文本框的四個點的坐標(x, y),從左上角的點開始順時針排列, transcription中的欄位表示當前文本框的文字,在文本檢測任務中并不需要這個資訊, 如果您想在其他資料集上訓練PaddleOCR,可以按照上述形式構建標注檔案,

如果"transcription"欄位的文字為'*'或者'###',表示對應的標注可以被忽略掉,因此,如果沒有文字標簽,可以將transcription欄位設定為空字串,

3.2 資料預處理

訓練時對輸入圖片的格式、大小有一定的要求,同時,還需要根據標注資訊獲取閾值圖以及概率圖的真實標簽,所以,在資料輸入模型前,需要對資料進行預處理操作,使得圖片和標簽滿足網路訓練和預測的需要,另外,為了擴大訓練資料集、抑制過擬合,提升模型的泛化能力,還需要使用了幾種基礎的資料增廣方法,

本實驗的資料預處理共包括如下方法:

  • 影像解碼:將影像轉為Numpy格式;
  • 標簽解碼:決議txt檔案中的標簽資訊,并按統一格式進行保存;
  • 基礎資料增廣:包括:隨機水平翻轉、隨機旋轉,隨機縮放,隨機裁剪等;
  • 獲取閾值圖示簽:使用擴張的方式獲取演算法訓練需要的閾值圖示簽;
  • 獲取概率圖示簽:使用收縮的方式獲取演算法訓練需要的概率圖示簽;
  • 歸一化:通過規范化手段,把神經網路每層中任意神經元的輸入值分布改變成均值為0,方差為1的標準正太分布,使得最優解的尋優程序明顯會變得平緩,訓練程序更容易收斂;
  • 通道變換:影像的資料格式為[H, W, C](即高度、寬度和通道數),而神經網路使用的訓練資料的格式為[C, H, W],因此需要對影像資料重新排列,例如[224, 224, 3]變為[3, 224, 224];

影像解碼

從訓練資料的標注中讀取影像,演示DecodeImage類的使用方式,
原始碼位置:\ppocr\data\imaug\operators.py

import os
import matplotlib.pyplot as plt
from paddleocr.ppocr.data.imaug.operators import DecodeImage
 

label_path = "../train_data/icdar2015/text_localization/train_icdar2015_label.txt"
img_dir = "../train_data/icdar2015/text_localization/"

# 1. 讀取訓練標簽的第一條資料
f = open(label_path, "r")
lines = f.readlines()

# 2. 取第一條資料
line = lines[0]

print("The first data in train_icdar2015_label.txt is as follows.\n", line)
img_name, gt_label = line.strip().split("\t")

# 3. 讀取影像
image = open(os.path.join(img_dir, img_name), 'rb').read()
data = https://www.cnblogs.com/vipsoft/p/{'image': image, 'label': gt_label}

# 4. 宣告DecodeImage類,解碼影像
decode_image = DecodeImage(img_mode='RGB', channel_first=False)
data = https://www.cnblogs.com/vipsoft/p/decode_image(data)

# 5. 列印解碼后影像的shape,并可視化影像
print("The shape of decoded image is ", data['image'].shape)

plt.figure(figsize=(10, 10))
plt.imshow(data['image'])
src_img = data['image']
plt.show()

image

標簽解碼

決議txt檔案中的標簽資訊,并按統一格式進行保存;
原始碼位置:ppocr/data/imaug/label_ops.py

import os
from paddleocr.ppocr.data.imaug.label_ops  import DetLabelEncode

label_path = "../train_data/icdar2015/text_localization/train_icdar2015_label.txt"
img_dir = "../train_data/icdar2015/text_localization/"

# 1. 讀取訓練標簽的第一條資料
f = open(label_path, "r")
lines = f.readlines()

# 2. 取第一條資料
line = lines[0]

print("The first data in train_icdar2015_label.txt is as follows.\n", line)
img_name, gt_label = line.strip().split("\t")

# 3. 讀取影像
image = open(os.path.join(img_dir, img_name), 'rb').read()
data = https://www.cnblogs.com/vipsoft/p/{'image': image, 'label': gt_label}

# 1. 宣告標簽解碼的類
decode_label = DetLabelEncode()
# 2. 列印解碼前的標簽
print("The label before decode are: ", data['label'])
data = https://www.cnblogs.com/vipsoft/p/decode_label(data)
print("\n")

# 4. 列印解碼后的標簽
print("The polygon after decode are: ", data['polys'])
print("The text after decode are: ", data['texts'])

基礎資料增廣

資料增廣是提高模型訓練精度,增加模型泛化性的常用方法,文本檢測常用的資料增廣包括隨機水平翻轉、隨機旋轉、隨機縮放以及隨機裁剪等等,

隨機水平翻轉、隨機旋轉、隨機縮放的代碼實作參考代碼,隨機裁剪的資料增廣代碼實作參考代碼,

獲取閾值圖示簽

使用擴張的方式獲取演算法訓練需要的閾值圖示簽;
原始碼位置:ppocr/data/imaug/make_border_map.py

# 從PaddleOCR中import MakeBorderMap
from ppocr.data.imaug.make_border_map import MakeBorderMap

# 1. 宣告MakeBorderMap函式
generate_text_border = MakeBorderMap()

# 2. 根據解碼后的輸入資料計算bordermap資訊
data = https://www.cnblogs.com/vipsoft/p/generate_text_border(data)

# 3. 閾值圖可視化
plt.figure(figsize=(10, 10))
plt.imshow(src_img)

text_border_map = data['threshold_map']
plt.figure(figsize=(10, 10))
plt.imshow(text_border_map)

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/554112.html

標籤:其他

上一篇:12萬漢語源流詞典漢字記性ACCESS資料庫

下一篇:返回列表

標籤雲
其他(160203) Python(38196) JavaScript(25473) Java(18174) C(15236) 區塊鏈(8269) C#(7972) AI(7469) 爪哇(7425) MySQL(7222) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5873) 数组(5741) R(5409) Linux(5346) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4580) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2434) ASP.NET(2403) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1980) 功能(1967) Web開發(1951) HtmlCss(1951) C++(1928) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1879) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • OCR -- 文本檢測 - 訓練DB文字檢測模型

    PaddleOCR提供DB文本檢測演算法,支持MobileNetV3、ResNet50_vd兩種骨干網路,可以根據需要選擇相應的組態檔,啟動訓練。

    本節以icdar15資料集、MobileNetV3作為骨干網路的DB檢測模型(即超輕量模型使用的配置)為例,介紹如何完成PaddleOCR中文字檢測模... ......

    uj5u.com 2023-06-02 10:48:09 more
  • 12萬漢語源流詞典漢字記性ACCESS資料庫

    《12萬漢語源流詞典漢字記性ACCESS資料庫》在繼承前人經驗的基礎上,注意吸收今人的研究成果,注重形音義的密切配合,盡可能歷史地、正確地反映漢字形音義的發展。在字形方面,簡要說明其結構的演變。語意解釋遵循古今語意的發展變化,并采用多例形式實作語境釋義。 在字義方面,釋義準確,義項齊備,例證豐富典范 ......

    uj5u.com 2023-06-02 10:31:03 more
  • 一次網路請求中的流量分發程序 | 京東云技術團隊

    簡單的請求程序最實用,實用的請求程序最簡單。用簡單實用的搭配方式滿足流量分發,不要隨意搭配,增加系統的復雜性。 ......

    uj5u.com 2023-06-02 10:24:12 more
  • 讀改變未來的九大演算法筆記01_資料壓縮

    ![](https://img2023.cnblogs.com/blog/3076680/202306/3076680-20230601235552862-525546511.png) # 1. 起源 ## 1.1. 香農–法諾編碼(Shannon-Fano Coding) ### 1.1.1. 克 ......

    uj5u.com 2023-06-02 09:08:35 more
  • windows 以太坊開發框架Truffle環境搭建

    **一、安裝DApp開發環境**1. * 1.1 安裝Node.js 我們使用官方長期支持的8.10.0LTS版本,下載64位包裝包。 下載后直接安裝即可。安裝完畢,打開一個控制臺視窗,可以使用node了: ``` C:\Users\Administrator> node -v v8.10.0 `` ......

    uj5u.com 2023-06-02 09:08:27 more
  • [網鼎杯 2020 朱雀組]Think Java——wp

    ##源檔案代碼審計 這里使用IDEA打開 ###Test.class ![](https://img2023.cnblogs.com/blog/3117123/202305/3117123-20230531143357357-282348130.png) ![](https://img2023.cn ......

    uj5u.com 2023-06-02 09:08:04 more
  • Flask測驗小工具平臺

    1.首先安裝flask pip install flask,或者在setting里邊去搜flask去安裝 2.寫一個簡單的介面,輸出hello 介面是一個函式,介面要系結一個介面地址,以確定那個介面去走這個函式,系結到路由也就是介面地址 from flask import Flaskapp = Fl ......

    uj5u.com 2023-06-02 09:07:49 more
  • 6.1. 網路基礎知識

    在開始學習Java網路編程之前,首先讓我們了解一些關于網路基礎知識的內容。網路編程主要涉及到計算機網路、網路協議、資料通信等方面的知識。接下來,我將盡量詳細、通俗易懂地介紹這些概念。 **計算機網路** 計算機網路是指將地理位置不同的計算機和其他設備通過通信鏈路(如光纖、無線電波等)連接在一起,實作 ......

    uj5u.com 2023-06-02 09:02:36 more
  • 基于nerdctl+buildkitd+containerd實作鏡像構建

    容器技術除了的docker之外,還有coreOS的rkt、google的gvisor、以及docker開源的containerd、redhat的podman、阿?的pouch等,為了保證容器?態的標準性和健康可持續發展,包括Linux 基?會、Docker、微軟、紅帽、?歌和IBM等公司在2015年... ......

    uj5u.com 2023-06-02 08:59:32 more
  • 魔力屏障 (magic) 題解

    魔力屏障 (magic) 【問題描述】 小 Z 生活在神奇的魔法大陸上。今天他的魔法老師給了它這樣一個法陣作為它 的期末考試題目: 法陣由從左至右 n 道魔力屏障組成,每道屏障有一個臨界值 a,如果它承受攻 擊的魔力值 ≥ a,屏障將會破碎,它所承受的魔力攻擊將在魔力值減半后(向下取 整)繼續向右移 ......

    uj5u.com 2023-06-02 08:59:14 more