多領域中文語音識別資料集 WenetSpeech 正式發布—

??【專欄：資料集整理】?? 之【有效拒絕假資料】

👋 Follow me 👋，一起學更多有趣 AI、沖沖沖 🚀 🚀

文章目錄

- 🥇 資料集介紹
- - - 🔴 基礎資訊
    - 🔵 WenetSpeech 簡介
    - 🟣 WenetSpeech 收集程序
    - 🟡 資料校驗
    - 🔴 經典演算法對比
- 📘 下載正確打開方式
- - - 🟧 下載主頁
    - 🟨 填寫郵箱資訊
    - 🟦 提交成功界面如下
    - 🟧 很快郵箱收到下載方式說明
    - 🟨 開始下載
- 📙 致敬大佬

🥇 資料集介紹

0-0

🔴 基礎資訊

西北工業大學音頻語音和語言處理研究組(ASLP Lab)、出門問問、希爾貝殼聯合發布1萬小時多領域中文語音識別資料集 WenetSpeech

對應論文：https://arxiv.org/pdf/2110.03370.pdf
官方主頁：https://wenet-e2e.github.io/WenetSpeech/
該部分介紹主要參考該文： https://mp.weixin.qq.com/s/lR22WmI5G2mPSuloZUcWVA
追求排版體驗的同學，可自行復制跳轉原文【上面鏈接】進行查閱

1-0

🔵 WenetSpeech 簡介

??WenetSpeech 除了含有 10000+ 小時的高質量標注資料之外，還包括2400+ 小時弱標注資料和 22400+ 小時的總音頻，覆寫各種互聯網音視頻、噪聲背景條件、講話方式，來源領域包括有聲書、解說、紀錄片、電視劇、訪談、新聞、朗讀、演講、綜藝和其他等10大場景，領域詳細統計資料如下圖所示，
1-2

🟣 WenetSpeech 收集程序

1-3
??下圖中給出該 OCR 系統在不同場景下的幾個典型示例，圖中綠色的框為檢測到的所有文字區域，紅色的框為判定為字幕的文字區域，紅色框上方的文本為 OCR 的識別結果，可以看到，該系統正確的判定了字幕區域，并準確的識別了字幕文本，同時經過我們測驗，發現該系統也可以準確判定字幕的起始和結束時間，