【深度學習】使用深度學習進行手語識別-有解無憂

介紹

手語識別是一個多年來一直在研究的問題，然而，我們還遠未在我們的社會中找到完整的解決方案，

在為解決這一問題而開展的作業中，大多數作業基本上基于兩種方法：基于接觸的系統，諸如傳感器手套; 或僅使用相機的基于視覺的系統，后者更便宜，而深度學習的蓬勃發展使其更具吸引力，

這篇文章展示了一個使用卷積神經網路的手語雙攝像頭第一人稱視覺翻譯系統的原型，文章分為三個主要部分：系統設計、資料集和深度學習模型訓練和評估，

視覺系統

視覺是手語的一個關鍵因素，每一種手語都是為了讓一個人在另一個人面前理解，從這個角度來看，一個手勢是完全可以觀察到的，從另一個角度查看手勢會使理解變得困難或幾乎不可能，因為無法觀察到每個手指的位置和動作，

試圖從第一視覺的角度理解手語也有同樣的局限性，有些手勢最終看起來是一樣的，但是，這種模糊性可以通過在不同位置放置更多攝像機來解決，這樣，一臺相機看不到的東西，可以被另一臺相機完美地觀察到，

視覺系統由兩個攝像頭組成：一個頭戴式攝像頭和一個胸戴式攝像頭，使用這兩個攝像頭，我們可以獲得標志的兩個不同視圖，一個頂視圖和一個底視圖，它們一起作業以識別標志，

從頂視圖和底視圖的角度對應于巴拿馬手語中的字母 Q 的符號

這種設計的另一個好處是用戶將獲得自主權，在傳統方法中無法實作的功能，即用戶不是殘疾人，而是需要在手語者做出手語動作時取出帶有相機的系統并聚焦手語表達者的第三人，

資料集

為了開發該系統的第一個原型，使用了來自巴拿馬手冊字母表的 24 個靜態標志的資料集，

巴拿馬語手冊字母表

為了將此問題建模為影像識別問題，我們舍棄了字母 J、Z、RR 和 ? 等動態手勢，因為它們給解決方案增加了額外的復雜性，

資料收集和預處理

為了收集資料集，要求四名用戶佩戴視覺系統，并在兩臺攝像機以640x480像素解析度記錄的同時，執行每一個手勢10秒鐘，，

要求用戶在三種不同的場景中執行此程序：室內、室外和綠色背景場景，對于室內和室外場景，要求用戶在執行手勢的同時四處走動，以獲得具有不同背景、光源和位置的影像，綠色背景場景用于資料增強程序，我們將在后面描述，

獲取視頻后，提取幀并將其降低到 125x125 像素解析度，

從左到右：綠色背景場景，室內和室外

資料增強

由于進入卷積神經網路之前的預處理被簡化為只是重新縮放，因此背景總是會傳遞給模型，在這種情況下，模型需要能夠識別一個標志，盡管它可能具有不同的背景，

為了提高模型的泛化能力，人為地添加了更多不同背景的影像來代替綠色背景，這樣就可以在不投入太多時間的情況下獲得更多資料，

具有新背景的影像

在訓練期間，還添加了另一個資料增強程序，包括執行一些變換，例如一些旋轉、光強度的變化和重新縮放，

旋轉、光強度和重新縮放的變化

選擇這兩種資料增強程序有助于提高模型的泛化能力，

頂視圖和底視圖資料集

這個問題被建模為一個包含 24 個類的多類分類問題，問題本身被分成兩個較小的多類分類問題，

決定哪些手勢將根據頂視圖模型進行分類，哪些手勢將根據底視圖模型進行分類的方法是選擇所有從底視圖角度看過于相似的手勢作為要從頂視圖模型進行分類的手勢，其余手勢將根據底視圖模型進行分類，所以基本上，頂視圖模型用于解決歧義，

因此，資料集被分為兩部分，每個模型一部分，如下表所示，

深度學習模型

作為最先進的技術，卷積神經網路是解決這個問題的選擇，它訓練了兩種模型：一種用于頂視圖，另一種用于底視圖，

建筑學

頂視圖和底視圖模型都使用了相同的卷積神經網路架構，唯一的區別是輸出單元的數量，

卷積神經網路的架構如下圖所示，

卷積神經網路架構

為了提高模型的泛化能力，在全連接層的層之間使用了 dropout 技術來提高模型性能，

評估

在測驗集中使用與系統在室內的正常使用相對應的資料對模型進行評估，換句話說，在背景中，它出現了一個人作為觀察者，類似于上圖中的輸入影像（卷積神經網路架構），結果如下所示，

雖然模型學會了對一些符號進行分類，例如 Q、R、H；總的來說，結果不是特別好，看來模型的泛化能力不太好，然而，該模型也通過顯示系統潛力的實時資料進行了測驗，

底部視圖模型使用具有綠色統一背景的實時視頻進行測驗，當我在筆記本電腦中運行底視圖模型時，我戴著胸戴式攝像頭以每秒 5 幀的速度拍攝視頻，并嘗試拼寫 fútbol（西班牙語）這個詞，通過單擊模擬每個字母的條目，

結論

手語識別是一個困難的問題，如果我們考慮所有可能的手勢組合，這類系統需要理解和翻譯，也就是說，解決這個問題的最好方法可能是將它劃分為更簡單的問題，而這里介紹的系統將對應于其中一個問題的可能解決方案，

該系統的性能不太好，但已經證明，它可以只用攝像機和卷積神經網路構建第一人稱手語翻譯系統，

據觀察，該模型傾向于將幾個符號相互混淆，例如 U 和 W，但是仔細想想，也許它不需要具有完美的性能，因為使用拼寫校正器或單詞預測器會增加翻譯的準確性，

下一步是分析解決方案并研究改進系統的方法，通過收集更多質量資料、嘗試更多卷積神經網路架構或重新設計視覺系統來進行一些改進，

往期精彩回顧




適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料列印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯
AI基礎下載機器學習的數學基礎專輯黃海廣老師《機器學習課程》視頻課

本站qq群851320808，加入微信群請掃碼：

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/301129.html

標籤：其他

上一篇：espnet安裝簡明教程2021

下一篇：雙目測距 SGBM演算法 Python版