使用Mask R-CNN模型實作人體關鍵節點標注-有解無憂

摘要：在本案例中，我們將展示如何對基礎的Mask R-CNN進行擴展，完成人體關鍵節點標注的任務，

本文分享自華為云社區《使用Mask R-CNN模型實作人體關鍵節點標注》，作者：運氣男孩，

前言

ModelArts 是面向開發者的一站式 AI 開發平臺，為機器學習與深度學習提供海量資料預處理及互動式智能標注、大規模分布式訓練、自動化模型生成，及端-邊-云模型按需部署能力，幫助用戶快速創建和部署模型，管理全周期 AI 作業流，

背景

Mask R-CNN是一個靈活開放的框架，可以在這個基礎框架的基礎上進行擴展，以完成更多的人工智能任務，在本案例中，我們將展示如何對基礎的Mask R-CNN進行擴展，完成人體關鍵節點標注的任務，

Mask R-CNN整體架構，它的3個主要網路：

backbone網路，用于生成特征圖
RPN網路，用于生成實體的位置、分類、分割(mask)資訊
head網路，對位置、分類和分割(mask)資訊進行訓練

在head網路中，有分類、位置框和分割(mask)資訊的3個分支，我們可以對head網路進行擴展，加入一個人體關鍵節點keypoint分支，并對其進行訓練，使得我們的模型具備關鍵節點分析的能力，那么我們的模型結構將如下圖所示：

head網路中，紅色的keypionts分支為新加入的人體關鍵節點分支

MaskRCNN模型的決議可以參考此文章，

本案例的運行環境是 TensorFlow 1.8.0 ，

keypoints分支

在RPN中，我們生成Proposal后，當檢測到Proposal的分類為"Person"時，對每個部位的關鍵點生成一個one-hot掩碼，訓練的目標最終是得到一個56*56的二值掩碼，當中只有一個像素被標記為關鍵點，其余像素均為背景，對于每一個關鍵點的位置，進行最小化平均交叉熵損失檢測，K個關鍵點是被獨立處理的，

人體姿態檢測中，人本身可以作為一個目標實體進行分類檢測，但是，采取了one-hot編碼以后，就可以擴展到coco資料集中被標注的17個人體關鍵點（例如：左眼、右耳），同時也能夠處理非連續型數值特征，

COCO資料集中，對人體中17個關鍵點進行了標注，包括：鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左肘,右肘,左手腕,右手腕,左膝蓋,右膝蓋,左腳踝,右腳踝,左小腿,右小腿，如下圖所示：

基礎環境準備

在使用 ModelArts 進行 AI 開發前，需先完成以下基礎操作哦（如有已完成部分，請忽略），主要分為4步（注冊–>實名認證–>服務授權–>領代金券）：

1、使用手機號注冊華為云賬號：點擊注冊

2、點此去完成實名認證，賬號型別選"個人"，個人認證型別推薦使用"掃碼認證"，

3、點擊進入 ModelArts 控制臺資料管理頁面，上方會提示訪問授權，點擊【服務授權】按鈕，按下圖順序操作：

4、進入 ModelArts 控制臺首頁，如下圖，點擊頁面上的"彩蛋"，領取新手福利代金券！后續步驟可能會產生資源消耗費用，請務必領取，

以上操作，也提供了詳細的視頻教程，點此查看：ModelArts環境配置

在ModelArts中訓練Mask R-CNN keypoints模型

準備資料和源代碼

第一步：準備資料集和預訓練模型

下載完成后，顯示如下壓縮包

解壓后，得到data目錄，其結構如下：

data/
├── mask_rcnn_coco.h5
├── annotations
│   ├── person_keypoints_train2014.json
│   ├── ***.json
├── train2014
│   ├── COCO_train2014_***.jpg
└── val2014
    ├── COCO_val2014_***.jpg復制

其中data/mask_rcnn_coco_humanpose.h5為預訓練模型，annotations、train2014和val2014為我們提前準備好的最小資料集，包含了500張圖片的標注資訊，

第二步：準備源代碼

第三步：安裝依賴pycocotools

我們使用COCO資料集，需要安裝工具庫pycocotools

程式初始化

第一步：匯入相關的庫，定義全域變數

第二步：生成配置項

我們定義Config類的子類MyTrainConfig，指定相關的引數，較為關鍵的引數有：

__NAME__： Config的唯一名稱
__NUM_CLASSIS__：分類的數量，我們只生成圓形，正方形和三角形，再加上背景，因此一共是4個分類
__IMAGE_MIN_DIM和IMAGE_MAX_DIM__：圖片的最大和最小尺寸，我們生成固定的128x128的圖片，因此都設定為128
__TRAIN_ROIS_PER_IMAGE__：每張圖片上訓練的RoI個數
__STEPS_PER_EPOCH和VALIDATION_STEPS__：訓練和驗證時，每輪的step數量，減少step的數量可以加速訓練，但是檢測精度降低

第三步：創建資料集物件

我們使用封裝好的CocoDataset類，生成訓練集和驗證集，

創建模型

用"training"模式創建模型物件，并加載預訓練模型

運行完成后輸出下面

訓練模型

Keras中的模型可以按照制定的層進行構建，在模型的train方法中，我們可以通過layers引數來指定特定的層進行訓練，layers引數有以下幾種預設值：

heads:只訓練head網路中的分類、mask和bbox回歸
all: 所有的layer
3+: 訓練ResNet Stage3和后續Stage
4+: 訓練ResNet Stage4和后續Stage
5+: 訓練ResNet Stage5和后續Stage

此外，layers引數還支持正則運算式，按照匹配規則指定layer，可以呼叫model.keras_model.summary()查看各個層的名稱，然后按照需要指定要訓練的層，

我們針對不同的layer進行訓練，首先，訓練head網路中的4個分支：

輸出結果：

然后訓練ResNet Stage4和后續Stage

最后，對所有layer進行優化，并將訓練的模型保存到本地

輸出結果：

使用模型檢測圖片物體

第一步：創建"Inference"模式的模型物件，并加載我們訓練好的模型檔案

第二步：從驗證資料集中隨機選出一張圖片，顯式Ground Truth資訊

輸出結果，識別圖片如下：

第三步：使用模型對圖片進行預測，并顯示結果

最終識別結果：

總結

使用Mask R-CNN模型實作人體關鍵節點標注，在head網路中，有分類、位置框和分割(mask)資訊的3個分支，我們可以對head網路進行擴展，加入一個人體關鍵節點keypoint分支，并對其進行訓練，使得我們的模型具備關鍵節點分析的能力，對人體中17個關鍵點進行了標注，包括：鼻子,左眼,右眼,左耳,右耳,左肩,右肩,左肘,右肘,左手腕,右手腕,左膝蓋,右膝蓋,左腳踝,右腳踝,左小腿,右小腿，并且取得了不錯的效果，

點擊關注，第一時間了解華為云新鮮技術~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/514262.html

標籤：其他

上一篇：Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination

下一篇：VGG模型-文獻閱讀筆記