qiuzitao深度學習之PyTorch實戰（十六）-有解無憂

史上最簡單、實際、通俗易懂的PyTorch實戰系列教程！（新手友好、小白請進、建議收藏）

基于3D卷積的視頻分析與動作識別

一、3D卷積原理解讀

視頻就是一幀一幀的影像按照時間拼接組成的，3D卷積就是比2D的卷積多了個時間維度，

在這里插入圖片描述

二、UCF 101動作識別資料集簡介

UCF 101動作識別資料集官網地址下載：https://www.crcv.ucf.edu/data/UCF101.php

在這里插入圖片描述

101類視頻，每一類里面是一個人在做一類的動作，比如射擊、畫口紅、畫眼線等等，資料集有6.5G，我也上傳了網盤供大家下載或者大家自己去資料集的官網下載，

UCF101資料集的操作類別為：涂抹眼妝，涂抹口紅，射箭，嬰兒爬行，平衡木，樂隊游行，棒球場，籃球投籃，籃球扣籃，臥推，騎自行車，臺球射擊，吹干頭發，吹蠟燭，體重蹲，保齡球，拳擊沙袋，拳擊速度袋，蛙泳，刷牙，清潔和挺舉，懸崖跳水，板球保齡球，板球射擊，在廚房切割，潛水，打鼓，擊劍，曲棍球罰款，地板體操，飛盤接球，前爬網，高爾夫揮桿，理發，鏈球擲，錘擊，倒立俯臥撐，倒立行走，頭部按摩，跳高，跑馬，騎馬，呼啦圈，冰舞，標槍擲，雜耍球，跳繩，跳躍杰克，皮劃艇，針織，跳遠，刺，閱兵，混合擊球手，拖地板，修女夾頭，雙杠，披薩折騰，彈吉他，彈鋼琴，彈塔布拉琴，彈小提琴，彈大提琴，彈Daf，彈Dhol，彈長笛，彈奏Sitar，撐竿跳高，鞍馬，引體向上，拳打，俯臥撐，漂流，室內攀巖，爬繩，劃船，莎莎旋轉，剃胡子，鉛球，滑冰登機，滑雪，Skijet，跳傘，足球雜耍，足球罰球，靜環，相撲，沖浪，秋千，乒乓球拍，太極拳，網球秋千，投擲鐵餅，蹦床跳躍，打字，高低杠，排球突刺，與狗同行，墻上俯臥撐，在船上寫字，溜溜球，剃胡須，鉛球，滑冰登機，滑雪，Skijet，跳傘，足球雜耍，足球罰款，靜物環，相撲，沖浪，秋千，乒乓球射擊，太極拳，網球秋千，擲鐵餅，蹦床跳躍，打字，不均勻酒吧，排球突刺，與狗同行，壁式俯臥撐，在船上寫字，溜溜球，剃胡須，鉛球，滑冰登機，滑雪，Skijet，跳傘，足球雜耍，足球罰款，靜物環，相撲，沖浪，秋千，乒乓球射擊，太極拳，網球秋千，擲鐵餅，蹦床跳躍，打字，不均勻酒吧，排球突刺，與狗同行，壁式俯臥撐，在船上寫字，溜溜球，

在這里插入圖片描述

三、《基于3D卷積的視頻分析與動作識別》專案實戰

代碼鏈接：https://pan.baidu.com/s/1rEVP8jJB2HGKukfFK2nIGQ
提取碼：agpd

3.1、測驗效果與專案配置

記得把上面下載好的資料在工程檔案夾同目錄下創建一個data檔案夾放解壓的資料，然后才能運行測驗，已經訓練了100代的模型給大家測驗了，運行 inference.py 就可以進行測驗了，

在這里插入圖片描述
訓練的話，在 mypath 這個地方得設定一下路徑，新建一個 data_process 檔案夾，然后先運行 dataset.py 對資料進行一個處理，然后在用 train.py 訓練，不過因為資料集的原因，可能會跑個幾天吧，訓練很久的，

在這里插入圖片描述
這些就是資料預處理的結果，把視頻預處理成一張張圖片，也把資料集分成了訓練集測驗集驗證集，

在這里插入圖片描述

3.2、視頻資料預處理方法

dataset 這里我們得到兩個路徑，第一個就是我們從哪去讀這個資料（self.root_dir），第二個就是保存預處理資料的路徑（self.output_dir），

然后要進行一個resize操作，操作后每一幀的規格才會相同，

在這里插入圖片描述
接下來要創建三個檔案夾，然后遍歷101類的類別檔案夾當中的類別名字，也就是資料標簽，把資料集按比例拆分：train、val、test

在這里插入圖片描述
然后取資料，我們不一幀一幀取，這樣子太相似了，我們每 4 幀取一幀，判斷如果一共取出來的特征少于 16 了，我們就-1，隔3幀取一幀，再少于16再 -1，再少于16再-1，

在這里插入圖片描述

然后再將取出來的那些圖片做一個處理，resize操作呀等等，然后再寫進去存盤的檔案夾，

在這里插入圖片描述

3.3、資料Batch制作方法

先把資料讀進來
然后再去截取16張圖片，self.crop（），就是我們一幀一幀的視頻可能不止16張，但我們一次要16張，取哪16張呢，這就是我們從哪開始截取了，而不是隨機取16張的，然后重新去截取區域的 h 和 w ，這里是112*112，

在這里插入圖片描述

這里的16就是一次（一個樣本）讀取16幀（16張）的圖片，batch_size = 6 ,就是一次拿6個樣本去訓練，

在這里插入圖片描述

3.4、3D卷積網路所涉及模塊

初始化網路引數，卷積-池化-卷積-池化，現在是3d就改為 nn.Conv3d，然后kernel_size = (3,3,3),比之前多了一個維度，多了一個3，每3幀提取一個特征，然后MaxPool3d比之前多了個3d，kernel_size = （1，2，2）這里的1就是在時間維度上不去壓縮，其他都變成原來的二分之一，往下的卷積池化就正常了，時間維度也會去壓縮了，最后的全連接層的8192就是卷積池化后得到的特征圖的大小，然后再轉化成4096維，然后再轉化成幾類，最后再加 dropout 和 relu 激活函式，完事，

在這里插入圖片描述

3.5、訓練網路模型

前向傳播一開始的網路結構變化和輸出

在這里插入圖片描述
模型保存操作

在這里插入圖片描述

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/216366.html

標籤：其他

上一篇：verilog或者nios驅動W5100

下一篇：APB協議詳解