論文翻譯（9）---A Convolution Bidirectional Long Short-Term Memory Neural Network for Driver Emotion Recog-有解無憂

期刊：IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTA TION SYSTEMS
論文地址
鏈接：https://pan.baidu.com/s/1l-LybqzJ3YOfs5aM0oxkAQ
提取碼：zqdc
A Convolution Bidirectional Long Short-TermMemory Neural Network for Driver Emotion Recognition
用于駕駛員情緒識別的卷積雙向長短期記憶神經網路

摘要

實時識別駕駛員情緒可以大大提高交通安全，隨著通信技術的快速發展，處理大量視頻資料和實時識別駕駛員情緒成為可能，為了有效識別駕駛員的情緒，提出了一種新的深度學習框架——卷積雙向長短期記憶神經網路，該方法基于從面部皮膚資訊提取的幾何特征和從RGB分量的變化提取的心率來預測駕駛員的情緒，使用卷積神經網路獲得的面部幾何特征是雙向長短期記憶(雙LSTM)心率分析的中間變數，隨后，雙LSTM的輸出被用作CNN模塊的輸入，以提取心率特征，CBLNN使用多模態分解雙線性池(MFB)來融合提取的資訊，并將其分類為五種常見的情緒:快樂、憤怒、悲傷、恐懼和中立，對我們的情感識別方法進行了測驗，證明它可以快速穩定地實時識別情感，
索引術語——情緒識別、面部皮膚、心率、雙向長短期記憶(雙LSTM)、CBLNN，

一引言

移動通信技術的成熟使得大量資料能夠實時上傳到遠程處理中心，進行繁重的操作，為用戶調整神經網路，隨著傳感器技術和深度學習演算法的發展，實時情感識別變得更加準確和適用于現實世界，特別是對于交通領域，實時識別駕駛員的情緒已經成為一個重要的解決方案，它可以潛在地改變駕駛員的行為，從而減少駕駛員在駕駛時的潛在危機，[1]，[2]，

為了實時識別情感，考慮了許多特征來提高準確性和可用性，例如語音、文本、面部表情、眼睛注視方向和生物電信號，例如，一些語音和文本特征可以用來識別人的情緒狀態[3]，[4]，然而，它們比現實世界中駕駛情況下的視覺特征更難獲得，

通常，情緒通過面部表情普遍存在，例如，已經提出了基于攝像機的檢測方法[5]，以使觀察者在用戶情況下(例如玩游戲、駕駛汽車)的互動程序中更加自然和方便，一般來說，人臉識別方法有兩種，即基于幾何的[6]方法和基于外觀的[5]、[7]方法，面部特征很容易受到外部因素的影響，因此需要非常復雜的資料采集設備，另外，在情感識別領域，五官個體差異較大，五官泛化能力不強，因此，僅使用面部特征不足以準確識別情緒，

與視覺和聲音特征不同，生物特征信號如心電圖、肌電圖等，已經廣泛應用于大多數情感檢測實驗中，例如，最近的實驗使用微波、熱成像和其他方法來檢測心率[8]，然而，這些方法要求受試者穿戴特殊裝備并直接接觸[9]，[10]，從而干擾受試者的活動，

在這項作業中，我們的目標是提供一種能夠克服這些限制的新方法，

提出了一種新的基于心率和人臉幾何的深度學習框架CBLNN，該方法利用CNN進行人臉幾何分析，利用CNN獲得的人臉特征作為中間變數參與雙LSTM心率分析程序，融合面部特征和心率特征，得到情感分類結果，本文的主要貢獻是:

1)提出了一種基于人臉幾何和心率的駕駛員情緒感知方法，該方法引入通過面部皮膚亮度變化獲得的心率來補償幾何特征中缺失的資訊，該方法既保留了傳統單幀面部結構狀態情感識別方法的優點，又增加了對時間變化的考慮，
2)該方法有效地結合了CNN和雙LSTM，空間資料的分析參與時間資料的分析，從而更有效地結合空間和時間特征，
論文的其余部分組織如下，第二節介紹了相關作業，第三節簡要說明了這一擬議方法的概況，第四節詳細介紹了CBLNN模型，第五部分是情感識別方法，然后我們在第六節展示了實驗和結果，討論見第七節，結論載于第八節，

二、相關作業

A.虛擬云計算
交通領域有很多關于云計算的研究[11]–[14]，Wan等人[15]提出了一種基于移動云計算的戰場監視系統，哈什姆·埃扎等人[16]提出了一種新穎的車載網路系統模型，該模型有助于提供可靠、安全和隱私感知的實時視頻報告服務，Sorkhoh等人[17]解決了作業負載卸載以及在邊緣可用計算資源上調度計算任務的問題，Aissioui等人【18】引入了跟隨我邊緣云(FMeC)概念，利用移動邊緣計算(MeC)架構來滿足汽車系統的需求，陶等人[19]提出了一種支持通信的車載云計算平臺，用于提供有效的車載資料云服務，
B.基于語音的識別
Ramakrishnan和El Emary [3]提出了語音情感感知的聲學特征，并介紹了10個有趣的語音情感感知應用，Chavhan等人[4]在自動語音情感感知的研究中，使用Support Vector Machine(SVM)作為分類器，對“快樂”、“悲傷”、“中性”、“恐懼”等狀態進行分類，測驗結果的成功率男性為94.73%，女性為100%，中性病例的正確率為93.75%，
C.基于面部的識別
Monkaresi等人[8]使用了兩種主要的面部表情識別方法，一種是基于幾何的，另一種是基于外觀的，這兩種方法各有利弊，它們的結合取得了較好的效果，Mariooryad等人[20]考慮了發音程序和內部情緒對面部表情的影響，徐等人[21]提出了一種稱為面部動態圖的方法，即使在人連續運動的情況下，也能正確檢測人的情緒，胡等人[6]在差分影像計算中，通過使用檢測到的人臉標志作為關注區域來提升區域值，從而對MHI進行了改進，吳等人[7]提出了兩種將頭部姿勢和眼睛注視結合到連續情緒識別中的方法，蔣等人[5]提出了一種基于概率和集成學習(PIL)的分類演算法，用于解決高級人類情感識別問題，
D.基于生物特征的識別
洛佩斯-吉爾等人[10]提出了一種使用眼睛跟蹤、生物測定和腦電圖(EEG)測量設備研究基本和復雜情緒的方法，費迪南多等人[22]從心電圖推匯出心率變異性(HRV ),以確定情感識別中使用的一些標準特征，并將情感轉移到覺醒價空間，Katsigiannis等人[23]提出了一個多模態資料庫DREAMER，它集成了心電圖和腦電圖資料，參與者在每次刺激后進行自我評估，以修正資料庫，阿倫扎等人[24]描述了HRV短時間序列的非線性復雜性，并在視覺情緒誘導實驗中驗證了他們的方法，達班魯等人[9]通過刺激冷色調和暖色調來分析HRV，并將積極情緒和消極情緒聯系起來，達班魯等人[9]提出了一種基于IoMT的情感識別系統，阿佩爾漢斯和呂肯[25]得出結論，HRV是一個可接近的研究工具，可以增加社會和精神病理學的情感理解程序，金塔納等人[26]證明，HRV增加可以提高一個人識別情緒的能力，
雖然這些方法已經取得了顯著的性能，我們總結如下限制:
1)傳統方法為了抵抗光照條件的影響，忽略了亮度資訊，如LBP [8]或灰度影像，
2)傳統的情感識別方法主要集中在單幀上，很少或根本沒有考慮信號時間變化中包含的資訊[8]–[21]，
3)大多數使用生理信號的方法都是侵入性的，會干擾駕駛員的操作，基于視頻的檢測方法適用性更強，成本更低，

三.概觀

提出了一種新的深度學習框架CBLNN，通過Kinect v2檢測人的面部幾何形狀和心率來估計人的情緒，圖1示出了所提出的CBLNN方法的程序圖，Kinect v2是用來捕捉面部特征，此外，由于全身血流引起的周期性面部亮度變化可用于確定心率，Kinect v2可檢測此類變化以捕捉心率，該方法利用CNN進行人臉幾何分析，然后通過CNN獲得的人臉特征參與雙LSTM的心率分析程序，雙LSTM的輸出將被輸入CNN以獲得心率特征，CBLNN使用多模態分解雙線性池來融合提取的資訊，并將其分為五種常見情緒，
以下部分描述了提議的CBLNN方法的細節，
在這里插入圖片描述

四.低層特征提取

A.心率特征的提取

心率與面部情緒有很強的相關性，McCraty等人[27]觀察到，某些特定的精神狀態總是與不同的心理和行為因素相關，并且與特定的心率模式相關，下圖是心率轉速圖，圖2顯示了特定情緒下的心率變化，
在這里插入圖片描述心率由Kinect v2采集，這種設備可以檢測到由全身血液流動引起的面部周期性亮度變化，事實上，隨著血液的流動，人體皮膚的表面會發生輕微的變化，Kinect設備會通過攝像頭快速識別人體皮膚的變化，Kinect的攝像頭傳感器檢測到的亮度與血液通過面部肌肉吸收的光量成反比，血液通過面部肌肉時光線越弱，傳感器檢測到的光越多，亮度的周期性變化可以描述為可用于確定心率的信號/波，獨立分量分析(ICA)用于將亮度變化與心率相匹配，獨立分量分析是一種基于信號高階統計特征的信號分析方法，觀察到的隨機信號遵循:
在這里插入圖片描述
其中，X是觀測信號矩陣，每個觀測信號之間存在統計相關性，在變換矩陣W的變換之后，信號矩陣S的各個信號分量之間的相關性降低，特征矩陣的聯合近似對角化(JADE)，獨立分量分析演算法被用來為混合的R，G，B，IR資料提供分離矩陣，采用獨立分量分析演算法為混合的紅、綠、藍、紅外資料提供分離矩陣

JADE演算法的目標是計算混合矩陣的逆，它可以用四個步驟來描述[28]:
在這里插入圖片描述分離后，使用快速傅里葉變換提取信號[29]，采用帶通濾波找到匹配的心率范圍，頻帶范圍在0.7赫茲至4赫茲之間，相當于每分鐘42至240次心跳[30]，

B.人臉幾何特征的提取
Kinect提供的人臉跟蹤SDK非常可靠，可以實時跟蹤人臉，人臉跟蹤SDK可以提供121個三維共享點和100個跟蹤點[31]，面的邊界框可以由面部特征點決定，由于光線、角度或背景的影響，人臉影像中噪聲的存在是固有的，因此不能直接用于人臉特征提取，這些影像必須經過預處理，原始獲得的影像經過切割、縮放、濾波、去噪、直方圖均衡和灰度均衡后，成為歸一化的標準影像，用于后續的特征提取，

將影像切割并縮放為48px × 48px后，使用Gabor小波進行影像處理[32]，在這項作業中，圓形高斯包絡Gabor小波常用于人臉識別，其核心函式定義如下:
在這里插入圖片描述主成分分析是一種將特征向量投影到低維子空間的線性映射方法，一旦通過Gabor變換提取了面部特征向量，就應用主成分分析來獲得低維的特征分析，分離不同濾波器下得到的特征向量，利用主成分分析對每個濾波器下得到的特征向量進行降維，每個樣本的最終特征仍然由多個相同維數的向量組成，

V. CBLNN模型的網路結構

CBLNN的網路結構如圖4所示，在CBLNN中，CNN用于處理面部幾何圖形，CNN [34]是一種深度學習方法，廣泛用于解決復雜的問題，網路由卷積層和池化層組成，它先進行卷積，然后進行合并，將輸出作為輸入饋送到下一個卷積層，依此類推，

在這里插入圖片描述
CNN的特點使其在影像特征提取方面具有顯著優勢，CNN基于對生物視覺細胞區域感知的理解，使用部分濾波器進行卷積，具體來說，輸入項的區域子矩陣和區域濾波器之間的運算是內積，為了更好地表示資料，我們使用卷積層通過濾波器對多個輸出矩陣進行處理，每個輸出矩陣的大小為(N-m+1)，具體操作程序如下
在這里插入圖片描述
其中x1，j i，l代表l卷積層，I代表I卷積輸出矩陣的一個值，j代表對應輸出矩陣的個數，從左到右的層的索引對應于從0到N，N是指輸出矩陣的卷積數，f是非線性函式，這里用的是sigmoid函式，

CNN的池化層是一個進一步降低矩陣維數，不破壞資料內在聯系的程序，匯集層可以選擇最大值(最大池化)或取平均值(平均池化)，然而，在這種方法中，我們使用平均池化層，它的輸入來自前一個卷積層，其輸出用作下一層的輸入，

均值池用于通過區域均值來降維，詳細操作程式如下，
在這里插入圖片描述
其中xl，j i表示池化后本地對的輸出項，

該方法利用Kinect實時檢測人臉皮膚，并通過人臉皮膚資料計算人體的行為特征，在對輸入卷積神經網路進行訓練和測驗之前，需要先對輸入資料進行預處理，資料采集處理將大小限制為15×1向量，其中15表示投影到低維子空間后的維數，主成分分析不僅可以降低特征維數，而且可以最大限度地保留原始資訊，另外，對不同濾波器下得到的人臉特征進行分離降維，目的是保持特征的空間相關性，這樣更適合CNN特征提取，

最后一個卷積層的輸出被用作中間變數，以參與心率的雙LSTM [35]分析程序，

雙LSTM是一種RNN(遞回神經網路)，雙LSTM用于將連續動作的心率信號點序列(N個采集點)編碼成向量，并將它們記錄為hN，與其他演算法不同，雙LSTM可以跟蹤資訊，這是處理序列的理想選擇，雙LSTM將心率信號點向量h0與第二心率圖點向量組合，以生成新的向量h1，T h e n繼續與下一個心率圖點向量結合生成h2，一個n d s o on，直到向量hN，
…
盡管LSTM能夠捕捉長期序列資訊，但它只考慮一個方向，這意味著LSTM的當前幀只受當前狀態的影響，為了加強這種關系，我們在處理當前幀時也會考慮下一幀，雙LSTM適合這種情況，第一層是向前的LSTM，第二層是向后的LSTM，最終產量可根據以下公式計算:

六.實驗

A.實驗環境

我們進行了兩組實驗來評估我們的方法，第一組實驗由兩個子實驗組成，第一個分析了心率估計的準確性，第二個實驗是與其他模型的對比實驗，第二組實驗是在仿真環境中驗證傳輸速率，

出于安全考慮，我們選擇了模擬駕駛環境來收集資料，邀請了12名有駕駛經驗的志愿者收集資料，其中包括3名女性和9名男性，如圖5所示，Kinect放置在駕駛員的正前方，允許它捕捉駕駛員的面部，每個視頻都被切成1分鐘的片段，由志愿者自己標記，

在下一步中，通過CNN獲得的面部特征將被用作雙LSTM的輸入，其目的是參與Bi-LSTM對心率資料的分析，為了對情感進行分類，Softmax在MFB之后連接，Softmax的輸出是情感識別分類，最后，遞回網路由BPTT [37]訓練，具體來說，批次設定為64，動量為0.9，學習率從0.01開始，然后每迭代2萬次，學習率除以10，經過50，000次迭代，訓練收斂了，測驗樣本如表一所示，其中包含受試者提供的五種情緒，一部分樣本如圖6所示，
在這里插入圖片描述 B.心率估計的分析

實驗中的心率是根據面部資料估算的，首先，我們評估這個心率的準確性，我們通過一段時間內的面部資料獲得心率，為了量化選定的移動視窗大小對心率準確性的影響，我們測驗了三種不同的移動視窗大小，值得注意的是，正常人的心率范圍在42 - 240 bpm之間，也就是心跳間隔會是0.7-4秒，基于這個事實，我們選擇了0.5s、1s、2s、4s、8s五種不同的移動視窗大小進行分析，地面實況（The ground truth）由BMD 101心電傳感器測量，

如表二所示，4秒移動視窗大小具有最高的準確性，在橫向實驗中，心率測量移動視窗大小設定為4秒，圖7清楚地顯示了由非接觸式測量的心率方法(Kinect v2)與基本事實密切相關，圖8顯示了誤差分布，
在這里插入圖片描述
C.識別
在這個實驗中，不同層次的情感特征被用來評估模型的性能，正如我們在第三節中討論的，我們分別評估了面部幾何形狀和心率的表現，然后我們評估了這些情感特征組合的表現，在接下來的兩個小節中，我們用沒有心率的方法、方法[6]和方法[9]來分析我們的結果，

1)僅通過面部幾何圖形識別:首先，我們檢查面部幾何形狀對我們的實驗資料集的影響，作為比較的基線，我們總共進行了100次測驗，并對這些測驗的結果進行了排序，選擇了從第10次到第90次排序的資料，并計算了平均值，如表三所示，我們的無心率方法在檢測“快樂”(86.36%)、“憤怒”(84.00%)、“悲傷”(83.96%)和“中性”(86.43%)方面表現良好，恐懼的準確率相對較低，只有49.09%，我們的方法可以達到與方法[6]和方法[9]相同的精度，可以看出，我們的模型在識別快樂、憤怒、悲傷和中立方面具有相似的準確性，但是恐懼的準確率要低很多，這可能是因為恐懼的情緒過于復雜，這種情緒在臉上的表現與其他情緒過于相似，
在這里插入圖片描述

2)通過面部幾何形狀和心率進行識別:

同樣，我們總共進行了100次測驗，并對這些測驗結果的資料進行了排序，選擇了從第10次到第90次排序的資料，并計算了平均值，如表四所示，我們的心率方法在檢測“快樂”(91.36%)、“憤怒”(90.50%)、“悲傷”(91.51%)和“中性”(89.15%)方面表現良好，將結果與沒有心率的結果進行比較，心率分別提高了5.00%、6.50%、7.55%、10.00%和2.71%，證明引入心率可以提高準確率，但是恐懼的準確率還是遠遠低于其他情緒，這說明面部特征和心率特征的結合并不能很好的區分恐懼，這可能是因為恐懼下的心率特征與其他情緒沒有太大區別，不足以幫助面部特征使模型很好的區分恐懼，
在這里插入圖片描述如表五所示，我們的方法優于方法[6]和方法[9]，應該注意，方法[9]僅評估“快樂”、“悲傷”和“中性”的準確性，憤怒和恐懼的準確性在這里不適用，最后，總體比較如圖9所示，

在這里插入圖片描述 3)傳輸效率:
在這部分實驗中，我們需要測驗所提出的CBLNN方法的回應速度，回應程序包括將視頻流發送到處理中心，并在處理中心完成駕駛員的情緒識別后反饋到指揮中心和車輛，假設車輛的傳輸距離R為500 m，車速恒定在100 km/h，一個不間斷穩定的實時傳輸解析度為1920×1080(位元率約8 Mbps)的視頻流的連接可以達到1.2 Gbps的速度，回應時間不到100 ms，大部分用于資料處理和實時情感識別，

七.討論

在實驗中，快樂、悲傷、憤怒和中立的結果是可以接受的，而恐懼的結果是不令人滿意的，同時通過對比分析可以看出，心率的引入確實可以提高準確率，我們懷疑恐懼的低準確率也是由另外兩個因素引起的:收集的資料不足，恐懼持續時間短(通常是由突然的路況引起的)使得檢測困難，以及我們的資料集中恐懼的面部幾何形狀不是很明確，如表三所示，相當一部分恐懼樣本被認為是中性的，

為了進一步提高準確性，我們計劃集成其他特征，如估計眼睛注視方向、評估駕駛員的焦點或集成語音特征，在未來的作業中，我們將盡可能地使模擬環境真實，在我們的實驗中，當志愿者面對意想不到的情況時，運動范圍更大，也有振動效應，但是在這個實驗中，那些樣本被忽略了

八.結論

本文提出了一種新的基于人臉特征和心率的駕駛員情緒識別方法，CBLNN使用CNN分析面部幾何，通過CNN獲得的面部特征將被用作Bi-LSTM的輸入，其目的是參與Bi-LSTM對心率資料的分析，CBLNN利用MFB融合提取的特征并進行分類，在實驗部分，我們證明了加入估計心率可以彌補亮度資訊的缺失，提高準確性，實驗結果表明，該方法能夠快速、穩定地感知人類情感，

生詞短語

data collection equipments 資料采集設備
generalization ability泛化能力
Electrocardiogram (ECG)心電圖
Electromyography (EMG)肌電圖
a battlefield surveillance system戰場監視系統
scheduling of computation tasks調度計算任務
difference image calculation.差分影像計算
a probability and integrated learning (PIL) based classification algorithm基于概率和集成學習(PIL)的分類演算法
heart rate variability (HRV)心率變異性(HRV)
is inversely proportional to與…成反比
Independent component analysis (ICA)獨立分量分析(ICA)
Joint Approximation Diagonalization of Eigen-matrices (JADE),特征矩陣的聯合近似對角化(JADE)
calculate the inverse of the mixing matrix計算混合矩陣的逆矩陣
preprocessed 預處理；預加工（preprocess 的過去式和過去分詞）
lateral experiment橫向實驗

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/198780.html

標籤：其他

上一篇：用 JavaScript 實作一個 TicTacToe 游戲 —— 編程訓練

下一篇：2.1.5-3 回圈冗余校驗(CRC)碼

論文翻譯（9）---A Convolution Bidirectional Long Short-Term Memory Neural Network for Driver Emotion Recog

摘要

一 引言