深度學習在物理層信號處理中的應用研究-有解無憂

摘要：本文主要介紹基于深度學習的物理層應用，并提出一種基于深度Q網路（DQN）的MIMO系統位置資訊驗證方案，接收者在多變未知的信道環境下利用深度Q網路不斷更新，

01引言

隨著移動流量呈現的爆發式增長、高可靠性和低時延的通信場景給當前網路帶來了更大的復雜性和計算挑戰，據IBM報道，移動資料量到2020年將超過40萬億Gbits，比2009年增加44倍，連接總設備量將達到500億，為了滿足這一需求，需要新的通信理論和創新技術來滿足5G系統的需求，近些年深度學習范式的發展使引起了學術界和工業界對基于深度學習的無線通信技術的研究，研究結果證實了深度學習技術可以提高無線通信系統的性能，并有潛力應用在物理層進行干擾調整、信道估計和信號檢測、信號處理等方面，

02深度學習范式

深度學習的概念源于人工神經網路（ANN）的研究，由Hinton等人于2006年提出，如圖1所示，深度學習通過建立具有階層結構的ANN，往往包含一個輸入層、多個隱藏層和一個輸出層，每個層之間采用不同的權重與鄰層之間進行連接，通過對輸入資訊進行逐層提取和篩選，可以實作端到端的監督學習和非監督學習，深度神經網路包括前饋神經網路（FNN）、回圈神經網路（RNN）、卷積神經網路（CNN）、對抗生成網路（GAN）和深度信念網路等，其中基于門控的RNN，例如長短期記憶（LSTM）網路對于輸入有一定的記憶功能，因此常被用于物理層信號處理和信道狀態資訊估計等，此外，深度學習也可參與構建強化學習（RL）系統，形成深度強化學習，例如深度Q網路（DQN）[1]，可以用于對物理層信號處理策略制定的優化，

1）長短期記憶網路

作為RNN的一個變體，長短期記憶網路可以有效解決簡單回圈神經網路的梯度爆炸或消失問題，RNN通過隱狀態來存盤歷史資訊，在簡單的RNN中，隱狀態的每個時刻都會被重寫，因此可以看作是一種短期記憶，而在LSTM網路中，記憶單元保存關鍵資訊的時間要長于短期記憶，LSTM網路引入門機制來控制資訊傳遞的路徑，門機制取值在0到1之間，來控制資訊通過的比例，LSTM網路主要包括了3個門，其中遺忘門控制上一個時刻的內部狀態需要遺忘多少資訊；輸入門控制當前時刻的候選狀態保存多少資訊；輸出門控制當前時刻的內部狀態有多少資訊需要輸出給外部狀態，

2）深度Q網路

DQN將CNN與Q學習結合起來，采用Q 學習的目標值函式來構造深度學習的目標函式，利用記憶回放機制來解決資料之間的關聯性問題，并采用迭代更新解決系統穩定性問題，假設環境在時刻所處的狀態為，代理根據一定的策略來采取動作，并獲得獎勵，然后，環境在時刻轉移到以轉移概率轉移到了下一個狀態，在DQN中，代理通過一系列行動與環境進行互動，目的是最大化累積獎勵，

同時，采用基于卷積神經網路的經驗回放來進行Q函式的不斷近似，在經驗回放中，代理每一步使用ξ-greedy來選擇動作，并將每個時刻的學習經驗保存在經驗池中，在演算法的引數更新回圈里，對記憶池里的樣本進行隨機采樣或批量隨機采樣，通過Q學習對模型進行引數更新，并通過CNN來根據之前的經驗，不斷近似最大的Q值，CNN的損失函式就是近似的Q值與真實Q值之間的偏差，通過梯度下降演算法不斷調整神經網路的權重，就可不斷減少損失函式的值，

03 基于深度學習的物理層信號處理應用

近年來，學術界和工業界已經出現了一些深度學習應用于物理層的相關作業，研究結果發表深度學習可以提高物理層性能，本小節從物理層信號處理的角度，從信道狀態資訊（CSI）估計、信號編解碼、干擾調整和信號檢測四個方面對目前已有的相關作業進行舉例和說明，

1）基于深度學習的CSI估計

精確的CSI獲取對于保證無線通信系統的鏈路性能至關重要，無線網路根據信道估計狀態來選擇具體的信號控制方案，例如，當CSI較低時，物理層采用低階調制方案來對抗惡劣的通信狀態從而降低誤碼率，5G通信系統采用多輸入多輸出（MIMO）、毫米波和非正交多址接入（NOMA）等技術，使得通信雙方擁有更多的傳輸信道，信道估計問題也變得更加復雜，傳統的CSI估計方案需要執行具有高復雜度的矩陣運算，受到了計算資源和時延的限制，

利用深度學習來得到CSI資訊時空和上下行之間的關聯性，已經被證實可以提高CSI估計的效率，并減少所需上下行參考資訊的資料量[2]，如圖2所示，論文[3]提出將歷史CSI資料經過一個二維卷積神經網路提取頻率特征矢量，再利用一個一維卷積神經網路來從頻率特征矢量中提取狀態特征矢量，最后，一個LSTM網路用來進行CSI狀態預測，由于二維卷積神經網路最初是用來處理圖片資料的，因此，作者將CSI原始資料分割成單元格，每個單元格對應一個圖片像素，每個頻帶的CSI和輔助資訊對應的像素組成一個頻道，因此，N個頻帶的資料將被轉換成N個頻道的像素資訊，并輸入到學習框架中，

2）基于深度學習的編解碼

深度學習在信源編碼和信道編碼方面的應用，也證明了其可以提高編碼效率并降低網路的BER，基于深度學習框架的聯合編碼方案可以通過回圈神經網路實作對本文的源編碼（結構化），然后將結構化的資訊輸入雙向的LSTM網路，并最終輸出最終傳輸的二進制資料流，在接收端，LSTM用來進行解碼處理，論文[4]提出了就有全連接深度神經網路的編碼器，用來提高基于置信傳播演算法的HPDC解碼效率，O’Shea等人在[5]中將整個物理層建模為一個包含了調制、信道編碼和信號分類功能的自編碼器，并利用卷積神經網路來對自編碼器進行訓練，如圖3所示，在多密集層神經網路的學習框架中，輸入信號被編碼為獨熱編碼（One-hot encoding），無線信道建模為一個噪聲層，交叉熵損失函式和隨機梯度下降演算法用來訓練模型，在輸出端將最高概率的輸出信號作為解碼結果，

3）基于深度學習的干擾調整

MIMO系統中的干擾調整通過線性預編碼技術來調整發射信號，使得接收端的干擾信號可以控制在一個降維子空間里，從而突破MIMO系統干擾問題帶來的吞吐量限制，現有作業中已經有研究結果表明，利用深度學習可以提高干擾調整網路中的吞吐量，并取得優化結果，He等人在[6]中提出了采用DQN來獲得干擾調整下最優的用戶選擇策略，在該機制中，中央調度器用來收集所有信道狀態和每個用戶的快取狀態，并將信道資源分配給每個用戶，信道的時變程序用一個有限狀態馬爾科夫模型來進行建模，系統的狀態定義為每個用戶的信道狀態和快取狀況，中央調度器用來為系統訓練處最佳策略，對應的系統動作定義為是否為每個用戶分配信道資源來進行資料的傳輸，來最大化干擾調整網路的吞吐量，DQN也可被用于認知無線電網路中次用戶與主用戶之間的干擾消除，次用戶利用跳頻和移動性來抵御干擾者[7]，

4）基于深度學習的信號檢測

基于DL的檢測演算法可以顯著提高通信系統的性能，尤其適當傳統的處理模塊需要聯合優化或是信道無法用常見的分析模型來表征時，論文[8]提出了一個五層全連接的DNN框架嵌入到OFDM接收器中來進行聯合信道估計和信號檢測，將接收到的信號以及對應的傳輸資料和導頻作為輸入，DNN可以推斷出信道資訊，而且可以用來預測發送的資料，在MIMO中檢測中，基于貝葉斯最優檢測器的迭代方法已經被證實有較優的性能和中等的計算復雜度，但在很多更復雜的環境下，未知的信道分布條件將限制這種檢測器的效果，利用深度學習演算法，可以根據一定的輸入資料來恢復模型引數，從而提高檢測器的自適應能力，同時，在一些情況下，深度學習演算法還可以利用一些語意資訊，例如接收器的位置和周圍車輛節點的資訊，來進行波束預測，從而提高系統性能，

04 基于DQN的信號檢測機制

在基于位置服務的場景中，車輛或者用戶需要不斷發送信標訊息來報告自己的位置，從而提高位置服務和網路性能，但有些車輛或用戶會選擇發送虛假的位置來獲取更多的資源，影響了網路服務的效用，

在MIMO系統中，傳輸信號往往包含了豐富的資訊（到達角、接收功率等）可以在接收端利用信號檢測技術對信標訊息進行位置驗證，我們提出基于DQN的信號檢測機制，可以用于MIMO系統中發送者的位置資訊驗證和對資訊偽造者的檢測，主要的思想為，接收端對接收的信號采用最大似然估計進行假設檢驗，當接收到的信號通過檢測檢驗時，則認為發送信號來自于發送者上報的位置，否則，認為發送者上報了虛假的位置資訊，為了提高在多變的信道狀態下的檢測性能，在接收端基于DQN來預測采用不同的檢測閾值可以取得的收益，并選取最優的檢測閾值，系統框架如圖4所示，

1）系統模型 假設檢驗中的零假設定為發送節點上報真實位置資訊，備擇假設為發送節點上報了虛假位置資訊，在每個時刻，接收端收到發送端的信號都與發送端與接收端之間的真實位置、信道狀態和信號到達角有關，在已知發送資訊和發送功率的條件下，接收端可以利用最大似然檢測來對接收到的信號進行假設檢驗，

2）最大似然檢測 接收端采用最大似然檢測演算法來驗證接收到的信號，檢測規則定義為：

其中代表檢測閾值，取值范圍為，和代表檢測結果分別為正常和虛假上報，和分別為觀測信號在零假設和備擇假設下的后驗分布，根據[9]可得，假設檢驗的結果（誤報率和丟失率）與發送者的實際位置、上報位置、信道狀況和檢測閾值有關，對于接收端來說，發送者的實際位置、上報位置以及信道狀態屬于未知或部分已知的環境變數，在與發送者之間不斷的資訊互動程序中，本文提出接收端可以基于DQN來不斷優化檢測閾值的選擇，從而提高信號檢測的準確率，

3）基于DQN的檢測閾值優化

在本文提出的機制中，將接收端的狀態空間分為兩個維度，第一個維度是發送端到接收端的信道狀態，第二個維度是信道檢測的結果，信道狀態空間包括量化后的一系列信道指標，并假設信道的狀態轉移符合馬爾科夫程序，即信道在當前時刻的狀態都只與上一個時刻的狀態有關，結果狀態空間包括四種：真實資料檢測結果為真、真實資料檢測結果為假；虛假資料檢測結果為真以及虛假資料檢測結果為假，在每次動作程序中，接收端的直接獎勵與檢測結果有關，當檢測結果正確時獲得正收益，當檢測結果錯誤時獲得負收益，接收端的動作定義為進行信號檢測的閾值，動作空間包括一系列量化的檢測閾值，在每個片刻，接收端的混合策略為選擇不同檢測閾值的概率，基于本文第二章介紹的DQN原理，接收端在每次經歷后，將自己選擇的檢驗閾值、對應的狀態結果和收益存盤到經驗池，利用CNN對Q函式進行訓練預測，不斷優化對檢測閾值的選擇，

05 總結與未來發展建議

在本文中，我們通過現有作業和案例證明了深度學習在物理層通信中的巨大應用潛力，除了以上介紹的幾種應用方向，深度學習在端到端通信系統中也得到了一定的應用，不過，目前還尚未有結論基于深度學習的端到端通信系統性能是否會最終超過傳統通信系統性能，另外，基于深度學習的物理層應用需要資料驅動，為了提高深度學習模型的訓練效率，可以將需要長時間訓練的模塊進行融合，并需要考慮在良好的性能和訓練效率之間的權衡，深度學習應用的興起主要歸功于各種可用的資料集，但目前用于無線通信相關的資料集仍然較少，資料的安全和隱私問題進一步限制了在真實世界對通信資料的訪問功能，但為了基于深度學習的通信應用，需要一些開放性電信資料集的發布和共享，最后，5G復雜多變的通信環境，包括MIMO、毫米波通信以及NOMA技術等，也為深度學習的應用帶來了巨大的潛力，

參考文獻

[1] Mnih, Volodymyr, et al. "Human-levelcontrol through deep reinforcement learning." Nature 518.7540(2015): 529. https://www.nature.com/articles/nature14236.

[2] A. Mousavi and R. G. Baraniuk, “Learning toInvert: Signal Recovery via Deep Convolutional Networks,” Proc. IEEE Int’l.Conf. Acoustics Speech Signal Process. (ICASSP’17), New Orleans, LA, Mar. 2017,pp. 2272–76.

[3] C. Luo, J. Ji, Q. Wang, X. Chen and P. Li,"Channel State Information Prediction for 5G Wireless Communications: ADeep Learning Approach," in IEEE Transactions on Network Science andEngineering, early access.

[4] E. Nachmani, Y. Be’ery, and D. Burshtein,“Learning to decode linear codes using deep learning,” in Proc. Communication,Control, and Computing (Allerton), 2016, pp. 341–346.

[5] T. O’Shea and J. Hoydis, "An Introduction to Deep Learning for thePhysical Layer," in IEEE Transactions on Cognitive Communications andNetworking, vol. 3, no. 4, pp. 563-575, Dec. 2017.

[6] Y. He, C. Liang, F. R. Yu, N. Zhao, and H.Yin, “Optimization of cache-enabled opportunistic interference alignmentwireless networks: A big data deep reinforcement learning approach,” in Proc.IEEE Int. Conf. Commun. (ICC), May 2017, pp. 1–6.

[7] G. Han, L. Xiao, and H. V. Poor,“Two-dimensional anti-jamming communication based on deep reinforcementlearning,” in Proc. IEEE Int. Conf. Acoust. Speech Signal Process. (ICASSP),New Orleans, USA, Mar. 2017, pp. 2087–2091.

[8] H. Ye, G. Y. Li, and B.-H. F. Juang, “Power ofDeep Learning for Channel Estimation and Signal Detection in OFDM Systems,”IEEE Wireless Commun. Lett., vol. 7, no. 1, Feb. 2018, pp. 114–17.

[9] Bai, Lin, Jinho Choi, and Quan Yu. “SignalProcessing at Receivers: Detection Theory.” Low Complexity MIMO Receivers,Springer, Cham, 2014. pp.5-28.

本文分享自華為云社區《深度學習在物理層信號處理中的應用研究》，原文作者：就挺突然，

點擊關注，第一時間了解華為云新鮮技術~

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/232628.html

標籤：AI

上一篇：Salesforce截胡“美版釘釘”Slack，叫板微軟，誰怕誰？

下一篇：Observability：從零基礎到能夠完成微服務可觀測性的專家 - Service Map 實踐