第一次作業進展報告

隨著沉浸式虛擬現實（VR）技術的發展，360°視頻越來越多地被使用，然而，與傳統的視頻內容傳輸相比，其具有更高的帶寬和更低的延遲要求，如何傳輸高解析度低時延的視頻內容是虛擬現實技術發展的關鍵性問題，

在“A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities”一文中，作者從視頻投影、編碼、動態調整視口大小的自適應360°視頻流方法、傳輸360°視頻流網路相關解決方案、視口預測、體驗質量QoE評估等多方面概述了虛擬現實視頻傳輸方面的挑戰和研究機會，

在視頻投影方案中，作者介紹了四種現有的投影方法，等矩形投影（如圖1）、立方體貼圖投影（如圖2）、金字塔投影（如圖3）以及偏移立方圖投影（如圖4），等矩形投影是最為常見的投影技術，其可以表示為使用偏航角、俯仰角的值將觀察者周圍的球體展平到二維表面上，常見的例子有世界地圖，立方體貼圖投影是六邊立方體組合用于將球體的像素投影到立方體上相關像素，這種投影方式常用于游戲和視頻流媒體（如：YouTube），金字塔投影方式在視口相關投影中，顯示區域的保真度高于其它區域，這種方法將視頻的大小減少了80%，但其缺點較為突出，即當用戶的頭上下移動120°或左右旋轉180°，視頻質量會急劇下降，偏移立方圖投影與傳統的立方體貼圖技術類似，將像素投影到立方體的六個面，它具有與偏移方向相關聯的觀看區域以更高的質量顯示的特點，缺點是存盤開銷大，

圖1 圖2

圖3 圖4

在視頻編碼方面，目前高效的視頻編碼HEVC/H.265相比于VC/H.264節省了近50%的視頻位元率，其支持高效視頻流的平鋪功能，如圖5，背景一般是不動的，在這種情況下，我們的做法不是對每一幀的每一個像素編碼，而是對最初的幀編碼，然后僅對發生改變的進行編碼，與HEVC/H.265相比，下一代通用視頻編碼（VVC）標準有望將壓縮效率提高30%，

圖5 .264與H.265編碼對比

在自適應360°視頻流方案中，主要分為三類，與視口無關、與視口相關以及基于切片的流，與視口無關的流是360°視頻流傳輸的最直接的方式，因為整個幀以類似傳統視頻的同等質量傳輸整個視頻流，它的優點是不需要頭戴式顯示設備（HMD）的任何方位資訊，缺點是與視口相關的流相比，它的編碼效率低30%，需要大量的帶寬和編碼資源，與視口相關的自適應流中，終端設備僅接受特定區域的視頻幀，這些區域包含視口角度相等或更大的視覺資訊，客戶端根據網路特征和用戶的觀看方向執行自適應，在“Optimal set of 360-degree videos for viewport-adaptive streaming”一文中，描述了一種為視口相關流產生不同質量片段的實用方法，他們提出了質量強調區域(QERs)策略，以在有限數量的表示可用于流式傳輸時縮放特定區域的解析度，而在“Optimized Viewport Dependent Streaming of Stereoscopic Omnidirectional Video”一文中，提出一種通過巧妙地將不對稱質量用于立體視頻的背景和前景視圖的方法，以高質量傳輸前景視圖，以較低質量傳輸背景視圖，在基于切片的自適應流中，360°視頻被分割成相等/不相等的矩形塊，以精確地調整觀看者當前視口塊的質量，在“Towards Bandwidth Efficient Adaptive Streaming of Omnidirectional Video over HTTP: Design, Implementation, and Evaluation”一文中，研究了三種平鋪策略，即基本完全交付、高級完全交付和部分交付，使用最先進的視頻編解碼器有效地節省了360個視頻中未觀看部分的資源，如圖6所示，基本完全交付是在用戶當前視口中可見的所有圖塊都以最高可能的質量表示（綠色圖塊）進行請求，而此時不可見的所有其他圖塊都以最低可用質量表示（紅色圖塊）進行請求，高級完全交付是要求預計用戶的視口將移向的圖塊（黃色圖塊）以更高的質量傳輸，部分交付是所有其他切片(即當前視口外的那些)根本不被請求，在“HEVC tile based streaming to head mounted displays”一文中，提出一種使用HEVC編碼器的基于切片的可變解析度流系統，如圖7所示，該系統將立方體貼圖360°視頻平鋪成24個網格，每個代表一個單獨的位元流，以兩個不同質量的版本被流式傳輸到客戶端，即八個高質量的瓦片和十六個低質量的瓦片，

圖6 三種平鋪策略

圖7 基于切片的可變解析度流系統

在傳輸360°視頻流網路相關解決方案中，“Fov-aware edge caching for adaptive 360 video streaming”一文基于其他用戶的觀看行為，為360°視頻引入了一種流行的內容(如FoV)快取策略，次策略中客戶端的質量適應有兩個主要組成部分:FoV預測和吞吐量估計，自適應演算法每100毫秒從客戶的FoV中提取樣本，并使用10個最近的FoV樣本作為加權線性回歸(WLR)方法的輸入，以預測未來的FoV，吞吐量估計中，吞吐量樣本是下載一個視頻片段時達到的估計吞吐量，網路吞吐量估計是通過平均最后三個吞吐量樣本來完成的，文中提出基于優先級的取舍方式，優先級與當前的網路吞吐量以及是否位于客戶端的FoV內有關，當快取已滿時，移除具有最低優先級的切片，而“MUVR: Supporting multi-user mobile virtual reality with resource constrained edge cloud”一文提出了多用戶虛擬現實(MUVR)框架，其中邊緣云自適應地存盤和重用冗余VR幀，以減少計算和傳輸負載，例如在每個用戶端有一個小的本地快取，在邊緣有一個相當大的中央快取，這種快取設計通過為所有用戶生成背景視圖，盡可能重用框架來減少記憶體需求，

在視口預測中，可根據與視頻內容相不相關進行分類，與視頻內容不相關的方法一般使用觀看者的頭部運動資料進行視口預測，在“Delay Impact on MPEG OMAF’s tile-based viewport-dependent 360?video streaming”一文中，考慮了兩種預測變數:角速度和角加速度，用于根據用戶的先前方位資料來估計他/她的未來頭部方位，而在“Predictive View Generation to Enable Mobile 360-degree and VR Experiences”一文提出一種預測視頻生成的方法，提取預測視圖并提前傳輸，從而同時減少帶寬和延遲，本文收集來自三星虛擬現實網站上的36000多名觀眾的19段視頻的頭部運動資料，將用戶視野使用基于平鋪的格式來表現視點特征，每個網路尺寸為30°×30°，則360°可分為72塊，根據過去2s的視點軌跡來預測視點，設計one-hot編碼，將視點表示為72×10的矩陣V，V的元素為0或1，先前的視點分片序列輸入本文提出的多層LSTM模型中，最終輸出72個分片上的預測概率，選擇m個概率最高的分片，組合成預測視場，高質量地傳輸預測視場，其余分片保存空白，在實驗部分，文中比較了LSTM模型FOV的預測精度與SAE、BT、kNN模型FOV的預測精度，得出在低運動序列、中等運動序列和高運動序列中，LSTM模型FOV的預測精度優于SAE、BT、kNN模型的實驗結論，并相較于上述模型擁有更大的像素節省，達到減少帶寬和延遲的目的，

對于與視頻內容相關的視口預測方法，“Fixation Prediction for 360 Video Streaming in Head-Mounted Virtual Reality”一文提出一種預測網路，可以同時利用傳感器和視頻內容相關的特性來預測未來觀眾的視口，視頻內容相關包括影像顯著圖和運動圖，作者提出訓練深度神經網路來預測顯著圖，網路模型的前三層是預訓練的VGG-16，在VGG-16后面接著兩個附加層，以提高模糊影像顯著圖的泛化能力，而觀看者的頭部位置資訊由HMD中的傳感器采集，包括偏航角（yaw）、俯仰角（pitch）、翻滾角（roll），文中的視口預測網路使用的是LSTM模型，網路的功能是預測觀眾在未來的視頻中最有可能看哪里，如圖8所示，本文提出兩種LSTM網路，第一種網路的輸入是顯著圖、運動圖以及頭部資訊，第二種網路的輸入是顯著圖、運動圖以及當前觀看者視口位置資訊，兩種網路的輸出都是預測未來視頻幀中觀看者的觀看概率，兩種網路都以滑動視窗中m個過去視頻幀的特征作為輸入，并以預測視窗中n個未來視頻幀為輸出來預測切片的觀看概率，文中使用的資料集是自己采集的12個觀看者的資訊，訓練程序中將資料集80%作為訓練集，20%作為測驗集，使用交叉熵損失函式，

圖8 兩種LSTM網路模型

在體驗質量QoE評估中，作者介紹了兩種評估方法，主觀評估和客觀評估，在“Subjective and objective quality assessment of panoramic videos in virtual reality environments”一文中，提出了一種全景視頻主觀評價方法SAMPVIQ，此方法第一步為訓練階段，首先將參考視頻16給觀察者看，然后我們通知并播放了視頻16從高到低質量的視頻序列，目的是給觀察者基本的預期得分，第二階段預測驗階段我們選擇了三組視頻16，每組包含一個參考視頻和三個經過處理的視頻，視頻播放完后，觀察者打分，然后作業人員記錄分數，完成三套后，我們比較了記錄的分數和預期的分數，如果記錄的分數與所有三組的預期相匹配，觀察者就可以進入測驗階段，第三階段測驗階段每個觀察者觀看6類全景視頻，每類視頻包含八組視頻序列，每組包含一個參考視頻和三個隨機播放的已處理視頻，視頻播放時，觀察者打分，然后作業人員記錄分數，所有視頻序列播放完畢后，測驗結束，評分等級為0-5，最終結果可以描述為平均意見得分（mean opinion score，MOS），而客觀評估方法中，“Quality metric for spherical panoramic video”一文提出了一個克拉斯特拋物線投影-PSNR (CPP-PSNR)度量標準，通過將像素重新映射到CPP投影而不改變空間解析度并計算實際像素位置的PSNR來比較各種投影方案，而在“Impact of V arious Motion Interpolation Algorithms on 360?Video QoE”一文中指出僅僅在虛擬現實中測量視覺質量對于一個完整的QoE框架來說是不夠的，找到其他因素的影響也很重要，例如網路疾病、生理癥狀、用戶不適、HMD權重、可用性、VR音頻、視口退化率、網路特性(例如延遲、抖動、帶寬等)，

總結：高質量的360°視頻內容的創建、分發和流式傳輸依然是一個關鍵性問題，除了上述提及的研究方向及其解決方法外，仍有許多問題可以進一步研究，例如：可以利用基于機器學習的帶寬預測方法來捕獲位元率分配的實際帶寬模式，此外，基于多路徑的高解析度360°切片傳輸可以通過最佳可用路徑提供高優先級切片，從而帶來更好的性能和更大的靈活性，使用mmWave通信的自適應計算卸載研究可以支持室內和室外環境中的同步360°流，

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/178631.html

標籤：AI

上一篇：一、SVN服務器的下載與安裝與使用（創建專案、用戶、分組）

下一篇：如何下載學習通上老師們放在學習章節中的PDF？

第一次作業進展報告（論文閱讀：A Survey on Adaptive 360°Video Streaming: Solutions, Challenges and Opportunities）

第一次作業進展報告