論文題目：ASEGAN：WGAN音頻超解析度

這篇文章并不具有權威性，因為沒有發表，說不定是外國的某個大學的畢業設計，或者課程結束后的作業、或者實驗報告，

CS230: Deep Learning, Spring 2018, Stanford University, CA. (LateX template borrowed from NIPS 2017.)

代碼：github

作者：Jonathan Gomes-Selman, Arjun Sawhney, WoodyWang

摘要

　　本文提出使用Wasserstein(沃瑟斯坦)生成對抗網路來提高現有神經網路的性能，訓練神經網路來執行音頻超解析度任務，受SRGAN[3]的啟發，我們利用一個預先訓練過的ASRNet版本，如Kuleshov等人描述的模型[2]，作一個全卷積鑒別器模型的生成器，我們對生成器使用一個自適應的損失函式，將content loss_內容損失(生成器輸出和對應的真實音頻信號之間的MSE)與傳統的對抗性損失相加，結果表明，該模型在信噪比(SNR)和對數譜距離(LSD)兩方面均優于bicubic interpolation_{(雙三次插值)}基線，與ASRNet相比，我們的模型在LSD度量上表現出了更強的性能，并且我們的模型重構低解析度信號的更高頻率而降低了信噪比，ASRNet和我們的模型在MUSHRA測驗中都達到了近乎相同的性能，該測驗結合了人類對產生的音頻信號清晰度的感知，并且都顯著優于基線，

1 引言

　　隨著個人助理系統和音頻資料的興起，對技術設備的聽覺輸入變得越來越普遍；然而，考慮到聲音的粗糙性和可變性以及錄音設備的細微差別，以音頻作為輸入的系統常常不得不處理質量較差的音頻，有時必須重新確認或重復詢問相同的問題來解釋輸入語音，因此，如果一個網路能夠以質量較差的音頻作為輸入，在不需要用戶確認或重復的情況下增強或決議它，就可以改善個人助理和其他使用音頻資料通知操作的技術的體驗，

　　考慮到這個動機，我們提出了改進現有的模型，執行語音帶寬擴展，一種特定形式的音頻超解析度，從一個下采樣的版本低質量音頻，通過重建，生成高質量的音頻，如[2]所述，考慮到SRGAN[3]利用生成對抗網路(GAN)對現有的影像超解析度模型進行改進的成功，我們提出了一種改進的Wasserstein GAN體系結構來增強由[2]引入的音頻超解析度模型ASRNet，通過將改進后的ASRNet作為生成器與深度卷積鑒頻器耦合，我們的ASRWGAN結果顯示了使用GANs增強當前音頻超解析度方法的前景，

2 相關作業

　　我們的靈感來自于各種音頻和非音頻相關的深度學習方法，從根本上說，正如前面提到的，我們專案的主要目標是改進現有的用于音頻超解析度的深度殘差啊網路(ASRNet)的性能，ASRNet是由[2]提出的，它借鑒了前人對影像超解析度的研究成果，將其建模為具有殘差跳躍連接的深度卷積神經網路，ASRNet已被證明大大優于傳統插值技術，并為音頻超解析度提供了一個有前途的實時網路架構，

　　我們提出了一個模型來進一步提高ASRNet的性能，結合了生成對抗網路的優點，正如[2]所指出的，音頻超解析度的任務在很大程度上反映了影像超解析度的任務，因此，我們提出的模型和方法與SRGAN[3]中提出的模型和方法密切相關，SRGAN是一種用于影像超解析度的GAN，在大縮放因子下超解析度影像的表現優于現有的先進體系結構，

　　在開發我們的GAN架構時，我們也從Wave- GAN[1]的實作中得到了靈感，WaveGAN探索了使用全卷積架構進行音頻合成的問題，而不是使用與時間序列建模密切相關的RNNs，WaveGAN的性能展示了將卷積模型應用于一維時間序列資料的潛力，這是我們在這里進一步研究的一種方法，

3 資料集和特征

　　我們使用的資料來自語音與技術研究中心[5]提供的CSTR VCTK語料庫，這個資料集包括109個母語為英語的人的語音資料，每個人背誦大約400個英陳述句子，盡管我們只是為了效率和計算時間的限制而對單個演講者的資料進行培訓，順便說一句，我們注意到，在未來的應用中，我們可以預見到為Skype或Alexa等服務中的單說話人專門訓練的音頻超解析度模型，資料采用WAV檔案格式，我們使用Python的librosa庫將其轉換為一個numpy陣列，固定采樣率為16000Hz，我們將音頻信號表示為函式$f(t):[0,T]-->R$，其中$f(t)$是$t$處的振幅，$t$是信號的時間長度，為了將連續信號作為輸入進行處理，必須將$f(t)$離散為向量$x(t):[\frac{1}{R},\frac{2}{R},...,\frac{RT}{R}]$，其中R為輸入音頻的采樣率，單位為Hz，

　　為了標準化輸入長度，我們從資料集中的語音中抽取半秒的patch作為樣本，經過預處理得到shape為(8192,1)的向量，然后我們隨機打亂這些向量，并執行以下的訓練/測驗資料集分割

訓練集: 3328 樣本, 測驗集: 500 樣本

　　我們使用Chebyshev低通濾波器對每個高解析度的語音進行預處理，將初始信號抽取為低解析度的等長信號，并將其作為生成器網路的輸入，基線我們采用雙三次插值方法進行音頻超解析度任務，

4 方法及最終模型

　　如圖1所示，我們提出的模型靈感主要來源于三個主要模型：SRGAN[3]、wave-GAN[1]和ASRNet[2]，密切關注我們的一般方法SRGAN中提出的方法，其中包括使用pre-trained生成器網路(ASRNet)來避免區域最小值和在生成器丟失中加入內容損失成份，通過提供有關手頭實際任務的領域知識（超解析度）來提高性能，對于GAN體系結構的生成器和鑒別器，我們分別使用了修改后的ASRNet和WaveGAN鑒別器，我們選擇WaveGAN 鑒別器是因為它在音頻時間序列資料上的表現，這在很大程度上關系到長一維卷積濾波器能否成功捕捉到聲音的周期性，

　　在我們的架構研究中，我們主要關注兩種型別的GAN，即尋常 GAN和Wasserstein GAN (WGAN)[4]，我們最初的實作是一個普通的GAN，使用傳統的GAN訓練技術，比如使用非飽和成本函式，以及Leaky Relu非線性激活函式(如CS230課程中所述)等，然而，這個模型在訓練時表現出模式崩潰、爆炸梯度和不同的損失，因此我們轉向WGAN以獲得更大的訓練穩定性，

圖1：調整后超引數的ASR-WGAN架構

　　WGAN通過重新定義損失函式、合并權重剪裁、降低學習速度和使用非基于動量的優化器(RMS Prop)來適應普通的GAN，正如在[4]中提到的，這些更改允許更可靠的梯度反向傳播到生成器，同時保持引數值較小，以防止出現模型崩潰等問題

修改后的損失函式

$$公式1：Discriminator\_Loss=max_DE_{x\sim p_x}[D(x)]-E_{z\sim p_z}[D(G(z))]$$

根據[4]中描述的WGAN訓練演算法，鑒別器不再訓練來識別真實和預測的例子，而是訓練來計算Wasserstein_沃瑟斯坦距離

$$公式2：Generator\_Loss=\frac{1}{n}||x-G(z)||_2^2+\lambda max_GE_{z\sim p_z}[D(G(z))]$$

我們修改了[4]中提出的生成器損失，由于在[3]中類似方法的成功，所以在傳統對抗性損失的基礎上加入內容損失，我們使用預測和真實示例之間的MSE(均方誤差)來提供關于實際任務目標(超解析度)的領域知識，以及一個額外的超引數$\lambda$來平衡內容損失和對抗性損失，具體地說，我們用$\lambda$來控制我們的模型對內容丟失的優化

5 結構與討論

　　度量：根據Kuleshov等人的研究[2]，我們使用信噪比和對數譜距離作為度量，給定一個目標信號$y$和重建$x$，信噪比和LSD定義如方程(3)和(4)所示，其中$X$和$\hat{X}$是$x$和$y$的對數譜功率大小，它被定義為$X=\log |S|^2$, $S$是短時傅里葉變換的信號，和$l,k$分別為index_指標幀和頻率，

$$公式3：SNR(x,y)=10\log \frac{||y||_2^2}{||x-y||_2^2}$$

$$公式4：LSD(x,y)=\frac{1}{L}\sum_{l=1}^L\sqrt{\frac{1}{K}\sum_{k=1}^K(X(l,k)-\hat{X}(l,k))^2}$$

圖2：來自各種重建方法的語音語譜圖

圖3：鑒別器和生成器的損失曲線，y軸上分別為損失值，x軸上為小批量迭代次數

　　估計：如圖2所示，與基線雙三次插值或樣條重建相比，我們的ASRWGAN重建顯示出在解決更高頻率的顯著改善，相對于ASRNet，我們的ASR-WGAN仍然可以恢復更多的高頻率，但是會出現一些原始高解析度語音中不存在的無關噪聲，這可以通過保存更多的預訓練生成器模型來解決，

　　從表1和表2的客觀指標來看，我們看到信噪比略有下降，大約為1-2 dB，但LSD有所改善(減少)，LSD指標比信噪比指標[2]更能分辨更高的頻率，在仔細檢查了epochs 1-5所保存的權重之后，信噪比顯著下降到~ 5，這表明利用預先訓練好的網路的好處正在減少，這可能是由于我們的鑒別器和生成器之間的性能差距造成的，然而，我們看到基線性能在短短40個周期內快速恢復和改進，因此，盡管與ASRNet生成器相比，我們似乎引入了更多的噪聲，但作為權衡，我們恢復了更多的高頻，

Objective Metrics	Spline	ASRNet	ASR-WGAN
SNR	14.8	17.1	15.7
log Spectral Distance	8.2	3.6	3.3

表1：在上縮放比率為4時候的音頻超解析度方法的客觀評價

MUSHRA	Sample 1	Sample 2	Sample 3	Sample 4
ASR-WGAN	70	61	73	68
ASRNet	67	63	75	68.3
SPline	42	34	36	37.3

表2：對每個音頻樣本的平均MUSHRA用戶打分

　　在添加了權重和梯度裁剪并過渡到WGAN之后，我們避免了模型崩潰，并在訓練中看到了改進的穩定性，如圖3中我們的損失曲線所示，我們可以看到，當鑒別器在連續的迭代中不斷更新時，生成器的損失穩步下降，

　　根據Kuleshov等人[2]的作業建議，然后我們通過詢問10名受過訓練的音樂家，讓他們使用MUSHRA(帶有隱藏參考和錨點的多個因素)測驗來評估重建的總體質量，我們從VCTK單說話人資料集中隨機選取三個音頻樣本，對樣本進行降采樣，然后使用雙三次樣條插值、ASRNet和我們的ASRWGAN重構樣本，然后，我們要求每位受試者給每個樣本打分，分值從0(糟糕)到100(完美)，實驗結果見表2所示，我們看到我們的ASR-WGAN重建評分明顯高于樣條，但ASRNets和ASRWGAN重建之間的差異不那么明顯，

6 結論與未來的作業

　　我們介紹了一種新的音頻超解析度的深層架構，我們的方法是新穎的，因為它結合了SRGAN, Wave-GAN和ASRNet，與傳統評價方法相比，實證評價方法的性能有所提高，

　　特別適用于生成音頻信號的高頻分量，與傳統方法相比，MUSHRA評估的最終結果也優于傳統方法，我們的架構中同時使用了普通的GAN和WGAN，我們最終選擇了WGAN，由于它的學習速度更小，損失函式更小，并且增加了權重和梯度剪切，提高了訓練的穩定性，所以更適合我們的問題，

　　我們最強的模型，命名為ASR-WGAN，在信噪比(SNR)和對數光譜距離(LSD)方面都比傳統的雙三次插值方法表現出更強的性能，同時在LSD度量上表現出更強的性能，與ASRNet相比信噪比降低，我們認為這些結果與我們的模型試圖重建輸入音頻信號的最高頻率的觀察結果是一致的，這可能是音頻超解析度最具挑戰性的部分，該模型以不連續的形式對預測的輸出信號引入了一些噪聲，在定性上，MUSHRA實驗表明，輸出信號的清晰度與ASRNet相當，且遠優于我們的基線模型，

　　未來作業：我們假設ASRWGAN的結構，特別是鑒別器和生成器之間的初始性能差距，導致ASRWGAN不能充分利用生成器的初始預訓練狀態，鑒于此，我們未來作業的第一個行動是通過引入跳過連接和殘差單元使我們的識別器更具表現力，并調整鑒別器與生成器的訓練比例，此外，我們打算對生成器上的損失函式進行實驗，特別是內容損失，以便更好地反映優化人類耳朵性能的最終目標，給定更多的計算時間，一個自然的擴展將是在VCTK資料集中的多個揚聲器上訓練我們的模型，并執行更徹底的超引數搜索，以找到權值剪切邊界，

7 貢獻

　　每個團隊成員對專案的貢獻是平等的，Jonathan撰寫了大部分代碼來創建ASRWGAN的體系結構，Woody撰寫代碼在AWS實體上訓練和測驗模型，Arjun在分析音頻和影像超解析度領域現有GAN實作的基礎上，對資料集進行預處理，并對GAN體系結構進行調整和實作，所有團隊成員都認真閱讀了相關論文，提高了團隊的作業效率，花時間除錯和重構代碼，并在最終報告的撰寫中做出了同等的貢獻，

8 致謝

　　我們要感謝Volodymyr Kuleshov對我們整個專案的支持，幫助我們理解他最初的models架構，我們也要感謝Ahmad Momeni, Brandon Yang和CS230的全體教師幫助我們實施和理解我們的ASRWGAN，

9 代碼

專案代碼可在https://github.com/jonathangomesselman/CS230-Project中找到

參考文獻

[1] Donahue, Chris et al. Synthesizing Audio with Generative Adversarial Networks in arXiv, 2018.
[2] Kuleshov, Volodymyr et al. Audio Super Resolution with Neural Networks in arXiv (Workshop Track) 2017.
[3] Ledig, Christian et al. Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network in arXiv 2017.
[4] Arjovsky, Martin et al. Wasserstein GAN in ICML, 2017.
[5] English Multi-speaker Corpus for CSTR Voice Cloning Toolkit, 2010.
[6] Abadi, Martín et al. TensorFlow: Large-scale machine learning on heterogeneous systems, 2015. Software available from tensorflow.org, 2015. 6

轉載請註明出處，本文鏈接：https://www.uj5u.com/qita/72040.html

標籤：其他

上一篇：劍指Offer（三十七）：數字在排序陣列中出現的次數

下一篇：編程教育會是世界各國下一場科技競爭

論文翻譯：ASRWGAN: Wasserstein Generative Adversarial Network for Audio Super Resolution

摘要