文章目錄
- 前言
- 一、基礎概念
- 1.深度學習:
- 2.反演:
- 3.云反演:
- 4.云觀測方式:
- 5.不同反演方法的差異:
- 6.云宏觀特征與觀測儀器:
- 7.云微觀特征:
- 8.云的遙感觀測流程:
- 二、研究問題概述
- 1.研究內容:
- 2.新意點:
- 3.研究程序概述:
- 4.反演結果:
- 5.研究原因:
- 6.使用太赫茲的原因:
- 三、原理
- 1模擬:
- 2.資料庫:
- 3.冰云引數:
- 4.總結:
- 四、演算法及資料分析
- 1.霰粒子:
- (1)反演流程:
- (2)GWC(同流程,研究從引數變成了廓線):
- (3)預分類:
- 2.冰粒子:
- (1)引數反演流程:
- (2)IWC(也是從引數到廓線):
- (3)預分類(類比霰粒子):
- 五、深度學習細講
- 1.神經網路誕生:
- 2.隱藏層:
- 3.機器學習究竟如何實作:
- 4.Relu函式:
- 六、霰、冰引數即廓線反演結果分析(應該是不在講稿但是可能要講的出來的內容)
- 1.霰引數反演結果分析:
- 2.霰廓線反演結果分析:
- 3.冰引數反演結果分析:
- 4.冰廓線反演結果分析:
- 總結
前言
本科生的衛星遙感課的結課考核中想要吃透一篇論文,并做到很好的展示是不容易的,尤其是還牽涉了深度學習的網路,這里僅分享我們小組在完成整個任務程序中的相關資料整理,給其他面臨同樣任務的同學提供思路,
一、基礎概念
1.深度學習:
深度學習是學習樣本資料的內在規律和表示層次,這些學習程序中獲得的資訊對諸如文字,影像和聲音等資料的解釋有很大的幫助,它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、影像和聲音等資料, 深度學習是一個復雜的機器學習演算法,在語音和影像識別方面取得的效果,遠遠超過先前相關技術,
典型的深度學習模型有卷積神經網路( convolutional neural network)、DBN(深度信任網路模型)和堆疊自編碼網路(stacked auto-encoder network)模型,
2.反演:
定量遙感是指在基于模型知識的基礎上,依據可測引數值去反推目標的狀態引數,或者說,根據觀測資訊和前向物理模型,求解或推算描述地面實況的應用引數(或目標引數),現階段,定量遙感發展的一個主要障礙是反演理論的研究不足,
3.云反演:
云在地球系統能量平衡和水回圈中扮演著至關重要的作用,其特征的準確獲取對于理解大氣物理程序、改進天氣和氣候模擬具有重要意義,云遙感反演是了解云特征、評估衛星云觀測能力的,就宏觀特征來說,可以分為三個類別:云識別或云量的探測方法、云邊界的確定方法以及云相態的反演方法,就微觀特征來說,(地基)云遙感反演方法基本分為兩大型別,最優化求解法和經驗引數化方法,
云在地球系統輻射能量平衡和大氣水回圈中扮演著至關重要的作用,對于輻射能量平衡,云通過反射太陽輻射使得地面白天不會太熱,通過阻擋長波輻射使得夜間不會太冷從而使得地球適合人類生存,在大氣水回圈方面,江河湖海的水汽蒸發以后通過云和降水為陸地提供重要的淡水資源,云對輻射的調節能力和形成降水的多少與云的宏微觀特征緊密相關,然而,云特征的觀測一直存在較大誤差,云的表征也是模式天氣預測和氣候預估中最大的不確定性因子,
4.云觀測方式:
云宏微觀特征可以通過原位觀測和遙感觀測獲得,包括飛機原位觀測、地基和衛星遙感觀測,飛機觀測在各類觀測中的準確度最高,但由于觀測成本高和觀測環境不能過于惡劣等原因而造成觀測時間、觀測次數和觀測樣本有限,飛機觀測資料通常用于云發展程序和特征的個例研究和引數化構建而很難用于獲取長時間或大范圍的云宏微觀特征,衛星遙感觀測包括靜止衛星和極軌衛星觀測,分別具有較高的時間解析度和空間解析度,且能夠實作大范圍觀測,因此在云特征觀測上具有很大的獨特優勢,被廣泛用于云特征的反演、統計研究和模式模擬評估研究,然而,衛星云觀測的不確定性相對較大,時間和空間解析度相對于飛機和地面還是過于粗糙而無法用于很多云相關程序研究,地面云遙感觀測精度多介于飛機和衛星觀測之間、時間解析度高且能長時間連續觀測,并且可以與地面多種儀器觀測配合,共同反演云特征或彼此進行印證,
在實際應用中,飛機原位觀測多用于對地面或衛星遙感觀測的診斷和評估;地面遙感觀測多用于對衛星遙感觀測和模式模擬研究的診斷和評估,而衛星遙感觀測多用于對模式模擬研究的診斷和評估,
5.不同反演方法的差異:
在宏觀特征方面,由于主動遙感儀器垂直解析度的差異,云回波信號的臨界值選取等問題,各個方法在云識別、云邊界和云相態的反演上還存在著較大差異,在微觀特征方面,由于很多云遙感反演方法采納的資料不同、方法理論基礎存在差異、所使用的假設不同、以及根據不同飛機觀測采納的經驗引數也不同,不同云反演產品間存在著較大差異,為準確或可靠的使用這些云產品造成困擾,
6.云宏觀特征與觀測儀器:
云的宏觀特征包括云量、云出現頻率、云頂高度、云底高度、云頂溫度、云底溫度、云幾何厚度和云光學厚度等;目前云宏觀特征觀測的儀器主要包括云高儀 (Ceilometer)、云雷達 (Millemeter cloud radar,MMCR)、微脈沖激光雷達 (Micropulse lidar,MPL)、探空廓線 (Radiosonde)、拉曼激光雷達等,
7.云微觀特征:
云微觀特征包括云相態、云水含量、云粒子譜分布、云滴數濃度、冰晶形狀、冰水含量、云滴有效半徑等,
8.云的遙感觀測流程:
云的遙感觀測首先是確定云的存在與否,即云識別問題,同時可以基于觀測進一步判定云量或者云的頻率,當判定有云以后,第二步是獲取云的宏觀特征,即云底高度、云頂高度、云底溫度、云頂溫度、云厚等特征,第三步一般是對云相態的確定,區分水云、冰云以及混合云,針對不同的云相態,分別采取不同的遙感反演方法進一步獲取云的微觀特征,也就是第四步,即第五步,基于獲取的云宏微觀特征,結合對云的理論認知,獲取其它未直接反演獲得的云宏微觀物理量,如云水含量、云滴數濃度等,

二、研究問題概述
1.研究內容:
根據冰云太赫茲輻射特性實作的一種預分類的神經網路演算法,能夠從太赫茲亮溫中分別反演得到冰、霰(xian,四聲)兩種粒子的統計引數和廓線分布,(冰云的冰相粒子除了固態的冰粒子(Ice)外, 還存在有空氣、液態水和固態冰混合構成的霰粒子(Graupel))
2.新意點:
目前的太赫茲冰云反演演算法將不同種類冰相粒子(主要是冰和霰)視為冰粒子統一計算,該演算法能進一步區分冰相粒子,突破現有研究僅僅計算單一冰粒子的局限,更加符合冰云真實情況,
3.研究程序概述:
首先基于WRF(模式預報場)數值模式和 ATMS(微波載荷實際探測)載荷真實觀測的冰云霰資料構建了包含冰、霰粒子密度廓線的混合冰云資料庫,然后使用 DOTLRT (輻射傳輸模式)模擬 183GHz-874GHz七個頻段的星載太赫茲冰云探測亮溫,最后開展冰云引數探測仿真試驗,驗證反演演算法性能,
4.反演結果:
得到冰、霰兩種粒子的路徑總量、等效粒徑、等效云高和密度廓線,
5.研究原因:
目前全球大氣模式之間的冰云分布存在顯著差異,全球和區域平均云冰量相差一個數量級,造成這種模式間差異的主要原因是當前還缺乏足夠的全球冰云探測資料,獲取全球冰云引數(高度、冰水路徑、等效粒徑)的真實觀測對于改善大氣數值模式中的對冰云的表征性能,減少氣候預測和氣象預報的不確定性,
6.使用太赫茲的原因:
微波輻射計探測儀只對 500 μm 以上的大尺寸冰晶敏感,而紅外和可見光頻段的探測儀只對 50 μm 以下的小尺寸冰晶敏感,而處于以上兩者之間的太赫茲頻段,其波長范圍與冰云粒子尺寸分布接近,探測范圍能夠覆寫冰云的全部冰晶尺寸,兼顧了穿透能力與敏感性,因此星載太赫茲輻射探測儀對于冰云探測具有獨特的優勢,
三、原理
1模擬:
輻射傳輸模式通過對微分輻射傳輸方程求解實作從大氣物理引數到大氣輻射亮溫的映射計算,(為何利用公式構建?目前全球還沒有在軌運行的太赫茲頻段大氣探測載荷,因此本文使用大氣輻射傳輸模式計算模擬的太赫茲冰云探測亮溫資料)NOAA的兩位科學家Voronovich 和 Gasiewski(2004)使用離散縱標法對差分輻射傳輸方程求解而實作的離散正切線性輻射傳輸模式,DOTLRT 輸入引數除了常規的表面輻射率、氣壓、高度、大氣溫度和水汽廓線外,還支持五種水凝物,包括云液態水、雨、冰、雪、霰,仿真頻率可高至 1000 GHz,適用于本論文的太赫茲頻段仿真,本文研究的太赫茲冰云探測頻率通道采用了和ICI (歐空局計劃發射的一顆衛星上的星載太赫茲冰云成像儀)相同的頻率再外加更高 874.38 GHz(后面會提到這些同為太赫茲波段的檢測差異) 頻率以提升對小尺寸粒子探測的靈敏度,

(體現選用的頻率通道的圖,一則是和歐空局衛星一致,二則是多了一個非常敏感的874.38通道)
2.資料庫:
試驗案例選擇了 2016 年經過我國南海的臺風“尼伯特”和臺風“莫拉蒂”,大氣和冰云引數以美國 NCEP(National Centers for Environmental Prediction) 的 GFS(Global Forecast System for Medium Range)再分析資料作為邊界場和初始場,使用 WRF(模式預報場) 數值預報模式 6 小時預報輸出,1)WRF模式預報的臺風對流區域的冰云霰密度廓線 GWC與真實數值差異較大,而從對比驗證結果來看,ATMS(美國NPOESS衛星上微波大氣探測載荷的名字) 探測的 NDE L2 的 GWC 資料相比 WRF 模式預報的 GWC 資料更加準確;2)在 183GHz(霰粒子也僅僅考察這個頻段) 頻段冰云的霰粒子對亮溫的影響是最明顯的;3)DOTLRT模擬亮溫可以較好的反映臺風對流區域的冰云特征,因此本文采用 WRF 資料+NDE L2 霰資料混合構建大氣冰云資料庫,

(僅考察兩個頻段的比較放在這里,明顯看出模式預報場的直接模擬情況與觀測值差別較大,而模式預報場與L2級資料產品的混合模擬更加準確)
PS:GWC霰密度廓線
GWP霰密度路徑
IWC冰密度廓線
IWP冰密度路徑

(L2級資料只提供GWP不提供IWP,所以這里對于廓線的考察是只有GWP,當然,可以觀察到與前面所述同樣的規律,即L2級資料包含的資訊更全面,可以看出霰粒子不僅分布在臺風中心區域,在外圍螺旋云帶區域也存在,與 ATMS 觀測亮溫影像中的低溫冰云區域分布更加一致)
將來真正利用這些資料在冰云探測衛星的反演上時還需要考慮衛星的時空匹配問題,

(以183GHZ附近的頻率段為例,直接用均方根差來衡量誤差大小時也可以明顯看出WRF與L2級資料混用的優勢,在183 GHz 最遠翼頻率通道 183.31±7 GHz(最左邊兩個條形圖),RMSE 從WRF 模擬亮溫的 11.9 K 下降到 3.9 K,下降幅度最大,在最中心的 183.31±1 GHz 頻率誤差也從 4.1 K下降到了 2.7 K(最右邊兩個條形圖))
3.冰云引數:
全球差異大,高達一個數量級,是大氣數值模式不確定性的最大來源,冰云引數差異產生的原因主要是由于不同的數值模式對冰粒子特性和將云冰轉化為降水的閾值做出了不同的假設,XWC是冰云含量廓線 ,XWP 是冰云總路徑,是 XWC 在高度上的積分(X就表示可以是冰I也可以是霰G),Dme 是有效粒子尺寸,是粒子的質量加權中位尺寸,也為粒子等效直徑,Zme 等效云高定義為 XWP 一半時對應的高度,(這都是一些重要的引數)

(表達XWP與XWC關系的式子)

(可以解釋Dme的公式,是權重乘以一個粒子尺寸分布函式在0~Dme上積分等于冰云總路徑的一半)

(Zme 等效云高定義為 XWP 一半時對應的高度)
4.總結:
從 183GHz-874 GHz 亮溫影像來看,DOTLRT 計算的亮溫影像能夠反映臺風對流區域的冰云粒子散射造成的低溫值,與 ATMS 真實觀測的冰云區域一致(DOTLRT計算結果與實際一致說明合理),而且在太赫茲頻段最高的 664 GHz和 874 GHz,低溫區域明顯擴大(最后兩張圖上藍區明顯擴大),說明在太赫茲高頻更小的冰云粒子散射效應變強,能夠對大氣上視輻射亮溫造成下降,這與輻射傳輸理論也是吻合的(應該是指頻率越高輻射能量越大),
四、演算法及資料分析
將冰云分為冰、霰兩種粒子構成時,太赫茲頻段的冰云亮溫下降是由兩種粒子共同散射作用引起的,由于冰、霰兩種粒子尺寸分布、介電常數不同,具有不同的散射譜特性,因此在使用神經網路反演冰云引數時需要將兩種粒子分開,
1.霰粒子:
神經網路演算法的訓練資料庫需要兩部分資料,一是亮溫資料作為輸入,由 DOTLRT 模擬亮溫實作,二是冰云資料作為輸出,由輸入到 DOTLRT 模式的冰云資料庫實作,將兩部分資料組成資料對,選擇以臺風“莫拉蒂”的亮溫-冰云資料對作為訓練資料集,臺風“尼伯特”的資料對作為測驗資料集(生成好的模型需要測驗一下看看是否有可以接受的準確度),本文用神經網路演算法分別實作冰云霰粒子的統計引數和垂直密度廓線 GWC 的反演(不管是對冰粒子還是霰粒子都是這樣兩大塊內容),反演的霰引數包括路徑總量 GWP、等效粒徑 G_Dme、等效云高 G_Zme三個引數,
(1)反演流程:

霰的統計引數反演試驗流程如下:①對資料庫中的亮溫資料進行篩選,篩選依據是霰粒子散射在 183.31+7 GHz 頻率引起的亮溫差超過該頻率通道靈敏度 0.6 K 時,則認為對應的霰粒子總量 GWP 能夠被準確探測到,從 DOTLRT 亮溫中計算得到對應 GWP 門限閾值為 12 g/m2,②使用作為訓練集的臺風“莫拉蒂”資料訓練神經網路,網路隱藏層采用 32 個神經元(見最后),訓練函式為 trainscg(歸一化共軛梯度法,是唯一一種不需要線性搜索的共軛梯度法),網路收斂判別指標采用 mse(均方誤差),③將訓練好的網路(即上自制流程圖中所說的生成好的模型)對測驗資料集中的臺風“尼伯特”模擬觀測亮溫進行反演,得到霰引數,④將反演得到的霰引數估值與測驗資料集中對應的真實霰引數進行對比分析,評估反演精度,

(對霰粒子主要是研究183GHz的原因,可以從圖中看出在183GHz附近不論IWP怎么變,也就是不論冰路徑怎么變,靈敏度都是很高的,換句話說此時對靈敏度產生貢獻的主要是霰粒子,也即可以使用神經網路演算法從 183 GHz 頻段亮溫先單獨反演冰云的霰粒子引數,)

(使用了 4500 個樣本訓練,3000 個樣本測驗,關于每個圖的特點需要特別分析,見本文“六”)

(資料不經預處理直接去訓練模型會因為資料復雜度高,表征性差,而導致訓練出來的模型效果差,真值和反演結果不一致)
(2)GWC(同流程,研究從引數變成了廓線):
誤差很大,表征性差,我們研究發現,GWP 對具有不同形狀的霰廓線樣本具有較好的指示關系(意味著可借助GWP來推GWC,知道一個GWP可以推出一個GWC),可以將 GWP 值作為霰廓線樣本分類的指示器,
(指示關系:顏色代表的是幾種廓線,每一個廓線樣本點都會在橫軸上對應一個具體的GWP,可以明顯看出藍色類廓線樣本最多,藍色代表低層與高層峰值比< 1/3,橙色為峰值比在 1/3-2/3 之間;黃色為峰值比在 2/3-5/3 之間;紫色為峰值比在 5/3-5之間,這些都是廓線的特征,圖上大致是只有藍色黃色橙色三色樣本,因此把廓線分為因此可以將所有霰廓線按照 GWP 值劃分為三類,對應的 GWP 取值區間分別為 GWP > 35 g/m2,25 <= GWP < 35 g/m2, 和 15 <= GWP < 25 g/m2)
(在深度神經網路的訓練中,樣本差異過大很難劃分為一類,比如無毛貓和長毛貓雖然都是貓,但在分類時不可能劃為一類,廓線在此也是,只有對廓線進行進一步細分,才能保證每一類都具有較強的表征性,才能訓練出一個從全域看都合理的模型,當然這些不同型別的廓線同樣可以再統一一個標簽叫廓線來方便人為讀取)
(3)預分類:
加入資料預分類的霰廓線神經網路反演試驗流程如下:①對訓練資料集中的冰云廓線樣本根據GWP 三種閾值(藍色,橙色,黃色)進行分類;②使用三種型別的訓練樣本分別訓練三個神經網路;③對測驗資料集中的所有亮溫資料使用 3.2 節中的神經網路反演得到 GWP(測驗資料集提供的也是廓線,肯定是要統一成GWP才能比較);④將測驗資料集的亮溫資料樣本根據上面的 GWP三種閾值進行分類;⑤對分類的亮溫資料樣本使用對應的網路反演得到霰廓線 GWC(其實這里反演結果第一步也還是GWP,是由GWP推GWC,看看用模型的GWP效果同原始真值效果如何),可以看出分類后的二、三類樣本誤差值遠小于未分類的誤差,驗證了預分類對提升這些樣本反演精度的有效性,
( 10 (a) ? (e)中紅線是反演GWC 的均值,藍線是 RMSE,即均方根差,(b) (d) (f)是 RMSE與 GWC 真值比值,代表相對誤差,)
(所謂三類樣本是說對廓線化成了三類,所謂全部樣本又是說,用上了參與實驗的所有臺風的樣本)
(只拎出二三類霰廓線分析考慮也可看出分類后效果好轉明顯,誤差明顯小了)
間接反演法(用廓線還可以再反演回引數)兩種方式反演的冰云霰引數精度基本相當,
(霰廓線還可以反推霰引數,但看出誤差也是有的引數升高有的引數降低,只能說間接反演法和直接反演霰引數大差不差)
2.冰粒子:
在 183 GHz 頻段,亮溫的冰云散射可以認為僅僅來自于霰粒子的貢獻,但在更高的太赫茲頻段,散射由冰和霰粒子共同引起,因此要從太赫茲亮溫中反演冰粒子引數,需要將之前反演的霰密度廓線作為先驗約束條件,再使用神經網路演算法根據冰粒子引起的散射亮溫差反演得到冰粒引數,具體實作方法是首先從 WRF 預報大氣引數中去除冰引數,再加上反演的霰密度廓線 GWC 輸入 DOTLRT 模式得到不包含冰粒散射的模擬亮溫,然后將無冰亮溫和觀測亮溫相減,則此亮溫差代表了冰粒對大氣輻射亮溫的貢獻,
對冰粒子的反演仍然分為統計引數和垂直密度廓線 IWC 的反演,反演的冰引數也是路徑總量 IWP、等效粒徑 I_Dme、等效云高 I_Zme,
(跟前面那張有12張圖的相比,就是少了183GHZ系列的三張,用剩下這些頻段進行研究)
(1)引數反演流程:
與霰類似,冰引數的篩選條件是當樣本IWP 引起的亮溫差值超過 874.38 GHz 頻率的系統噪聲 2.5 K 時,則認為對應的冰云樣本可以準確探測到,計算得到對應 IWP 門限閾值為 5.5 g/m2,對比實驗(比較不同頻段組合反演的引數精度)說明更多的太赫茲探測頻段能夠明顯提升冰粒子引數反演精度,

(6000個訓練樣本,6000個測驗樣本,研究的頻段多了,相應樣本也更充裕一些)
(既然研究的頻段不再單一,那混合起來研究可能會比對某一個頻段研究效果要好,事實證明,頻率方案4利用起來243
GHz +325 GHz +448 GHz +664 GHz +874 GHz 5 個頻段的9個頻率通道這種情況下誤差最小)
(2)IWC(也是從引數到廓線):
冰粒子主要分布在 7-15 km 高度范圍內,且不同冰云樣本的高度分布差異較大,因此冰密度廓線 IWC 反演問題與 GWC 類似,同樣具有較高的復雜性,使用神經網路演算法反演IWC 同樣需要進行資料預分類,I_Zme < 10 km 為一類,I_Zme 在 10-15 km 范圍內的,按照 1 km 等高度間距分類(一共6類),
(3)預分類(類比霰粒子):
加入資料預分類的冰廓線神經網路反演試驗流程如下:①對訓練資料集中的冰云廓線樣本根據上述 I_Zme 的六種閾值進行分類;②使用六種型別的訓練樣本分別訓練六個神經網路;③對測驗資料集中的所有亮溫差資料使用類霰粒子的神經網路演算法反演得到 I_Zme;④將測驗資料集中的亮溫差資料樣本根據 I_Zme 的六種閾值進行分類(必須統一成I_Zme才能比,把測驗集也化成I_Zme);⑤對分類的亮溫差測驗資料使用對應的網路反演得到冰廓線(再檢驗精度),


(詳細見“六”)

(拎出幾類看還是預分類效果會好一些)
常規神經網路反演的冰廓線 IWC 可能會在本沒有冰分布的高度上引入較大的誤差,而預分類神經網路反演的冰廓線 IWC 更加符合實際分布,但是無論對哪種高度的冰云進行反演時,云頂與云底的反演誤差都較大,這是因為雖然按照云高對冰云廓線樣本進行了預分類,但冰云厚度的差異依舊會對反演結果造成影響,

(詳細見“六”)
I_Dme 和 I_Zme 采用間接反演方法的反演精度更高,IWP 采用神經網路直接反演演算法精度更高,但是這一結論還需要更多樣本測驗來支持,

(冰廓線還可以反推冰引數,但看出誤差也是有的引數升高有的引數降低,只能說間接反演法和直接反演霰引數大差不差)(事后老師又強調準確說明差多少可能匯報效果更佳)
五、深度學習細講
1.神經網路誕生:
在開始介紹前,有一些知識可以先記在心里:

1.設計一個神經網路時,輸入層與輸出層的節點數往往是固定的,中間層則可以自由指定;
2.神經網路結構圖中的拓撲與箭頭代表著預測程序時資料的流向,跟訓練時的資料流有一定的區別;
3.結構圖里的關鍵不是圓圈(代表“神經元”),而是連接線(代表“神經元”之間的連接),每個連接線對應一個不同的權重(其值稱為權值),這是需要訓練得到的,
神經元(單元\節點):神經元模型是一個包含輸入,輸出與計算功能的模型,輸入可以類比為神經元的樹突,而輸出可以類比為神經元的軸突,計算則可以類比為細胞核,下圖是一個典型的神經元模型:包含有3個輸入,1個輸出,以及2個計算功能,中間的箭頭線,這些線稱為“連接”,每個上有一個“權值”,而權值并非一開始就給出的,而是通過訓練得到的,這些連接是最重要的東西,一個神經網路的訓練演算法就是讓權重的值調整到最佳,以使得整個網路的預測效果最好,(每個有向箭頭表示的是值的加權傳遞)

(可以類比生物概念的神經元,非常像一個神經細胞,雖然這里只有一個輸出,但事實上也可以有多個輸出,因為前期程序一樣這里的多個輸出也是一樣的,只不過要去連接的下一個神經元會有所不同)
神經元可以看作一個計算與存盤單元,計算是神經元對其的輸入進行計算功能,存盤是神經元會暫存計算結果,并傳遞到下一層,

2.隱藏層:
其意義就是把輸入資料的特征,抽象到另一個維度空間,來展現其更抽象化的特征,這些特征能更好的進行線性劃分,因為從隱藏層到輸出層也會是生成一個線性分界線,所以隱藏層是對原始的資料進行了一個空間變換,使其可以被線性分類,然后輸出層的決策分界劃出了一個線性分類分界線,對其進行分類,關鍵在于隱藏層和輸入層之間的聯系,而隱藏層節點的個數是取決于設計者的,這其中沒有一定之規,多靠經驗判定,然后比較各個選取節點數的訓練效果,文中采用的是32個神經元訓練的模型,效果已經相對比較準確,
3.機器學習究竟如何實作:
1.前面提到了權重,首先給所有權重引數賦上隨機值,我們使用這些隨機生成的引數值,來預測訓練資料中的樣本,樣本的預測目標為yp,真實目標為y,那么,定義一個值loss,計算公式如下,loss = (yp - y)2這個值稱之為損失(loss),我們的目標就是使對所有訓練資料的損失和盡可能的小,我們可以進一步把損失寫為關于權重引數(parameter)的函式,這個函式稱之為損失函式(loss function),下面的問題就是求:如何優化引數,能夠讓損失函式的值最小,(優化到極致之后,得到的權重便是最終生成模型里的權重了,從而模型也就得到了,)
2.一般來說解決這個優化問題使用的是梯度下降演算法,梯度下降演算法每次計算引數在當前的梯度,然后讓引數向著梯度的反方向前進一段距離,不斷重復,直到梯度接近零時截止,一般這個時候,所有的引數恰好達到使損失函式達到一個最低值的狀態,(就當求導來理解,極值點對應著的最優點)
3.可能還需要使用反向傳播演算法(從后往前算每一層與前一層的梯度值),反向傳播演算法是利用了神經網路的結構進行的計算,不一次計算所有引數的梯度,而是從后往前,首先計算輸出層的梯度,然后是第二個引數矩陣的梯度,接著是中間層的梯度,再然后是第一個引數矩陣的梯度,最后是輸入層的梯度,計算結束以后,所要的兩個引數矩陣的梯度就都有了,
4.如果說前三步都是在為優化服務的,那機器學習不只有優化,因為它不僅要求資料在訓練集上求得一個較小的誤差,在測驗集上也要表現好,因為模型最終是要部署到沒有見過訓練資料的真實場景,提升模型在測驗集上的預測效果的主題叫做泛化(generalization),相關方法被稱作正則化(regularization),神經網路中常用的泛化技術有權重衰減等,
事實上,前面所述也僅是兩層的神經網路的訓練方式,真正的深度學習是更多層的,比如最早關于多層的“深度信念網路”有一個“預訓練”(pre-training)的程序,這可以方便的讓神經網路中的權值找到一個接近最優解的值,之后再使用“微調”(fine-tuning)技術來對整個網路進行優化訓練,
多層神經網路中,輸出也是按照一層一層的方式來計算,從最外面的層開始,算出所有單元的值以后,再繼續計算更深一層,只有當前層所有單元的值都計算完畢以后,才會算下一層,有點像計算向前不斷推進的感覺,所以這個程序叫做“正向傳播”,改變中間層的神經元數目,會引入更多的引數,更多的引數意味著其模擬的函式可以更加的復雜,可以有更多的容量(capcity)去擬合真正的關系,可以提升網路的表示能力;而在引數相同的情況下,改變每一個中間層的神經元數目,可以調整加深整個網路的深度,通過研究發現,在引數數量一樣的情況下,更深的網路往往具有比淺層的網路更好的識別效率,
多層意味著更深入的表示特征,以及更強的函式模擬能力,更深入的表示特征可以這樣理解,隨著網路的層數增加,每一層對于前一層次的抽象表示更深入,在神經網路中,每一層神經元學習到的是前一層神經元值的更抽象的表示,例如第一個隱藏層學習到的是“邊緣”的特征,第二個隱藏層學習到的是由“邊緣”組成的“形狀”的特征,第三個隱藏層學習到的是由“形狀”組成的“圖案”的特征,最后的隱藏層學習到的是由“圖案”組成的“目標”的特征,通過抽取更抽象的特征來對事物進行區分,從而獲得更好的區分與分類能力,
多層神經網路中,訓練的主題仍然是優化和泛化,
4.Relu函式:
目前在深度學習中,最流行的非線性函式是ReLU函式,ReLU函式不是傳統的非線性函式,而是分段線性函式,其運算式非常簡單,就是y=max(x,0),簡而言之,在x大于0,輸出就是輸入,而在x小于0時,輸出就保持為0,這種函式的設計啟發來自于生物神經元對于激勵的線性回應,以及當低于某個閾值后就不再回應的模擬,
六、霰、冰引數即廓線反演結果分析(應該是不在講稿但是可能要講的出來的內容)
是在上文中出現的表,
1.霰引數反演結果分析:
7(a)是反演的 GWP散點圖,總體上大部分資料點都分布在 x = y 的對角線附近,說明反演 GWP 值與真值比較接近,均方根誤差 RMSE 為 16.7 g/m2,從資料分布來看,絕大部分冰云樣本點位于 GWP < 500 g/m2 的范圍,而在GWP >500 g/m2 的范圍里絕對誤差變得更大,出現更多明顯偏離對角線的散點,
而從圖 7(b)展示的GWP 相對誤差散點圖來看,反而是 GWP 越小相對誤差越大,總體來說 95%以上測驗資料的 GWP 反演相對誤差能夠控制在±50%以內,只有 GWP < 100 g/m2 的部分樣本相對誤差超過這個范圍,
圖 7?是反演的 G_Dme 散點圖,總體上大部分資料點都分布在 x = y 的對角線附近,說明反演 G_Dme 值與真值比較接近,均方根誤差 RMSE 為 33.0 μm,從資料分布來看,絕大部分冰云樣本點位于 G_Dme < 1400 μm 的范圍,而在 G_Dme < 800 μm 的范圍里絕對誤差變得更大,出現更多明顯偏離對角線的散點,
而從圖 7(d)展示的 G_Dme 相對誤差散點圖來看,反而是 G_Dme 越小相對誤差越大,大部分測驗資料的G_Dme 反演相對誤差能夠控制在±20%以內,
圖 7(e)是反演的 Z_Dme 散點圖,總體上都分布在 x = y 的對角線兩側,均方根誤差 RMSE 為 523.1 m,從資料分布來看,絕大部分冰云樣本點位于 7 km < Z_Dme < 12 km 的范圍,而在 8 km < Z_Dme < 9 km 和 Z_Dme > 10 km 的范圍里絕對誤差變得更大,出現更多明顯偏離對角線的散點,
而從圖 7(f)展示的 Z_Dme 相對誤差散點圖來看,大部分測驗資料的 Z_Dme 反演相對誤差能夠控制在±20%以內,
2.霰廓線反演結果分析:
從反演的絕對誤差來看,第一類樣本誤差值最大,RMSE 范圍為[0,8.2×10-3] g/m3,第二類樣本RMSE 范圍為[0,1.5×10-3] g/m3,第三類樣本誤差值最小,RMSE 范圍為[0,0.7×10-3] g/m3,這主要是由于三類樣本是按照 GWP 大小——即冰云厚度來劃分的,(意思是絕對誤差會因為本身數值不同而有差異)
但從相對誤差來看,三類樣本就整體趨于一致,誤差絕大部分都在 60%以下,橫向對比三類樣本的相對誤差,可以發現,850-550 hPa 范圍對應霰廓線第二峰值,第一類樣本誤差最大,是因為第一類樣本的峰值集中在 550 hPa 以上,第二峰值處霰密度值較小導致相對誤差大;450-350 hPa 對應廓線第一峰值,第一類樣本誤差最小,反演精度最高,由于第一類樣本數占比達到了 82%,可以看到全部樣本的平均誤差與第一類樣本誤差最為接近,預分類主要改進了冰云較薄的二三類樣本的反演精度,
3.冰引數反演結果分析:
總體上三種引數的大部分資料點都分布在 x=y 的對角線附近,說明反演的冰引數值總體上精度較好,IWP 的 RMSE 為 11.34 g/m2, 在 IWP > 120 g/m2 時,絕對誤差變得更大,出現更多明顯偏離對角線的散點,從相對誤差來看,除具有非常小 IWP 值的樣本點相對誤差較大外,總體相對誤差都能控制在±50%以內,I_Dme 的 RMSE 為 10.24 μm,I_Dme 在 100-140 μm 時絕對誤差更大,相對誤差基本集中在±30%以內,I_Zme 的 RMSE 為575.69 m,在 I_Zme 低于 10 km 和高于 14 km 時絕對誤差更大,相對誤差基本集中在±20%以內,
4.冰廓線反演結果分析:
左邊的(a) ? (e) (g) (i) (k)中紅線是 6 種不同高度樣本反演冰廓線的均值,藍線是均方根誤差 RMSE,右邊的(b) (d) (f) (h) (j) (l)是反演 RMSE 與廓線真值相比的相對百分比誤差,表 5 列出了 6 種不同高度廓線在不同氣壓層的反演誤差平均值和相對誤差,從反演 IWC 的各層RMSE 值和相對誤差分布來看,基本上也是在 IWC值越大的高度,反演絕對誤差越大,但是相對誤差越小,大部分冰云樣本在冰云密集高度的相對誤差都能控制在 50%左右,說明對 IWC的反演精度較好;但每種分類的云頂和云底位置相對誤差顯得偏大,說明由于云層厚度的不同,邊界上的特征不明顯,冰云厚度的差異依舊會對反演結果造成影響,
由表5從不同高度的冰云反演誤差影像來看,小于 10 km 分類采用了 159 個樣本訓練,13 個樣本測驗,所選范圍資料較少,RMSE 范圍為[0,0.0019] g/m3,僅在 IWC 廓線峰值高度的反演誤差< 100%,此分類樣本資料較少,但分布高度存在較大差異,因此反演誤差較大;10-11 km 分類采用了 1337 個樣本訓練,392 個樣本測驗,反演 RMSE范圍為[0,0.0045] g/m3,在冰云密集的高度范圍350-200 hPa,相對誤差在 50%以內,在峰值對應高度約 310hPa,相對誤差僅有 18.9%;11-12 km 反演RMSE范圍為[0,0.0061] g/m3,在冰云密集范圍 320-160hPa,相對誤差在 50%以內,在 IWC 廓線峰值對應高度約 270hPa,相對誤差僅為 15%左右;12-13 km分類使用了 813 個樣本訓練,365 個樣本測驗,反演 RMSE 范圍為[0,0.0074] g/m3,在廓線分布的主要高度 250~160hPa 相對誤差小于 50%, IWC 廓線峰值對應高度約 240hPa,相對誤差大小最小,為 21.7%;13~14km 分類使用了 458 個樣本訓練,258 個樣本測驗,反演 RMSE 范圍為[0,0.0021]g/m3,在 IWC廓線主要范圍 230-150hPa,相對誤差在 50%以內,在廓線峰值約 180hPa 處,相對誤差最小,約為 17%;14~15km 使用了 235 個樣本訓練,133 個樣本測驗,反演 RMSE 范圍為[0,0.0038]g/m3,在 IWC 廓線主 要范圍 190~130hPa,相對誤差在 50%以內,在廓線峰值約 160hPa 處,相對誤差最小,約為 22%,從不同云高的反演結果可以看出,神經網路每一型別廓線主要分布高度范圍相對誤差都在 50%以內,峰值對應高度約為 20%,
總結
本文參考的文獻是《基于神經網路的太赫茲冰云探測反演演算法研究》一文與《地基云遙感反演及挑戰》博客園的《神經網路淺講:從神經元到深度學習》這里附上連接link.
最后的一點建議是我們在這次文獻閱讀中的識訓,雖然都是從完全不懂的階段去入手但還是要先弄明白自己研究的大方向里每一個小的基礎概念,才能去理解論文中別人所講的演算法,更能理解它的目的,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/345622.html
標籤:AI
