光互連調研學習筆記
云計算的發展對資料中心網路架構提出了嚴格的要求,傳統電互連網路架構難以在帶寬、開銷、能耗、管理復雜度等方面同時滿足云應用的要求,為了應對這種網路負載,大型資料中心需要成千上萬的服務器通過高帶寬交換機互連,當前的資料中心網路,基于電子分組交換機,消耗了過多的電力來處理日益增長通信帶寬的新興應用,與目前基于商品交換機的網路相比,光互連作為一種具有高吞吐量、低延遲和低能耗的有前途的解決方案受到了人們的關注,
Fat-Tree
傳統資料中心采用多層級的樹形結構,這種結構針對客戶端/服務器(C/S)模式能有較好的效果,樹形結構包括單根樹和多根樹,多根數的根節點往往作為備份節點存在(以方格代表交換機),

傳統單根/多根拓撲結構有以下缺點:成本高,根部交換機必須要有足夠大的帶寬來滿足下層服務器之間的通信;性能瓶頸,無法滿足資料中心內部大規模的 Map Reduce 和資料拷貝, Fat-Tree是以交換機為中心的拓撲,支持在橫向拓展的同時拓展路徑數目,且所有交換機均為相同埠數量的普通設備,降低了網路建設成本,
Fat-Tree結構共分為三層:核心層、匯聚層、接入層,一個k元的Fat-Tree可以歸納為5個特征:
-
每臺交換機都有k個埠;
-
核心層為頂層,一共有(k/2)^2個交換機;
-
一共有k個pod,每個pod有k臺交換機組成,其中匯聚層和接入層各占k/2臺交換機;
-
接入層每個交換機可以容納k/2臺服務器,因此,k元Fat-Tree一共有k個pod,每個pod容納k* k/4個服務器,所有pod共能容納k* k* k/4臺服務器;
-
任意兩個pod之間存在k條路徑,

Optical Technology
AWG: 陣列波導光柵,一組具有相等長度差的陣列波導形成的光柵,使用具有分波的能力,基本功能是波長的合波/分離,可以實作波長復用/解復用、插/分復用、波長路由等,通過與光開關結合,可進行波長選擇,

AWGR: 一定數量的AWG按一定的排列規則構成陣列博導光柵路由器—AWGR,優點:
- 不需要驅動,能耗低;
- 時間上不需開光時間;
- 具有靈活的路由結構,可以實作從任意輸入端到任意輸出段的無阻塞交換;
- AWGR具有很大的交換容量,單個AWGR節點就能完成M*N個波長的交換,其中M、N分別為他的埠數和波長數,
SOA: 半導體光放大器,和半導體激光器的作業原理相同,利用半導體能級間的受激躍遷而出現粒子數反轉的現象進行光放大,除了作為放大器之外還可以作為光開關和波長選擇器,本文將半導體放大器用作波長選擇器,通過相應的控制單元來控制半導體光放大器,使得某些波長的廣播能夠通過并且放大,而其他波長的光被屏蔽掉,
優點:轉換時間為ns級,并且能夠將通過光束放大,而且能量轉換效率高,

TWC: 可調諧波長轉換器可以解決多節點復雜的高速網路中波長阻塞和波長競爭問題,是全光通信系統及未來寬帶網路中必不可少的關鍵器件,功能是為傳入光信號生成可配置的波長,可調諧波長轉換器包括可調諧激光器、SOA和馬赫-曾德爾干涉儀(MZI),轉換由SOA執行,SOA接收可調諧激光波長和資料作為輸入,并輸出選定波長的資料,SOA之后是MZI,它作為濾波器產生調諧波長的整形和清潔脈沖,
MEMS: 物理地旋轉棱鏡陣列,改變激光束的方向,從而在輸入和輸出之間建立連接,
因為它們是基于機械系統,所以其重構時間在幾毫秒量級,

WSS: 波長選擇開關在可重構光分插復用器(ROADM)中有重要的應用,它的基本應用型別可分為1xN和Nx1兩種,1xN型WSS可以將輸入的多波長信號中的任意波長和任意數目的波長組合輸出到任意輸出埠上,也就是說,WSS可以看作是可重構的AWG,重構時間為幾毫秒,

ARCHITECTURES
A. c-Through

內容:
在該架構中,每個TOR交換機同時連接至一個電分組交換網路和一個光電路交換網路,電分組交換網路由多個傳統以太網交換機互連成樹形拓撲,光電路交換網路使用單一微機電系統(MEMS)交換機構建,
特點:
在主機上安裝流量監控系統,光交換機接受測量資料,根據流量需求決定光交換機的配置,Edmonds的演算法被用于解決完美匹配演算法,使用了兩個不同的vlan,一個用于基于分組的網路,另一個用于基于光電路的網路,雖然此方案能夠在提供高通信帶寬的同時保持網路的低復雜度,但實際部署比較困難,
B. Helios: A hybrid optical electrical switch

內容:
電子分組交換機用于吊艙交換機的全對全通信,而光電路交換機用于吊艙交換機之間的高帶寬慢變化通信,
每個pod交換機都有無色光模塊和WDM光模塊:
- 無色光模塊(如10G SFP+模塊)用于連接pod交換機和核心電分組交換機,
- WDM光收發器通過無源光多路復用器(形成超鏈路)進行多路復用,并連接到光電路交換機,
拓撲管理器(TM)
拓撲管理器用于監控資料中心的流量,根據流量需求(如活動連接數、流量需求等)為光電路交換機找到最佳配置,
電交換機管理器(CSM)
電路開關管理器用于接收連接圖和配置Glimmerglass MEMS開關,
Pod交換機管理器(PSM)
Pod交換機管理器托管在Pod交換機中,并與TM介面,
根據TM上的配置決策,pod管理器用于將包通過無色收發器路由到包交換機或通過WDM收發器路由到光電路交換機,
特點:
Helios控制方案由三個模塊組成:拓撲管理器?、電路開關管理器(CSM)和Pod交換機管理器(PSM),
優勢: 它基于在光通信網路中廣泛使用的現成的光模塊和光收發器,使用商用全光交換機和WDM收發器實作網路成本和能耗的縮減,
缺點: 是它是基于MEMS開關的,因此電路開關的任何重構都需要幾毫秒的時間(微光開關的重構時間為25毫秒),
C. DOS: A scalable optical switch

內容:
DOS使用核心光交換架構直接互連所有服務器節點.該核心光交換架構具體包括TWC、AWGR和共享式環回快取,源節點發送的分組通過光通道配接器進行電光轉換,隨后部署在輸入埠的游標簽提取器將提取分組頭域資訊,并將該資訊送入控制層進行路由計算和仲裁,控制層將根據仲裁結果配置輸入埠的TWC,光分組經過TWC時被轉換到特定波長并路由到對應的輸出埠,根據AWGR的波長路由特性,同一輸入埠的信號通過不同的波長到達不同輸出埠,
Control Plane: 控制TWC和LEs,用于解決爭用和TWC調優,
SDRAM Buffer: 面臨競爭的波長通過一個光電(O/E)轉換器路由到SDRAM,然后這些包被存盤在SDRAM中,一個共享緩沖控制器被用來處理這些包,該控制器將緩沖包的請求發送到Control Plane,并等待授權,當接收到授權后,從SDRAM中取回資料包,然后通過電光轉換器將其轉換回光信號,然后通過TWC轉發到交換機,
特點:
DOS方案的可擴展性取決于AWGR的可擴展性和TWC的可調范圍,包必須通過光開關,避免了電氣開關緩沖區的延遲,
優勢: DOS架構可以很容易地在胖樹拓撲中進行擴展(例如,光交換機可以用于聚合層),延遲幾乎與輸入埠的數量無關,即使在高輸入負載時也保持低延遲,
缺點: 它是基于電緩沖器的擁塞管理,使用耗電的電光和光電轉換器,因此增加了總功耗和包延遲,可調諧波長收發器,與當前交換機中使用的商用光收發器相比,這種收發器相當昂貴,
D. Proteus data center network

內容:
Proteus是基于WSS交換模塊和基于MEMS的光交換矩陣的全光架構,每個ToR交換機有多個作業在不同波長的光模塊,使用多路復用器組合光波長并路由到WSS,WSS復用每個波長到不同的組,每組連接到MEMS光開關的一個埠,
每個TOR交換機配置有數個作業在不同波長的光收發器,從這些收發器發送的多波長信號經過復用后輸入1×K波長選擇交換機,波長選擇交換機根據配置將波長重分為K組,并通過K個埠將信號送入MEMS光交換機.通過配置MEMS交換機的交叉開關矩陣,每個TOR交換機可以與其他K個TOR交換機直接連接,
特點:
動態配置光交換機改變網路拓撲的連通性,通過波分復用技術和WSS實作鏈路帶寬的靈活配置,在該架構中拓撲管理器(TM)負責完成 MEMS、WSS和TOR交換機的優化配置作業,
優點: 它基于廣泛應用于光通信網路的現成光模塊,降低了總體成本,
缺點: MEMS開關重新配置時間在幾毫秒量級,會嚴重影響交換粒度和網路的性能,
E. Petabit Optical Switch

內容:

該網路由IM模塊、CM(CenterModule)模塊和OM(OutputModule) 模塊互連成Clos拓撲,每個模塊使用 AWGR作為 核心交換單元,CM模塊和OM模塊的輸入埠位置配置有TWC以進行路由的控制,由于線卡的發射器已經包含可調激光器,因此連接線卡的IM模塊不需要在輸入埠配置TWC單元,相對基于單一AWGR的交換架構,Petabit需采用更加復雜的 配置程序來建立輸入埠到輸出埠的光路徑,具體包括:輸入模塊( IMs )、中心模塊( CMs )和輸出模塊( OMs )的三級光Clos網路,其中每個模塊采用陣列波導光柵路由器( AWGR )作為核心,
特點:
資料包只在行卡處緩沖,而IMs、CMs和OMs不需要緩沖和光纖延遲線,
優點: 與基于商品交換機的資料中心網路相比,平均延遲低,
F . The OSMOSIS project

內容
這是一個基于波長和空間分割多路復用的低延遲光學廣播和選擇(B&S)架構,廣播和選擇架構分為兩個階段:
- 多個波長在一個共同的波分復用線復用,并通過耦合器廣播到第二階段的所有模塊,
- 使用soa作為光纖選擇門來選擇將被轉發到輸出的波長,
特點
優點: 通過在兩級(三級)胖樹拓撲結構中部署多個交換機,可以有效地擴展交換機,
缺點: 它基于耗電的SOA設備,這會顯著增加總體功耗,
G. Space-W avelength architecture

內容
一種基于空間波長交換的資料中心互聯方案,在波長交換架構中,交換是通過在基于目的埠的不同波長(使用陣列固定激光器或快速可調諧激光器)傳輸資料包來實作的,每個埠需要一個固定的激光器,并使用一個基于SOA的無阻塞光開關來建立每個時隙的連接,方案有效地結合了波長和空間開關,
特點
可以通過增加更多的平面(波長)來擴展,從而增加聚合帶寬并減少通信延遲,
卡間調度器:
- 每個卡都有一個卡間調度程式,用于資料包的調度和光模塊的控制,
- 每個節點埠依靠卡間調度器連接陣列固定激光器,激光器連接到電光收發器,收發器在連接到1xM的空間開關,
H. E-RAPID

內容
可重構控制器用于控制交叉開關,并將節點分配給特定的VCSEL激光器,在任何給定的時間,每個波長上只有一個VCSEL激光器是活躍的,每個波長的耦合器用于選擇將包轉發到(SRS)的VCSEL,在接收器路徑中,AWG用于將路由到接收器陣列的波長解復用,然后用交叉開關將每個接收方的資料包轉發到板上相應的節點,
E-RAPID是一種節能可重構光學互連,該方案可用于高性能計算,同時也可部署在資料中心網路,E-RAPID可以動態地重新配置,即發射機埠可以重新配置為不同的波長,以便到達不同的板,
特點
其電源電流可根據流量負載進行調整,提出了一種基于網路流量需求的鎖步(LS)演算法,該演算法可以控制位元率(和節電),
優點: 功耗可以根據流量負載進行調整,比基于普通交換機的網路更低的延遲,
I. The IRIS project

內容
IRIS“光域資料網路”的研究專案,還基于波分復用技術和基于全光波長轉換器的陣列波導光柵路由器(AWGR)的特性,IRIS架構基于三級開關,三級結構是動態無阻塞的,即使兩個空間開關是部分阻塞的,
- 第一階段由波長開關陣列(WS)組成,每個波長開關基于用于波長路由的全光soa波長轉換器陣列,
- 第二階段是由一組光學時間緩沖器組成的時間開關,時間開關由WC和兩個AWG組成,其中WC和AWG由若干條光纖連接,每條光纖具有不同的延遲,WC根據需要增加的時延,將光信號轉換成特定的波長,并按照需要的時延轉發給AWG,
- 第三階段延遲信號通過第二個AGW復用,并路由到第三級(第二個空間交換機),根據最終的目的埠,將信號轉換為AWG路由所需的波長,
特點
IRIS專案使用了4個10gbps的XFP收發器,并已在FPGA板中實作,波長轉換所需時間小于1ns,
J. Bidirectional photonic network

內容
基于雙向的基于soa的2x2交換機,可以在基于樹的拓撲中有效伸縮,每個交換節點都是一個由6個soa組成的基于soabbased的2x2交換機,每個埠可以在納秒內與其他埠建立任何連接,交換節點被連接成一個支持處理節點的榕樹網路,
特點
與廣播選擇體系結構等其他基于soa的體系結構相比,使用雙向交換機可以在組件成本、功耗和占用空間方面提供顯著優勢,
優點: 可以有效地擴展到大量節點,減少光模塊的數量,從而降低功耗,節點的總數只受擁塞管理和所需的總延遲的限制,
K. Data vortex

內容
Data vortex是分布式互連網路,主要針對高性能計算系統(HPC),但也可應用于資料中心互連,
網路由節點組成,這些節點可以以基于半導體光放大器(SOA)的可配置方式同時路由分組和電路交換業務,soa組織在門陣列配置中,作為光子開關元件,
拓撲完全由2x2交換單元組成,這些交換單元排列在一個完全連通的、具有終端對稱的有向圖中,
特點
對于基于2x2交換機的資料漩渦,中間節點數M與埠數N成對數關系:M≈log2N,
缺點: 是榕樹多階段方案使其在擴展到大型網路時變得極其復雜,
L. Commercial optical interconnects
1).Polatis:
商業可用的資料中心光學互連,是基于壓電光電路開關和光束控制技術,
本方案基于集中式光交換機,可根據網路流量需求進行重新配置,
低功耗,資料速率快,
基于光學MEMS交換的,因此增加了重構時間(根據資料表,最大切換時間小于20ms),
2).Intune Networks:

Intune OPST技術主要用于傳輸網路,但它也可以用來替代資料中心的核心網路,
Intune網路開發了基于其快速可調諧光發射器[59]的光分組交換和傳輸(OPST)技術,每個節點通過快速可調諧激光(FTL)和突發模式接收器(BMR)連接到OPST織物(環)上,
優點: 大大低于基于商品交換機的等效網路所需功耗,
分類比較
與普通交換機相比,光纖互連為未來的資料中心網路提供了一個有前途和可行的解決方案,新興的web應用(如社交網路、流媒體視頻等)和云計算使低延遲高帶寬的資料中心需求量更大,

A. Technology
大多數光學互連是全光學的,只有c-Through和Helios方案是混合的,但是只有流量需求由持續時間足夠長、足以彌補重構開銷的龐大流量組成,才可以提升網路總體帶寬,因此全光方案才可以提供一個以低延遲和低功耗來維持增加的帶寬的方案,
c-Through供了使用商品交換機對正在運行的資料中心進行增量升級的優勢,降低了升級的成本,
Helios的ToR交換機可以通過增加光模塊進行擴展,增加帶寬,降低時延,同時使用現有的以太網進行全對全通信,
B. Connectivity
電路交換通常基于光學MEMS開關,增加了重構時間(幾毫秒量級),因此,這些方案主要針對需要長期大量資料傳輸的資料中心網路,如企業網路,
基于電路的光網路是針對資料中心的,在這些資料中心中,服務器中的并發流量的平均數量可以被光交換機中的電路連接數量所覆寫,
基于分組的光交換機與目前資料中心使用的網路類似,基于分組的交換要么采用陣列固定激光器,要么采用快速可調諧發射器,通過選擇適當的波長來選擇目標埠,基于分組的光交換更適合資料中心網路,在這種網路中,兩個節點之間的流量持續時間非常小,通常需要所有節點之間的連接,
例外
Proteus架構,盡管它是基于電路交換的,但當兩個節點不直接連接時,它會使用多個跳點,從而提供全對全的通信,
Petabit架構似乎有效地結合了電子和光學的最佳特性,電子緩沖器用于節點的擁塞管理,使用高效的調度程式,而全光幀交換用于資料平面,
C. Scalability
可擴展性對資料中心十分重要,光網路需要易于擴展到大量節點,
低:基于電路交換機的混合方案由于受到交換機光埠數量的限制而具有有限的可擴展性(例如,在Helios中使用的Glimmerglass光電路交換機最多支持64個埠),
商業方案Polatis,OPST具有較低的可伸縮性,因為它們是基于埠數量有限的模塊、
中:OSMOSIS、Proteus或DOS,都是通過一個中央交換機實作的,該交換機可以容納有限數量的節點(通常受到波長通道數量的限制)
高:分布式系統,data-vortex也是一個高度可伸縮的系統,但是兩個節點之間可能需要大量的跳數,這可能會影響通信延遲,
? 有的方案可以按照與當前網路相同的方式進行擴展,E-RAPID方案可以通過將集群中的模塊連接起來,然后將集群連接到一個高資料速率的光環中來有效地進行擴展,
? Petabit和IRIS架構雖然基于中央交換機,但可以有效地擴展到采用Clos網路的大量節點,
D. Capacity
除了節點數量上的可擴展性外,提出的方案還必須易于升級到每個節點更高的容量,
基于MEMS開關(c-Through, Helios和Proteus)的電路開關架構可以很容易地升級到40 Gbps, 100 Gbps或更高的位元率,因為MEMS開關可以支持任何資料速率,
這些架構的每個節點容量由他的收發器決定,DOS、Petabit和IRIS架構都是基于可調諧波長轉換器進行交換的,因此,每個節點的最大容量受TWC支持的最大資料速率(目前為160gbps)的限制,
OSMOSIS, Space-WL, Bidirectional和Data V ortex都是基于SOA設備的光交換,因此每個節點的最大支持容量是由SOA技術的資料速率定義的,
E. Routing
為了充分利用網路的容量,資料中心網路中資料包的路由與Internet路由(例如OSPF)有很大的不同,
在混合方案(c-Through和Helios)中,電力網路是基于樹形拓撲結構,而光網路是基于節點之間的直接連接,因此,在這種情況下,路由由一個集中式調度程式執行二部圖分配,并將高帶寬請求分配給光鏈路,
在DOS架構下,報文直接發送到AWGR交換機,通過控制可調波長轉換器,由控制平面進行路由,這種方案的主要缺點是控制平面中的調度器必須足夠快,以維持資料包的調度,
在所有其他方案中,路由是在節點級執行的,其中每個包被轉發到基于目的地址的特定波長的不同埠,
F . Prototypes
光學元件的高成本(例如一個WSS可能要幾百美元)阻礙了完全可操作原型的實作,然而,在某些情況下,已經實作的原型要么是概念證明,要么是一個完整的系統,
Helios架構已經完全實作了,因為它是基于商業可用的光學集成電路、集成電路和集成電路的電信網路,資料V漩渦也已在小規模中實作,顯示了對少量節點的概念證明,
在c-through方案中,雖然由于缺少光元件而沒有實作,但已經評估了一個仿真系統,該系統通過將商品交換機修改為虛擬專用局域網來建立光鏈路,
成本及功耗
C-Through、Helios和Proteus方案基于現成的光模塊,因此成本明顯低于其他方案,這些方案需要專門為這些網路設計的特殊光組件,
Data vortex或DOS,是基于soa模塊的,易于以低成本實作,
在當前和未來的資料中心,運營成本(OPEX)可能會超過設備成本(CAPEX),這是由于相當一部分的費用分配給了電費,根據IDC的一項研究,IT設備的總成本多年來保持不變,而資料中心的電力和冷卻成本顯著增加,
總結
對于資料中心網路來說,光互連是一種很有前途的解決方案,它可以提供高帶寬、低延遲和降低能耗,有些方案是混合的,提出通過增加光電路來升級現有網路,而另一些方案則提出針對未來的資料中心網路完全替換現有交換機,一些方案是基于現成的光學元件,而其他方案是基于先進的光學技術,在不久的將來將具有成本效益,大多數方案基于SOA技術進行交換,因為SOA提供比MEMS交換機和全對全通信更快的重新配置時間,而大多數基于SOA的網路拓撲也提供了高可伸縮性,一些新的方案如Proteus,表明即使有現成的光元件也可以實作高性能的光網路,支持全對全通信,低延遲和降低功耗,現成的元件會顯著影響資料中心中光學方案的采用,然而,基于TWC和SOA的方案可以提供更高的容量和更好的可伸縮性,因此,它們可以以更有效的方式維持未來資料中心網路的需求,
總結*
對于資料中心網路來說,光互連是一種很有前途的解決方案,它可以提供高帶寬、低延遲和降低能耗,有些方案是混合的,提出通過增加光電路來升級現有網路,而另一些方案則提出針對未來的資料中心網路完全替換現有交換機,一些方案是基于現成的光學元件,而其他方案是基于先進的光學技術,在不久的將來將具有成本效益,大多數方案基于SOA技術進行交換,因為SOA提供比MEMS交換機和全對全通信更快的重新配置時間,而大多數基于SOA的網路拓撲也提供了高可伸縮性,一些新的方案如Proteus,表明即使有現成的光元件也可以實作高性能的光網路,支持全對全通信,低延遲和降低功耗,現成的元件會顯著影響資料中心中光學方案的采用,然而,基于TWC和SOA的方案可以提供更高的容量和更好的可伸縮性,因此,它們可以以更有效的方式維持未來資料中心網路的需求,
轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/301135.html
標籤:其他
上一篇:睿智的目標檢測52——Keras搭建YoloX目標檢測平臺
下一篇:Linux--行程
