?桔妹導讀:隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性,可編程芯片成為業界熱點,本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻,
1. 資料中心面臨的問題
隨著滴滴云規模的不斷擴大,業務層面對延遲以及帶寬的要求越來越高,2018年滴滴云網路團隊上線了基于開源社區的OVS-DPDK方案,DPDK是X86平臺報文快速處理的庫和驅動的集合, 其主要優勢為通過Bypass Linux內核,Hugepage記憶體以及PMD(Poll Mode Driver)模型驅動的方式實作加速,我們為OVS-DPDK提供了在線熱升級功能,該功能保證了在升級程序中虛擬機業務無感知,并且網路Downtime時間為毫秒級別,同時我們優化了OVS-DPDK資料轉發平面,實作了不同物理主機上的虛擬機網路延遲<150us,單核性能約~400w pps(雙向),
滴滴內部上云、高性能計算HPC,以及機器學習,對網路提出了更高的要求,通過CPU DPDK處理報文的方式,雖然在性能以及延遲方面遠優于基于Linux 內核的轉發實作,但CPU DPDK已經不能滿足資料中心流量激增帶來的需求,
2. 技術方案選擇
云網路環境中,在計算節點DPDK不會占用過多的CPU,否則會影響CPU售賣,一般會使用1-2 CPU用于資料報文處理,同時DPDK 處理資料報文的性能強依賴CPU算力,因此在計算節點網路的橫向擴展以及縱向擴展都具有局限性,
在邊際網關節點,我們可以通過擴展服務器的方式,提高網路處理容量進而滿足業務需求,但是大規模的擴展服務器,需要承擔更多的機器、功耗以及運維成本,
軟體定義網路(Software?Defined?Network,SDN)是一種新型網路創新架構,是網路虛擬化的一種實作方式,其核心思想是將網路設備的控制面與資料面分離開來,控制層面可以通過集中控制的方式實作不同的業務邏輯:拓撲發現,路由管理,安全策略,網路虛擬化等,資料平面更專注在資料報文轉發,2018年AWS re:Invent,AWS 介紹了Nitro System,該系統通過硬體芯片加速虛擬機IO處理(網路、存盤、安全等),
目前工業界,加速網路處理的焦點聚集到了硬體層面:AISC,FPGA,P4,可編程網卡,以及智能網卡等,
3. 基于可編程芯片的解決方案
3.1 硬體芯片選擇
-
傳統AISC卡
該卡比較成熟,但業務邏輯固定,很難適應云上復雜的業務場景, -
可編程門佇列FPGA
FPGA 實作網路加速需要專業FPGA技術人員,以及專業網路RD,同時在成本,和研發周期都需要具有一定的局限性, -
P4
P4 具有靈活的可編程性,較為合適做為網關節點資料處理,并不適合在計算節點使用,同時價格也是需要考慮的因素,
-
可編程網卡芯片
通過調研發現,可編程網卡除了具有通用網卡的功能外,還可以通過下發流表規則的方式,實作報文匹配并對報文執行特定的action如:修改,封裝,以及轉發、上送報文至CPU等,這種具有靈活性、可編程性的??硬體芯片,能夠滿足快速迭代的需求,
3.2 轉發模型
為了滿足網元業務靈活性、多樣性的需求,我們將網元業務和底層平臺功能分離,舍去了傳統的資料面Pipeline轉發模型,采用了類似Open Flow的macth+action的方式,這樣不同的match規則和不同action 匹配能夠實作不同的業務邏輯,這種弱依賴的關系能夠剝離了業務和底層細節,方便業務功能迭代、快速上線,同時底層可編程芯片的更新不會對業務邏輯產生影響,
3.3 網路平臺化
隨著??云上業務場景的復雜化,以及上云的客戶越來越多,云上網路的功能也復雜化,為了統一計算節點以及網關節點功能,我們實作了統一的編程框架,這樣能夠快速開發不同功能的網關節點,減少運維負擔,
3.4 落地實踐
我們基于OVS-DPDK Offload 框架實作流表規則offload,OVS 采用首個報文觸發的方式下發硬體流表規則,該方式的優點為在必須的時候下發規則,能夠達到節省流表的目的,但是缺點卻會導致首個報文延遲,經調研我們發現網卡支持至少百萬級流表量(使用x86記憶體或者其他擴展記憶體),最終我們舍去OVS-DPDK ofproto 轉發層,使用dpctl 介面下發流表,這樣就不存在首個報文延遲問題,同時也縮減了使用TC Flower時資料面過多問題(這些轉發平面包括:硬體芯片轉發,TC資料面,OVS Linux 內核模塊轉發,以及ofproto層),我們修改了OVS-DPDK 流表老化方式,保證通過dpctl 下發的規則不會被洗掉,最后通過upcall limit 限制了upcall 報文處理,滴滴云網路資料平面主要分為兩大部分:計算節點和網關節點,計算節點主要負責虛擬機、容器網路的虛擬化,網關節點主要負責各種邊際節點業務如:SLB負載均衡、vRouter EIP報文處理,分流器、SNAT、FullNAT、云企業網等,可編程網卡芯片通過平臺化的方式在兩個主要節點均有應用,
-
SLB負載均衡
提供四層負載均衡,根據用戶策略將underlayer網路報文分發到虛擬網路服務節點, -
vRouter
提供彈性EIP服務,用戶可以將一個公網IP地址系結到虛擬機、容器、或者裸金屬,從而獲得公網訪問功能, -
iRouter
將滴滴資料中心和滴滴云虛擬網路打通,滴滴資料中心可以方便快捷的訪問云上資源, -
SNAT
為虛擬機、容器以及裸金屬提供訪問公網服務, -
云企業網互聯
互聯服務支持將滴滴云上的多個VPC網路加入云互聯,任意兩個VPC網路即可實作資源之間的互訪, -
計算節點
在計算節點主要有兩大應用場景:一種場景為在計算節點為虛擬機、容器提供VPC服務(網路隧道,限速,轉發,報文修改,公網服務),RDMA網路,另外一個場景使用智能網卡為裸金屬提供VPC服務,
3.5 遇到的問題
在調研開發程序中遇到諸多問題,在這里和大家總結分享下:
-
OVS-DPDK 支持Offload 程度有限
首先OVS 社區并對DPDK Offload介面(rte flow)支持有限:實作的action非常有限,需要使用者獨立完成開發:如set action,meter offload,vxlan 隧道報文處理等, -
埠轉發限制
目前mellanox網卡芯片并不支持從一個PF埠轉發到該芯片另一個埠, 最終我們通過SRIOV+Hairpin的方式解決該問題,據了解后續的網卡芯片開始支持該功能(功能也受限于韌體), -
Open vSwitch Crash
在洗掉包含meter action 流表規則時,OVS 行程退出,該問題最終確認為DPDK的一個bug,目前該問題已經修復,發送到社區并接收,http://git.dpdk.org/next/dpdk-next-net/commit/?id=0d7d180a0dda4b97021fc1f580d6bfe3b42a332d
呼叫DPDK Meter API 介面導致crash,目前該問題已經修復,發送到社區并接收,
http://git.dpdk.org/next/dpdk-next-net/commit/?id=4f19f4140e058c92822f228dcdc55c44bd88b613
修改OVS 配置導致洗掉offload flow crash,目前該問題已經修復,發送到社區并接收,https://github.com/openvswitch/ovs/commit/058b80d3de31b2c539d9e6f5f6687bde78ef08e9
-
Meter offload
OVS社區沒有實作該功能,我們根據業務特征抽象出介面并在OVS實作了meter offload,該系 列補丁檔案正在OVS 社區review,不久會進入upstream, -
Decap/Encap 流表限制
下發多條帶有decap/encap的流表規則時報錯,該問題最終確認為DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復,http://git.dpdk.org/next/dpdk-next-net/commit/?id=64927f72a72fad39898b084e0cf66cc97b40959f -
Decap + Meter action限制
decap + meter 做為action 下發規則時失敗,該問題最終確認為DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復http://git.dpdk.org/next/dpdk-next-net/commit/?id=431f199883e5b7eeea87a2f9f0272daf3354c1da -
Hairpin 性能問題
在高并發情況下,mellanox 網卡芯片性能會下降約40%,最終確認是網卡驅動hairpin問題,目前mellanox 確認該問題并給出修復方式, -
流表數目限制
通過洗掉流表上限修復該問題:https://github.com/openvswitch/ovs/commit/df5c293642cc07013e796e588eb7aead917e20a1 -
MAC 地址對VxLAN的影響
物理主機源MAC地址變更后vxlan 報文依舊使用原來MAC地址,這樣會導致收不到回應報文:
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6707f74be8621ae067d2cf1c4485900e2742c20f -
多次修改報文不生效問題
多次使用TC Flower pedit 修改報文,offload 不生效問題, 最終確認是內核驅動問題:
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=218d05ce326f9e1b40a56085431fa1068b43d5d9 -
配置vf rate、mac不當導致內核crash
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6e77c413e8e73d0f36b5358b601389d75ec4451c
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/? id=24319258660a84dd77f4be026a55b10a12524919
3.6 性能資料
以實作的vRouter 彈性公網網關為例(基礎網路10Gpbs):
pps(64B) | Mpbs(64B) | pps(1500B) | Mpbs(1500B) |
---|---|---|---|
9495892 | 8660.25 | 811935 | 10067.98 |
業務延遲資料如下(使用pktgen-dpdk latency):
背景流量 | 網關延遲 |
---|---|
10W條流表以及并發1Gbps 64B流量 | 3u |
10W條流表以及并發5Gbps 64B流量 | 6u |
4. 開源社區貢獻
除了為開源社區提供 bug patch,我們也將新增特性、性能優化patch回饋至開源社區:OVS、DPDK、Linux 內核社區(約80+ patch), 其中Linux 內核補丁串列如下:
團隊介紹
滴滴云平臺事業群滴滴SDN網路團隊負責云網路產品的規劃、設計、以及研發等作業,為公有云提供負載均衡SLB、專有網路VPC、彈性公網EIP、SNAT 以及云互聯等服務,團隊針對云網路業務需求,在Linux 內核網路虛擬化、DPDK、OVS、可編程芯片、RDMA、智能網卡以及系統優化等領域均有廣泛深入的研究,團隊具有多名開源社區contributor,涉及OVS、DPDK、Linux 內核等,
作者介紹
專注于高性能網路技術,從事云網路研發作業,活躍于Linux 內核、OVS、DPDK開源社區,
延伸閱讀
內容編輯 | Charlotte & Teeo
聯系我們 | [email protected]
本文由博客群發一文多發等運營工具平臺 OpenWrite 發布
轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/1081.html
標籤:大數據
上一篇:GPU虛擬機創建時間深度優化
下一篇:滴滴資料通道服務演進之路