主頁 > 資料庫 > 可編程網卡芯片在滴滴云網路的應用實踐

可編程網卡芯片在滴滴云網路的應用實踐

2020-09-10 06:10:21 資料庫

?桔妹導讀:隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性,可編程芯片成為業界熱點,本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻,

1. 資料中心面臨的問題

隨著滴滴云規模的不斷擴大,業務層面對延遲以及帶寬的要求越來越高,2018年滴滴云網路團隊上線了基于開源社區的OVS-DPDK方案,DPDK是X86平臺報文快速處理的庫和驅動的集合, 其主要優勢為通過Bypass Linux內核,Hugepage記憶體以及PMD(Poll Mode Driver)模型驅動的方式實作加速,我們為OVS-DPDK提供了在線熱升級功能,該功能保證了在升級程序中虛擬機業務無感知,并且網路Downtime時間為毫秒級別,同時我們優化了OVS-DPDK資料轉發平面,實作了不同物理主機上的虛擬機網路延遲<150us,單核性能約~400w pps(雙向),

滴滴內部上云、高性能計算HPC,以及機器學習,對網路提出了更高的要求,通過CPU DPDK處理報文的方式,雖然在性能以及延遲方面遠優于基于Linux 內核的轉發實作,但CPU DPDK已經不能滿足資料中心流量激增帶來的需求,

2. 技術方案選擇

云網路環境中,在計算節點DPDK不會占用過多的CPU,否則會影響CPU售賣,一般會使用1-2 CPU用于資料報文處理,同時DPDK 處理資料報文的性能強依賴CPU算力,因此在計算節點網路的橫向擴展以及縱向擴展都具有局限性,

在邊際網關節點,我們可以通過擴展服務器的方式,提高網路處理容量進而滿足業務需求,但是大規模的擴展服務器,需要承擔更多的機器、功耗以及運維成本,

軟體定義網路(Software?Defined?Network,SDN)是一種新型網路創新架構,是網路虛擬化的一種實作方式,其核心思想是將網路設備的控制面與資料面分離開來,控制層面可以通過集中控制的方式實作不同的業務邏輯:拓撲發現,路由管理,安全策略,網路虛擬化等,資料平面更專注在資料報文轉發,2018年AWS re:Invent,AWS 介紹了Nitro System,該系統通過硬體芯片加速虛擬機IO處理(網路、存盤、安全等),

目前工業界,加速網路處理的焦點聚集到了硬體層面:AISC,FPGA,P4,可編程網卡,以及智能網卡等,

3. 基于可編程芯片的解決方案

3.1 硬體芯片選擇

  1. 傳統AISC卡
    該卡比較成熟,但業務邏輯固定,很難適應云上復雜的業務場景,

  2. 可編程門佇列FPGA
    FPGA 實作網路加速需要專業FPGA技術人員,以及專業網路RD,同時在成本,和研發周期都需要具有一定的局限性,

  3. P4
    P4 具有靈活的可編程性,較為合適做為網關節點資料處理,并不適合在計算節點使用,同時價格也是需要考慮的因素,

  4. 可編程網卡芯片
    通過調研發現,可編程網卡除了具有通用網卡的功能外,還可以通過下發流表規則的方式,實作報文匹配并對報文執行特定的action如:修改,封裝,以及轉發、上送報文至CPU等,這種具有靈活性、可編程性的??硬體芯片,能夠滿足快速迭代的需求,

3.2 轉發模型

為了滿足網元業務靈活性、多樣性的需求,我們將網元業務和底層平臺功能分離,舍去了傳統的資料面Pipeline轉發模型,采用了類似Open Flow的macth+action的方式,這樣不同的match規則和不同action 匹配能夠實作不同的業務邏輯,這種弱依賴的關系能夠剝離了業務和底層細節,方便業務功能迭代、快速上線,同時底層可編程芯片的更新不會對業務邏輯產生影響,

3.3 網路平臺化

隨著??云上業務場景的復雜化,以及上云的客戶越來越多,云上網路的功能也復雜化,為了統一計算節點以及網關節點功能,我們實作了統一的編程框架,這樣能夠快速開發不同功能的網關節點,減少運維負擔,

3.4 落地實踐

我們基于OVS-DPDK Offload 框架實作流表規則offload,OVS 采用首個報文觸發的方式下發硬體流表規則,該方式的優點為在必須的時候下發規則,能夠達到節省流表的目的,但是缺點卻會導致首個報文延遲,經調研我們發現網卡支持至少百萬級流表量(使用x86記憶體或者其他擴展記憶體),最終我們舍去OVS-DPDK ofproto 轉發層,使用dpctl 介面下發流表,這樣就不存在首個報文延遲問題,同時也縮減了使用TC Flower時資料面過多問題(這些轉發平面包括:硬體芯片轉發,TC資料面,OVS Linux 內核模塊轉發,以及ofproto層),我們修改了OVS-DPDK 流表老化方式,保證通過dpctl 下發的規則不會被洗掉,最后通過upcall limit 限制了upcall 報文處理,滴滴云網路資料平面主要分為兩大部分:計算節點和網關節點,計算節點主要負責虛擬機、容器網路的虛擬化,網關節點主要負責各種邊際節點業務如:SLB負載均衡、vRouter EIP報文處理,分流器、SNAT、FullNAT、云企業網等,可編程網卡芯片通過平臺化的方式在兩個主要節點均有應用,

  1. SLB負載均衡
    提供四層負載均衡,根據用戶策略將underlayer網路報文分發到虛擬網路服務節點,

  2. vRouter
    提供彈性EIP服務,用戶可以將一個公網IP地址系結到虛擬機、容器、或者裸金屬,從而獲得公網訪問功能,

  3. iRouter
    將滴滴資料中心和滴滴云虛擬網路打通,滴滴資料中心可以方便快捷的訪問云上資源,

  4. SNAT
    為虛擬機、容器以及裸金屬提供訪問公網服務,

  5. 云企業網互聯
    互聯服務支持將滴滴云上的多個VPC網路加入云互聯,任意兩個VPC網路即可實作資源之間的互訪,

  6. 計算節點
    在計算節點主要有兩大應用場景:一種場景為在計算節點為虛擬機、容器提供VPC服務(網路隧道,限速,轉發,報文修改,公網服務),RDMA網路,另外一個場景使用智能網卡為裸金屬提供VPC服務,

3.5 遇到的問題

在調研開發程序中遇到諸多問題,在這里和大家總結分享下:

  1. OVS-DPDK 支持Offload 程度有限
    首先OVS 社區并對DPDK Offload介面(rte flow)支持有限:實作的action非常有限,需要使用者獨立完成開發:如set action,meter offload,vxlan 隧道報文處理等,

  2. 埠轉發限制
    目前mellanox網卡芯片并不支持從一個PF埠轉發到該芯片另一個埠, 最終我們通過SRIOV+Hairpin的方式解決該問題,據了解后續的網卡芯片開始支持該功能(功能也受限于韌體),

  3. Open vSwitch Crash
    在洗掉包含meter action 流表規則時,OVS 行程退出,該問題最終確認為DPDK的一個bug,目前該問題已經修復,發送到社區并接收,http://git.dpdk.org/next/dpdk-next-net/commit/?id=0d7d180a0dda4b97021fc1f580d6bfe3b42a332d

呼叫DPDK Meter API 介面導致crash,目前該問題已經修復,發送到社區并接收,
http://git.dpdk.org/next/dpdk-next-net/commit/?id=4f19f4140e058c92822f228dcdc55c44bd88b613

修改OVS 配置導致洗掉offload flow crash,目前該問題已經修復,發送到社區并接收,https://github.com/openvswitch/ovs/commit/058b80d3de31b2c539d9e6f5f6687bde78ef08e9

  1. Meter offload
    OVS社區沒有實作該功能,我們根據業務特征抽象出介面并在OVS實作了meter offload,該系 列補丁檔案正在OVS 社區review,不久會進入upstream,

  2. Decap/Encap 流表限制
    下發多條帶有decap/encap的流表規則時報錯,該問題最終確認為DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復,http://git.dpdk.org/next/dpdk-next-net/commit/?id=64927f72a72fad39898b084e0cf66cc97b40959f

  3. Decap + Meter action限制
    decap + meter 做為action 下發規則時失敗,該問題最終確認為DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復http://git.dpdk.org/next/dpdk-next-net/commit/?id=431f199883e5b7eeea87a2f9f0272daf3354c1da

  4. Hairpin 性能問題
    在高并發情況下,mellanox 網卡芯片性能會下降約40%,最終確認是網卡驅動hairpin問題,目前mellanox 確認該問題并給出修復方式,

  5. 流表數目限制
    通過洗掉流表上限修復該問題:https://github.com/openvswitch/ovs/commit/df5c293642cc07013e796e588eb7aead917e20a1

  6. MAC 地址對VxLAN的影響
    物理主機源MAC地址變更后vxlan 報文依舊使用原來MAC地址,這樣會導致收不到回應報文:
    https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6707f74be8621ae067d2cf1c4485900e2742c20f

  7. 多次修改報文不生效問題
    多次使用TC Flower pedit 修改報文,offload 不生效問題, 最終確認是內核驅動問題:
    https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=218d05ce326f9e1b40a56085431fa1068b43d5d9

  8. 配置vf rate、mac不當導致內核crash
    https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6e77c413e8e73d0f36b5358b601389d75ec4451c

https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/? id=24319258660a84dd77f4be026a55b10a12524919

3.6 性能資料

以實作的vRouter 彈性公網網關為例(基礎網路10Gpbs):

pps(64B) Mpbs(64B) pps(1500B) Mpbs(1500B)
9495892 8660.25 811935 10067.98

業務延遲資料如下(使用pktgen-dpdk latency):

背景流量 網關延遲
10W條流表以及并發1Gbps 64B流量 3u
10W條流表以及并發5Gbps 64B流量 6u

4. 開源社區貢獻

除了為開源社區提供 bug patch,我們也將新增特性、性能優化patch回饋至開源社區:OVS、DPDK、Linux 內核社區(約80+ patch), 其中Linux 內核補丁串列如下:

團隊介紹

滴滴云平臺事業群滴滴SDN網路團隊負責云網路產品的規劃、設計、以及研發等作業,為公有云提供負載均衡SLB、專有網路VPC、彈性公網EIP、SNAT 以及云互聯等服務,團隊針對云網路業務需求,在Linux 內核網路虛擬化、DPDK、OVS、可編程芯片、RDMA、智能網卡以及系統優化等領域均有廣泛深入的研究,團隊具有多名開源社區contributor,涉及OVS、DPDK、Linux 內核等,

作者介紹

專注于高性能網路技術,從事云網路研發作業,活躍于Linux 內核、OVS、DPDK開源社區,

延伸閱讀

內容編輯 | Charlotte & Teeo
聯系我們 | [email protected]

本文由博客群發一文多發等運營工具平臺 OpenWrite 發布

轉載請註明出處,本文鏈接:https://www.uj5u.com/shujuku/1081.html

標籤:大數據

上一篇:GPU虛擬機創建時間深度優化

下一篇:滴滴資料通道服務演進之路

標籤雲
其他(157675) Python(38076) JavaScript(25376) Java(17977) C(15215) 區塊鏈(8255) C#(7972) AI(7469) 爪哇(7425) MySQL(7132) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5869) 数组(5741) R(5409) Linux(5327) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4554) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2429) ASP.NET(2402) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) 功能(1967) .NET技术(1958) Web開發(1951) python-3.x(1918) HtmlCss(1915) 弹簧靴(1913) C++(1909) xml(1889) PostgreSQL(1872) .NETCore(1853) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • GPU虛擬機創建時間深度優化

    **?桔妹導讀:**GPU虛擬機實體創建速度慢是公有云面臨的普遍問題,由于通常情況下創建虛擬機屬于低頻操作而未引起業界的重視,實際生產中還是存在對GPU實體創建時間有苛刻要求的業務場景。本文將介紹滴滴云在解決該問題時的思路、方法、并展示最終的優化成果。 從公有云服務商那里購買過虛擬主機的資深用戶,一 ......

    uj5u.com 2020-09-10 06:09:13 more
  • 可編程網卡芯片在滴滴云網路的應用實踐

    **?桔妹導讀:**隨著云規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網路報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴云網路中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。 #1. 資料中心面臨的問題 隨著滴滴 ......

    uj5u.com 2020-09-10 06:10:21 more
  • 滴滴資料通道服務演進之路

    **?桔妹導讀:**滴滴資料通道引擎承載著全公司的資料同步,為下游實時和離線場景提供了必不可少的源資料。隨著任務量的不斷增加,資料通道的整體架構也隨之發生改變。本文介紹了滴滴資料通道的發展歷程,遇到的問題以及今后的規劃。 #1. 背景 資料,對于任何一家互聯網公司來說都是非常重要的資產,公司的大資料 ......

    uj5u.com 2020-09-10 06:11:05 more
  • 滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三

    **桔妹導讀:**深耕人工智能領域,致力于探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,這次獲獎的專案是什么呢?一起來看看詳細報道吧! 近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器 ......

    uj5u.com 2020-09-10 06:11:29 more
  • MPP (Massively Parallel Processing)大規模并行處理

    1、什么是mpp? MPP (Massively Parallel Processing),即大規模并行處理,在資料庫非共享集群中,每個節點都有獨立的磁盤存盤系統和記憶體系統,業務資料根據資料庫模型和應用特點劃分到各個節點上,每臺資料節點通過專用網路或者商業通用網路互相連接,彼此協同計算,作為整體提供 ......

    uj5u.com 2020-09-10 06:11:41 more
  • 滴滴資料倉庫指標體系建設實踐

    **桔妹導讀:**指標體系是什么?如何使用OSM模型和AARRR模型搭建指標體系?如何統一流程、規范化、工具化管理指標體系?本文會對建設的方法論結合滴滴資料指標體系建設實踐進行解答分析。 #1. 什么是指標體系 ##1.1 指標體系定義 指標體系是將零散單點的具有相互聯系的指標,系統化的組織起來,通 ......

    uj5u.com 2020-09-10 06:12:52 more
  • 單表千萬行資料庫 LIKE 搜索優化手記

    我們經常在資料庫中使用 LIKE 運算子來完成對資料的模糊搜索,LIKE 運算子用于在 WHERE 子句中搜索列中的指定模式。 如果需要查找客戶表中所有姓氏是“張”的資料,可以使用下面的 SQL 陳述句: SELECT * FROM Customer WHERE Name LIKE '張%' 如果需要 ......

    uj5u.com 2020-09-10 06:13:25 more
  • 滴滴Ceph分布式存盤系統優化之鎖優化

    **桔妹導讀:**Ceph是國際知名的開源分布式存盤系統,在工業界和學術界都有著重要的影響。Ceph的架構和演算法設計發表在國際系統領域頂級會議OSDI、SOSP、SC等上。Ceph社區得到Red Hat、SUSE、Intel等大公司的大力支持。Ceph是國際云計算領域應用最廣泛的開源分布式存盤系統, ......

    uj5u.com 2020-09-10 06:14:51 more
  • es~通過ElasticsearchTemplate進行聚合~嵌套聚合

    之前寫過《es~通過ElasticsearchTemplate進行聚合操作》的文章,這一次主要寫一個嵌套的聚合,例如先對sex集合,再對desc聚合,最后再對age求和,共三層嵌套。 Aggregations的部分特性類似于SQL語言中的group by,avg,sum等函式,Aggregation ......

    uj5u.com 2020-09-10 06:14:59 more
  • 爬蟲日志監控 -- Elastc Stack(ELK)部署

    傻瓜式部署,只需替換IP與用戶 導讀: 現ELK四大組件分別為:Elasticsearch(核心)、logstash(處理)、filebeat(采集)、kibana(可視化) 下載均在https://www.elastic.co/cn/downloads/下tar包,各組件版本最好一致,配合fdm會 ......

    uj5u.com 2020-09-10 06:15:05 more
最新发布
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:33:24 more
  • MySQL中binlog備份腳本分享

    關于MySQL的二進制日志(binlog),我們都知道二進制日志(binlog)非常重要,尤其當你需要point to point災難恢復的時侯,所以我們要對其進行備份。關于二進制日志(binlog)的備份,可以基于flush logs方式先切換binlog,然后拷貝&壓縮到到遠程服務器或本地服務器 ......

    uj5u.com 2023-04-20 08:28:06 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:27:27 more
  • 快取與資料庫雙寫一致性幾種策略分析

    本文將對幾種快取與資料庫保證資料一致性的使用方式進行分析。為保證高并發性能,以下分析場景不考慮執行的原子性及加鎖等強一致性要求的場景,僅追求最終一致性。 ......

    uj5u.com 2023-04-20 08:26:48 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:26:35 more
  • 云時代,MySQL到ClickHouse資料同步產品對比推薦

    ClickHouse 在執行分析查詢時的速度優勢很好的彌補了MySQL的不足,但是對于很多開發者和DBA來說,如何將MySQL穩定、高效、簡單的同步到 ClickHouse 卻很困難。本文對比了 NineData、MaterializeMySQL(ClickHouse自帶)、Bifrost 三款產品... ......

    uj5u.com 2023-04-20 08:26:29 more
  • sql陳述句優化

    問題查找及措施 問題查找 需要找到具體的代碼,對其進行一對一優化,而非一直把關注點放在服務器和sql平臺 降低簡化每個事務中處理的問題,盡量不要讓一個事務拖太長的時間 例如檔案上傳時,應將檔案上傳這一步放在事務外面 微軟建議 4.啟動sql定時執行計劃 怎么啟動sqlserver代理服務-百度經驗 ......

    uj5u.com 2023-04-20 08:25:13 more
  • Redis 報”OutOfDirectMemoryError“(堆外記憶體溢位)

    Redis 報錯“OutOfDirectMemoryError(堆外記憶體溢位) ”問題如下: 一、報錯資訊: 使用 Redis 的業務介面 ,產生 OutOfDirectMemoryError(堆外記憶體溢位),如圖: 格式化后的報錯資訊: { "timestamp": "2023-04-17 22: ......

    uj5u.com 2023-04-20 08:24:54 more
  • day02-2-商鋪查詢快取

    功能02-商鋪查詢快取 3.商鋪詳情快取查詢 3.1什么是快取? 快取就是資料交換的緩沖區(稱作Cache),是存盤資料的臨時地方,一般讀寫性能較高。 快取的作用: 降低后端負載 提高讀寫效率,降低回應時間 快取的成本: 資料一致性成本 代碼維護成本 運維成本 3.2需求說明 如下,當我們點擊商店詳 ......

    uj5u.com 2023-04-20 08:24:03 more
  • day02-短信登錄

    功能實作02 2.功能01-短信登錄 2.1基于Session實作登錄 2.1.1思路分析 2.1.2代碼實作 2.1.2.1發送短信驗證碼 發送短信驗證碼: 發送驗證碼的介面為:http://127.0.0.1:8080/api/user/code?phone=xxxxx<手機號> 請求方式:PO ......

    uj5u.com 2023-04-20 08:23:11 more