主頁 >  其他 > 6個常見的IB網路不通問題

6個常見的IB網路不通問題

2023-06-27 07:56:03 其他

摘要:如果遇到IB網路不通,可以試著從高層往底層逐步分析看看,

本文分享自華為云社區《常見IB網路不通問題記錄》,作者: tsjsdbd ,

如果遇到IB網路不通,可以試著從高層往底層逐步分析看看,僅記錄下,供難友參考:

一、NCCL不通

報錯:

machine-19: [0] transport/net_ib.cc:839 NCCL WARN NET/IB : Got completion with error 12, opcode 0, len 0, vendor err 129

原因:錯誤12,說明RDMA網路不通,

需要分析底層網路為什么不通,

比如:

  • 是否單純網路不通
  • pfc流控不對導致丟包,

如果是(2)這種偶現不通的話,可以參考pfc設定規則:《為什么華為云上AI訓練必須設定NCCL_IB_TC=128》

二、ib_write_bw不通

報錯1:

root@tsjsdbd:~# ib_write_bw
----------------------------------------------------------
 RDMA_Write BW Test
 Dual-port      : OFFDevice         : mlx4_0
 Number of qps : 1Transport type : IB
 Connection type : RCUsing SRQ      : OFF
 CQ Moderation  : 100
 Mtu : 2048[B]
 Link type : IB
 Max inline data : 0[B]
 rdma_cm QPs : OFF
 Data ex. method : Ethernet
--------------------------------------------------------
 local address: LID 0x81 QPN 0x160b3 PSN 0xa072 RKey 0x68010802 VAddr 0x007f184171a000
 remote address: LID 0x35 QPN 0xc5a0b PSN 0xaa465a RKey 0x20010802 VAddr 0x007f3ca2b9c000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
 Unable to read to socket/rdam_cm
 Failed to exchange data between server and clients

報錯2:

root@tsjsdbd:~# ib_write_bw -F 29.26.130.185 -d mlx5_5
----------------------------------------------------------
 RDMA_Write BW Test
 Dual-port         : OFF                 Device         : mlx5_5
 Number of qps : 1                   Transport type : IB
 Connection type : RC                 Using SRQ      : OFF
 PCIe relax order: ON
 ibv_wr* API     : ON
 TX depth         : 128
 CQ Moderation  : 1
 Mtu : 2048[B]
 Link type : Ethernet
 GID index        : 3
 Max inline data : 0[B]
 rdma_cm QPs      : OFF
 Data ex. method : Ethernet
--------------------------------------------------------
 local address: LID 0x81 QPN 0x160b3 PSN 0xa072 RKey 0x68010802 VAddr 0x007f184171a000
 GID: 00:00:00:00:00:00:00:00:00:00:255:255:29:26:130:235
 remote address: LID 0x35 QPN 0xc5a0b PSN 0xaa465a RKey 0x20010802 VAddr 0x007f3ca2b9c000
 GID: 00:00:00:00:00:00:00:00:00:00:255:255:29:26:130:185
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
 Completion with error at client
 Failed status 12: wr_id 0 Syndrom 0x81
scnt=128, ccnt=0
 Failed to complete run_iter_bw function successfully

說明網路不通,需要繼續分析RDMA鏈路,

三、ibv_rc_pingpong不通

報錯:

ibv_rc_pingpong -d mlx5_bond_0 -g 3 29.28.195.228
 local address:  LID 0x0000, QPN 0x01417f, PSN 0x63d7fa, GID ::ffff:29.28.201.21
  remote address: LID 0x0000, QPN 0x00132d, PSN 0x8c0a5b, GID ::ffff:29.28.195.228
Failed status transport retry counter exceeded (12) for wr_id 2
parse WC failed 1

說明網路不通,需要分析IP網路為什么不通,

四、rping不通

報錯1:

rping -c -a 29.28.195.228 -v -C 10
cma event RDMA_CM_EVENT_ADDR_ERROR, error -110
waiting for addr/route resolution state 1

說明地址連不上,需要繼續判斷IP鏈路是否通,

報錯2:

rping -c -a 29.28.197.165 -C 10 -v
cma event RDMA_CM_EVENT_REJECTED, error 8
wait for CONNECTED state 4
connect error -1

這個Reject表示連接被拒絕了,只是單純的因為 rping 作業時需首先啟動一個 server side 行程,然后從 client side 試圖向 server side 發起連接,

所以要先啟動Server端,

rping -s 29.28.201.211 -v

五、ping不通

報錯:

ping 29.28.195.228
PING 29.28.195.228 (29.28.195.228) 56(84) bytes of data.
From 29.28.204.80 icmp_seq=1 Destination Host Unreachable
From 29.28.204.80 icmp_seq=2 Destination Host Unreachable
From 29.28.204.80 icmp_seq=3 Destination Host Unreachable
From 29.28.204.80 icmp_seq=4 Destination Host Unreachable
^C
--- 29.28.195.228 ping statistics ---
5 packets transmitted, 0 received, +4 errors, 100% packet loss, time 4045ms

這個估計就快到根錯誤了,假設交換機連接都是OK的,那基本就是路由設定問題:

可以用

# ip route get 29.28.204.80 from 29.28.201.211
29.28.204.80 from 29.28.201.211 dev enp137s0f0 uid 0

來確認發送報文的網卡是否選擇正確,

如果是「同網段多IB網卡」的情況,如A100 或者 A800服務,帶8個IB網卡,并都在同一個網段,則需要通過策略路由設定「源地址路由」規則來解決各個IP互通的問題,見:《RoCE多網卡時,報文可以過去,但是回不來》

六、ARP表不對

如果ping是通的,但是rping又不通, 那就還要再底層看一看了(你也算天選之子了,跑這么底層定位錯誤),

正常情況,學習到的arp表,一個IP地址對應一個網卡的MAC地址,

如下:

/home/tsj # arp -n | grep 29.28.201.211
29.28.201.211            ether  08:c0:eb:8c:10:6d   C                     enp137s0f1

兩端同時查看,如果發現一個IP地址,學習到的arp記錄有多條不一樣的,說明arp設定不對,

需要

  • 先清空arp表
  • 設定arp應答規則

其中,

(1)清空arp表有2種方式:

  • 指定某個IP清空:
arp -d 192.168.1.1
  • 清空所有arp:(咱們直接執行這個就行)
ip -s -s neigh flush all

(2)設定arp應答規則:

sysctl -w net.ipv4.conf.all.arp_ignore=1
sysctl -w net.ipv4.conf.all.arp_announce=2

意思是只答復對應網卡的arp回應,

設定完后,再ping一次后,確認兩邊學習到的arp表是正確的,

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/556022.html

標籤:其他

上一篇:自然語言處理 Paddle NLP - 檢索式文本問答-理論

下一篇:返回列表

標籤雲
其他(161644) Python(38254) JavaScript(25514) Java(18265) C(15238) 區塊鏈(8272) C#(7972) AI(7469) 爪哇(7425) MySQL(7269) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4606) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2437) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1985) HtmlCss(1972) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 6個常見的IB網路不通問題

    摘要:如果遇到IB網路不通,可以試著從高層往底層逐步分析看看。 本文分享自華為云社區《常見IB網路不通問題記錄》,作者: tsjsdbd 。 如果遇到IB網路不通,可以試著從高層往底層逐步分析看看。僅記錄下,供難友參考: 一、NCCL不通 報錯: machine-19: [0] transport/ ......

    uj5u.com 2023-06-27 07:56:03 more
  • 自然語言處理 Paddle NLP - 檢索式文本問答-理論

    問答系統(Question Answering System,QA) 是資訊檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。其研究興起的主要原因是人們對快速、準確地獲取資訊的需求。問答系統是人工智能. 抽取式閱讀理解:它的答案一定是段落里的一個片段,所以在訓練前,先要 ......

    uj5u.com 2023-06-26 09:55:18 more
  • 自然語言處理 Paddle NLP - 檢索式文本問答-理論

    問答系統(Question Answering System,QA) 是資訊檢索系統的一種高級形式,它能用準確、簡潔的自然語言回答用戶用自然語言提出的問題。其研究興起的主要原因是人們對快速、準確地獲取資訊的需求。問答系統是人工智能. 抽取式閱讀理解:它的答案一定是段落里的一個片段,所以在訓練前,先要 ......

    uj5u.com 2023-06-26 09:48:27 more
  • Note of Introduction to Bioorganic Chemistry and Chemical Bi

    ## Chapter 1: The Fundamentals of Chemical Biology (第 1 章 化學生物學基礎) ### 1.0 INTRODUCTION (引子) #### 1.0.1 Why organize a book on chemical biology around ......

    uj5u.com 2023-06-26 08:55:31 more
  • Python控制流程盤點及高級用法、神秘技巧大揭秘!

    在這篇文章中我們將全面深入地介紹 Python 的控制流程,包括條件陳述句、回圈結構和例外處理等關鍵部分,尤其會將串列決議、生成器、裝飾器等高級用法一網打盡。此外,我還將分享一些獨特的見解和研究發現,希望能給你帶來新的啟發。文章的結尾,我們將有一個 "One More Thing" 環節,我會分享一個 ......

    uj5u.com 2023-06-26 08:55:07 more
  • C++ 核心指南之資源管理(中)

    > C++ 核心指南(C++ Core Guidelines)是由 Bjarne Stroustrup、Herb Sutter 等頂尖 C++ 專家創建的一份 C++ 指南、規則及最佳實踐。旨在幫助大家正確、高效地使用“現代 C++”。 > > 這份指南側重于介面、資源管理、記憶體管理、并發等 Hig ......

    uj5u.com 2023-06-26 08:55:01 more
  • 用coredns加etcd,搭建跨平臺動態服務發現

    coredns被我喜愛的原因:跨平臺,支持win,linux版同時使用。同時支持組態檔和etcd。用它來搭建動態服務發現極其簡單。 ......

    uj5u.com 2023-06-26 08:54:56 more
  • KubeSphere 社區雙周報 | OpenFunction 發布 v1.1.1 | 2023.6.9-

    KubeSphere 社區雙周報主要整理展示新增的貢獻者名單和證書、新增的講師證書以及兩周內提交過 commit 的貢獻者,并對近期重要的 PR 進行決議,同時還包含了線上/線下活動和布道推廣等一系列社區動態。 本次雙周報涵蓋時間為:2023.6.9-6.22。 ## 貢獻者名單 ![](https ......

    uj5u.com 2023-06-26 08:54:34 more
  • Java 反序列化之 XStream 反序列化

    XStream 是一個簡單的基于 Java 庫,Java 物件序列化到 XML,反之亦然(即:可以輕易的將 Java 物件和 XML 檔案相互轉換)。如何使用 XStream 進行序列化和反序列化操作? ......

    uj5u.com 2023-06-26 08:48:25 more
  • Python 中的 JSON 操作:簡單、高效的資料交換格式

    > 在現代的資料交換和存盤中,JSON(JavaScript Object Notation)作為一種輕量級的資料交換格式,備受青睞。它不僅易于閱讀和理解,還可以靈活地表達和存盤高維資料。本文將介紹如何在 Python 中操作 JSON 檔案,實作資料的序列化和反序列化。 ## 1. JSON 資料 ......

    uj5u.com 2023-06-26 08:41:53 more