主頁 >  其他 > 6個常見的IB網路不通問題

6個常見的IB網路不通問題

2023-06-27 08:14:47 其他

摘要:如果遇到IB網路不通,可以試著從高層往底層逐步分析看看,

本文分享自華為云社區《常見IB網路不通問題記錄》,作者: tsjsdbd ,

如果遇到IB網路不通,可以試著從高層往底層逐步分析看看,僅記錄下,供難友參考:

一、NCCL不通

報錯:

machine-19: [0] transport/net_ib.cc:839 NCCL WARN NET/IB : Got completion with error 12, opcode 0, len 0, vendor err 129

原因:錯誤12,說明RDMA網路不通,

需要分析底層網路為什么不通,

比如:

  • 是否單純網路不通
  • pfc流控不對導致丟包,

如果是(2)這種偶現不通的話,可以參考pfc設定規則:《為什么華為云上AI訓練必須設定NCCL_IB_TC=128》

二、ib_write_bw不通

報錯1:

root@tsjsdbd:~# ib_write_bw
----------------------------------------------------------
 RDMA_Write BW Test
 Dual-port      : OFFDevice         : mlx4_0
 Number of qps : 1Transport type : IB
 Connection type : RCUsing SRQ      : OFF
 CQ Moderation  : 100
 Mtu : 2048[B]
 Link type : IB
 Max inline data : 0[B]
 rdma_cm QPs : OFF
 Data ex. method : Ethernet
--------------------------------------------------------
 local address: LID 0x81 QPN 0x160b3 PSN 0xa072 RKey 0x68010802 VAddr 0x007f184171a000
 remote address: LID 0x35 QPN 0xc5a0b PSN 0xaa465a RKey 0x20010802 VAddr 0x007f3ca2b9c000
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
ethernet_read_keys: Couldn't read remote address
 Unable to read to socket/rdam_cm
 Failed to exchange data between server and clients

報錯2:

root@tsjsdbd:~# ib_write_bw -F 29.26.130.185 -d mlx5_5
----------------------------------------------------------
 RDMA_Write BW Test
 Dual-port         : OFF                 Device         : mlx5_5
 Number of qps : 1                   Transport type : IB
 Connection type : RC                 Using SRQ      : OFF
 PCIe relax order: ON
 ibv_wr* API     : ON
 TX depth         : 128
 CQ Moderation  : 1
 Mtu : 2048[B]
 Link type : Ethernet
 GID index        : 3
 Max inline data : 0[B]
 rdma_cm QPs      : OFF
 Data ex. method : Ethernet
--------------------------------------------------------
 local address: LID 0x81 QPN 0x160b3 PSN 0xa072 RKey 0x68010802 VAddr 0x007f184171a000
 GID: 00:00:00:00:00:00:00:00:00:00:255:255:29:26:130:235
 remote address: LID 0x35 QPN 0xc5a0b PSN 0xaa465a RKey 0x20010802 VAddr 0x007f3ca2b9c000
 GID: 00:00:00:00:00:00:00:00:00:00:255:255:29:26:130:185
---------------------------------------------------------------------------------------
 #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]   MsgRate[Mpps]
 Completion with error at client
 Failed status 12: wr_id 0 Syndrom 0x81
scnt=128, ccnt=0
 Failed to complete run_iter_bw function successfully

說明網路不通,需要繼續分析RDMA鏈路,

三、ibv_rc_pingpong不通

報錯:

ibv_rc_pingpong -d mlx5_bond_0 -g 3 29.28.195.228
 local address:  LID 0x0000, QPN 0x01417f, PSN 0x63d7fa, GID ::ffff:29.28.201.21
  remote address: LID 0x0000, QPN 0x00132d, PSN 0x8c0a5b, GID ::ffff:29.28.195.228
Failed status transport retry counter exceeded (12) for wr_id 2
parse WC failed 1

說明網路不通,需要分析IP網路為什么不通,

四、rping不通

報錯1:

rping -c -a 29.28.195.228 -v -C 10
cma event RDMA_CM_EVENT_ADDR_ERROR, error -110
waiting for addr/route resolution state 1

說明地址連不上,需要繼續判斷IP鏈路是否通,

報錯2:

rping -c -a 29.28.197.165 -C 10 -v
cma event RDMA_CM_EVENT_REJECTED, error 8
wait for CONNECTED state 4
connect error -1

這個Reject表示連接被拒絕了,只是單純的因為 rping 作業時需首先啟動一個 server side 行程,然后從 client side 試圖向 server side 發起連接,

所以要先啟動Server端,

rping -s 29.28.201.211 -v

五、ping不通

報錯:

ping 29.28.195.228
PING 29.28.195.228 (29.28.195.228) 56(84) bytes of data.
From 29.28.204.80 icmp_seq=1 Destination Host Unreachable
From 29.28.204.80 icmp_seq=2 Destination Host Unreachable
From 29.28.204.80 icmp_seq=3 Destination Host Unreachable
From 29.28.204.80 icmp_seq=4 Destination Host Unreachable
^C
--- 29.28.195.228 ping statistics ---
5 packets transmitted, 0 received, +4 errors, 100% packet loss, time 4045ms

這個估計就快到根錯誤了,假設交換機連接都是OK的,那基本就是路由設定問題:

可以用

# ip route get 29.28.204.80 from 29.28.201.211
29.28.204.80 from 29.28.201.211 dev enp137s0f0 uid 0

來確認發送報文的網卡是否選擇正確,

如果是「同網段多IB網卡」的情況,如A100 或者 A800服務,帶8個IB網卡,并都在同一個網段,則需要通過策略路由設定「源地址路由」規則來解決各個IP互通的問題,見:《RoCE多網卡時,報文可以過去,但是回不來》

六、ARP表不對

如果ping是通的,但是rping又不通, 那就還要再底層看一看了(你也算天選之子了,跑這么底層定位錯誤),

正常情況,學習到的arp表,一個IP地址對應一個網卡的MAC地址,

如下:

/home/tsj # arp -n | grep 29.28.201.211
29.28.201.211            ether  08:c0:eb:8c:10:6d   C                     enp137s0f1

兩端同時查看,如果發現一個IP地址,學習到的arp記錄有多條不一樣的,說明arp設定不對,

需要

  • 先清空arp表
  • 設定arp應答規則

其中,

(1)清空arp表有2種方式:

  • 指定某個IP清空:
arp -d 192.168.1.1
  • 清空所有arp:(咱們直接執行這個就行)
ip -s -s neigh flush all

(2)設定arp應答規則:

sysctl -w net.ipv4.conf.all.arp_ignore=1
sysctl -w net.ipv4.conf.all.arp_announce=2

意思是只答復對應網卡的arp回應,

設定完后,再ping一次后,確認兩邊學習到的arp表是正確的,

 

點擊關注,第一時間了解華為云新鮮技術~

轉載請註明出處,本文鏈接:https://www.uj5u.com/qita/556044.html

標籤:其他

上一篇:代碼設定錢包(Tron)多簽

下一篇:返回列表

標籤雲
其他(161665) Python(38254) JavaScript(25514) Java(18265) C(15238) 區塊鏈(8273) C#(7972) AI(7469) 爪哇(7425) MySQL(7269) html(6777) 基礎類(6313) sql(6102) 熊猫(6058) PHP(5875) 数组(5741) R(5409) Linux(5347) 反应(5209) 腳本語言(PerlPython)(5129) 非技術區(4971) Android(4606) 数据框(4311) css(4259) 节点.js(4032) C語言(3288) json(3245) 列表(3129) 扑(3119) C++語言(3117) 安卓(2998) 打字稿(2995) VBA(2789) Java相關(2746) 疑難問題(2699) 细绳(2522) 單片機工控(2479) iOS(2437) ASP.NET(2404) MongoDB(2323) 麻木的(2285) 正则表达式(2254) 字典(2211) 循环(2198) 迅速(2185) 擅长(2169) 镖(2155) .NET技术(1985) HtmlCss(1972) 功能(1967) Web開發(1951) C++(1942) python-3.x(1918) 弹簧靴(1913) xml(1889) PostgreSQL(1881) .NETCore(1863) 谷歌表格(1846) Unity3D(1843) for循环(1842)

熱門瀏覽
  • 網閘典型架構簡述

    網閘架構一般分為兩種:三主機的三系統架構網閘和雙主機的2+1架構網閘。 三主機架構分別為內端機、外端機和仲裁機。三機無論從軟體和硬體上均各自獨立。首先從硬體上來看,三機都用各自獨立的主板、記憶體及存盤設備。從軟體上來看,三機有各自獨立的作業系統。這樣能達到完全的三機獨立。對于“2+1”系統,“2”分為 ......

    uj5u.com 2020-09-10 02:00:44 more
  • 如何從xshell上傳檔案到centos linux虛擬機里

    如何從xshell上傳檔案到centos linux虛擬機里及:虛擬機CentOs下執行 yum -y install lrzsz命令,出現錯誤:鏡像無法找到軟體包 前言 一、安裝lrzsz步驟 二、上傳檔案 三、遇到的問題及解決方案 總結 前言 提示:其實很簡單,往虛擬機上安裝一個上傳檔案的工具 ......

    uj5u.com 2020-09-10 02:00:47 more
  • 一、SQLMAP入門

    一、SQLMAP入門 1、判斷是否存在注入 sqlmap.py -u 網址/id=1 id=1不可缺少。當注入點后面的引數大于兩個時。需要加雙引號, sqlmap.py -u "網址/id=1&uid=1" 2、判斷文本中的請求是否存在注入 從文本中加載http請求,SQLMAP可以從一個文本檔案中 ......

    uj5u.com 2020-09-10 02:00:50 more
  • Metasploit 簡單使用教程

    metasploit 簡單使用教程 浩先生, 2020-08-28 16:18:25 分類專欄: kail 網路安全 linux 文章標簽: linux資訊安全 編輯 著作權 metasploit 使用教程 前言 一、Metasploit是什么? 二、準備作業 三、具體步驟 前言 Msfconsole ......

    uj5u.com 2020-09-10 02:00:53 more
  • 游戲逆向之驅動層與用戶層通訊

    驅動層代碼: #pragma once #include <ntifs.h> #define add_code CTL_CODE(FILE_DEVICE_UNKNOWN,0x800,METHOD_BUFFERED,FILE_ANY_ACCESS) /* 更多游戲逆向視頻www.yxfzedu.com ......

    uj5u.com 2020-09-10 02:00:56 more
  • 北斗電力時鐘(北斗授時服務器)讓網路資料更精準

    北斗電力時鐘(北斗授時服務器)讓網路資料更精準 北斗電力時鐘(北斗授時服務器)讓網路資料更精準 京準電子科技官微——ahjzsz 近幾年,資訊技術的得了快速發展,互聯網在逐漸普及,其在人們生活和生產中都得到了廣泛應用,并且取得了不錯的應用效果。計算機網路資訊在電力系統中的應用,一方面使電力系統的運行 ......

    uj5u.com 2020-09-10 02:01:03 more
  • 【CTF】CTFHub 技能樹 彩蛋 writeup

    ?碎碎念 CTFHub:https://www.ctfhub.com/ 筆者入門CTF時時剛開始刷的是bugku的舊平臺,后來才有了CTFHub。 感覺不論是網頁UI設計,還是題目質量,賽事跟蹤,工具軟體都做得很不錯。 而且因為獨到的金幣制度的確讓人有一種想去刷題賺金幣的感覺。 個人還是非常喜歡這個 ......

    uj5u.com 2020-09-10 02:04:05 more
  • 02windows基礎操作

    我學到了一下幾點 Windows系統目錄結構與滲透的作用 常見Windows的服務詳解 Windows埠詳解 常用的Windows注冊表詳解 hacker DOS命令詳解(net user / type /md /rd/ dir /cd /net use copy、批處理 等) 利用dos命令制作 ......

    uj5u.com 2020-09-10 02:04:18 more
  • 03.Linux基礎操作

    我學到了以下幾點 01Linux系統介紹02系統安裝,密碼啊破解03Linux常用命令04LAMP 01LINUX windows: win03 8 12 16 19 配置不繁瑣 Linux:redhat,centos(紅帽社區版),Ubuntu server,suse unix:金融機構,證券,銀 ......

    uj5u.com 2020-09-10 02:04:30 more
  • 05HTML

    01HTML介紹 02頭部標簽講解03基礎標簽講解04表單標簽講解 HTML前段語言 js1.了解代碼2.根據代碼 懂得挖掘漏洞 (POST注入/XSS漏洞上傳)3.黑帽seo 白帽seo 客戶網站被黑帽植入劫持代碼如何處理4.熟悉html表單 <html><head><title>TDK標題,描述 ......

    uj5u.com 2020-09-10 02:04:36 more
最新发布
  • 6個常見的IB網路不通問題

    摘要:如果遇到IB網路不通,可以試著從高層往底層逐步分析看看。 本文分享自華為云社區《常見IB網路不通問題記錄》,作者: tsjsdbd 。 如果遇到IB網路不通,可以試著從高層往底層逐步分析看看。僅記錄下,供難友參考: 一、NCCL不通 報錯: machine-19: [0] transport/ ......

    uj5u.com 2023-06-27 08:14:47 more
  • 代碼設定錢包(Tron)多簽

    經常有人問我多簽代碼怎么寫,官網有很多資料,都是稀里糊涂的沒有完整的例子,而且也沒有C#的例子,最近剛好有需求就自己動手寫了。 ### 代碼 ```C# //封裝 private static async Task AccountPermissionUpdateAsync(string privat ......

    uj5u.com 2023-06-27 08:14:43 more
  • 從校園到職場,教你快速完成角色轉化

    隨著作者作業年限的增長,因為經歷的多、思考的多和總結的多,慢慢積累了一些自認為有價值的觀點,希望對剛畢業進入職場的同學們有所幫助。 ......

    uj5u.com 2023-06-27 08:14:36 more
  • 磐舟磐基平臺:基于KubeEdge的落地實踐

    摘要:實作統一管理、簡化多集群的運維系統、減少運營成本;同時也成功將前面提到的500臺鯤鵬服務器以及它上面的BC Linux for Euler集群納入磐基PaaS平臺的大家庭之中,運維效率大幅增加。 本文分享自華為云社區《中國移動:磐舟磐基平臺 基于KubeEdge的落地實踐》,作者:中國移動磐舟 ......

    uj5u.com 2023-06-27 08:14:20 more
  • 量化投資中的擇時研究

    在進行量化投資策略的研究時,我們通常會基于不同的原則來進行分類,其中包括:根據均線進行擇時、根據估值進行擇時、以及根據策略回撤進行擇時。

    這三種策略各有特點,也各自適用于不同的市場環境和投資風格。例如,根據均線擇時的策略主要關注價格趨勢,以確定最佳的買入和賣出時機;根據估值擇時則主要基于公司的基本... ......

    uj5u.com 2023-06-27 08:14:11 more
  • 人人都能生成火爆全網的最不像二維碼的二維碼

    最近有人展示了使用 Stable Diffusion 創建的藝術二維碼。這些二維碼是使用定制訓練的 ControlNet模型生成的。 但是操作門檻有點高。 你需要 GPU,還需要學習如何使用 Stable Diffusion。 現在有一款非常無腦的產品,使用這個產品來創建藝術二維碼,**最大的門檻就 ......

    uj5u.com 2023-06-27 08:13:37 more
  • 自然語言處理 Paddle NLP - 結構化資料問答-理論

    NLP問答任務 相似度和規則匹配,都是早期的方法,現在主流的方法,都是基于生成的方法 結構化資料問答,有兩種形式,一種是知識圖譜形式、一種是關系型資料庫形式。 ![image](https://img2023.cnblogs.com/blog/80824/202306/80824-202306130 ......

    uj5u.com 2023-06-27 08:12:24 more
  • 大模型微調技術LoRA與QLoRA

    LoRA: Low-Rank Adaptation of Large Language Models 動機 大模型的引數量都在100B級別,由于算力的吃緊,在這個基礎上進行所有引數的微調變得不可能。LoRA正是在這個背景下提出的解決方案。 原理 雖然模型的引數眾多,但其實模型主要依賴低秩維度的內容( ......

    uj5u.com 2023-06-27 08:11:54 more
  • 人人都能生成火爆全網的最不像二維碼的二維碼

    最近有人展示了使用 Stable Diffusion 創建的藝術二維碼。這些二維碼是使用定制訓練的 ControlNet模型生成的。 但是操作門檻有點高。 你需要 GPU,還需要學習如何使用 Stable Diffusion。 現在有一款非常無腦的產品,使用這個產品來創建藝術二維碼,**最大的門檻就 ......

    uj5u.com 2023-06-27 08:11:18 more
  • 如何創建Windows 10 虛擬機

    一 ,新建Windows 10 虛擬機 1.1 創建新的虛擬機 1,點擊創建新的虛擬機 2,選擇典型,點擊下一步 3,選擇稍后安裝作業系統,點擊下一步。 4,作業系統選擇windwos,版本選著Windows10 x64,點擊下一步 5,可以選擇想要給虛擬機的命名,位置選擇想要放置的盤符位置,點擊下 ......

    uj5u.com 2023-06-27 08:10:03 more