• 欢迎使用千万蜘蛛池,网站外链优化,蜘蛛池引蜘蛛快速提高网站收录,收藏快捷键 CTRL + D

b站给的链接怎么用不了(哔哩哔哩有网但是加载不出来界面)


本文分享自华为云社区《 常见IB网络不通问题记录-云社区-华为云 》,作者: tsjsdbd 。

如果遇到IB网络不通,可以试着从高层往底层逐步分析看看。仅记录下,供难友参考:

报错:

原因:错误12,说明RDMA网络不通。

需要分析底层网络为什么不通。

比如:

如果是(2)这种偶现不通的话,可以参考pfc设置规则:《 为什么华为云上AI训练必须设置NCCL_IB_TC=128-云社区-华为云

报错1:

报错2:

说明网络不通,需要继续分析RDMA链路。

报错:

说明网络不通,需要分析IP网络为什么不通。

报错1:

说明地址连不上,需要继续判断IP链路是否通。

报错2:

这个Reject表示连接被拒绝了。只是单纯的因为 rping 工作时需首先启动一个 server side 进程,然后从 client side 试图向 server side 发起连接。

所以要先启动Server端。

报错:

这个估计就快到根错误了,假设交换机连接都是OK的。那基本就是路由设置问题:

可以用

来确认发送报文的网卡是否选择正确。

如果是「同网段多IB网卡」的情况,如A100 或者 A800服务,带8个IB网卡,并都在同一个网段。则需要通过策略路由设置「源地址路由」规则来解决各个IP互通的问题。见:《 《跟唐老师学习云网络》 - RoCE多网卡时,报文可以过去,但是回不来-云社区-华为云

如果ping是通的,但是rping又不通。 那就还要再底层看一看了(你也算天选之子了,跑这么底层定位错误)。

正常情况,学习到的arp表,一个IP地址对应一个网卡的MAC地址。

如下:

两端同时查看,如果发现一个IP地址,学习到的arp记录有多条不一样的,说明arp设置不对。

需要

其中,

(1)清空arp表有2种方式:

(2)设置arp应答规则:

意思是只答复对应网卡的arp响应。

设置完后,再ping一次后,确认两边学习到的arp表是正确的。

关注 #华为云开发者联盟# 点击下方,第一时间了解华为云新鲜技术~

华为云博客_大数据博客_AI博客_云计算博客_开发者中心-华为云

#程序员# #科技# #科普#

本文链接:https://www.24zzc.com/news/169466444233983.html

相关文章推荐

    无相关信息