Mellanox&nvidia ib高速网络常用命令总结
技术瘾君子1573 2024-08-23 10:07:03 阅读 79
1.spci:检查本地的pci设备。示例:lspci| grep -i mell
2.ofed_info:检测ofed驱动版本。示例:ofed_info-s
3.ibstat:查看本机的ib网卡状态。
4.mst:mellnoax软件管理工具。用来生成IB设备描述符。提供给其他命令使用。示例:mststart
5.mlnx_perf :可以查看端口的收发流量。
-i:选项接ib设备名称,ib0,ib1...
-t:每隔多久采集一次,单位s
-c:采集多少次。
6.smpquery:可以根据LID号,GUID号,Direct路径获取到节点详细信息。-D选项,当ib某些节点超时的时候,还有opensm日志提示报错通常通过直接路径报出来,而需要这个参数选项去追踪是哪个节点提示该种错误,方便定位问题。
7.ibswitches:获取当前子网的所有交换机的信息。显示子网内所有识别到的交换机的GUID、端口数量、交换机名字、LID号等等。
8.ibhosts:获取当前子网的所有HCA的信息。显示子网内所有识别到的HCA的GUID、端口数量、交换机名字、LID号等等。
9.ibnodes:获取当前子网的所有交换机和HCA的信息。显示子网内所有识别到的交换机和HCA的GUID、端口数量、交换机名字、LID号等等。相当于ibhosts和ibswirchs命令的合并。
10.ibnetdiscover:扫描当前网络中的IB设备。输出内容包括GUID、端口号、LID号和节点描述以及交换机和HCA卡的连接关系。
11.iblinkinfo:检查网络拓扑是否按照最初规划的网络准确并连接正常,使用iblinkinfo,可以观察到所有节点和交换机的端口连接情况。该交换机SW200总计有41个端口,第41个端口虚拟出来用来进行sheild功能,实际不存在物理端口。第一列至最后一列是本端交换机LID端口号,with,速率,状态,物理状态,对端LID号,对端端口号,对端名字。
查看单个交换机的端口状态。示例:iblinkinfo-S 0x1c34da0300608344。
查看该计算节点上联交换机的端口连接状态。示例:iblinkinfo-D 0,1
12.ibdiagnet:该指令扫描整个网络,诊断设备和网络连接状态,并生成报告。
示例:查看误码率,ibdiagnet --pc--get_phy_info
ibdiagnet.log : 全部应用信息报告
ibdiagnet.lst : 网络所有节点、端口和链路信息列表
ibdiagnet.fdbs :网络全部交换机的单播转发表
ibdiagnet.mcfdbs :网络全部交换机的多播转发表
ibdiagnet.masks :重复GUID端口、节点掩码表
ibdiagnet.sm :网络所有子网管理器SM列表
ibdiagnet.pm : 网络链路的性能管理器计数器信息
ibdiagnet.pkey :分区信息和成员主机端口信息
ibdiagnet.mcg :多播组属性,成员主机端口信息
ibdiagnet.db : 内部子网数据库信息
13.ibtracecert:根据GID或者LID,来追踪源地址到目标地址的每条的详细的节点信息。
14.sminfo:获取当前节点的子网管理器的信息。禁止批量执行该命令,会引起opensm服务异常。
15.saquery:查看子网内的子网管理器。
16.mget_temp:获取网卡或交换机的温度。
17.mlxlink:用于检查和调式连接状态以及与之相关的问题。
注意:Speed:表示当前网卡支持的最大带宽速率。
注意:EnabledLink Speed:表示当前网卡支持的协商速率。
注意:SupportCable Speed:表示与 IB 交换模块连接的线缆支持的协商速率(红色字体表示为内部连接无cable)
注意:该命令比较常用,可以用来检查端口的误码率(-c)和光口的温度(-m)、线缆长度等等。
18.ibqueryerrors:报告链路、端口误码率、重传次数等计数器报错信息。
示例:ibqueryerrors-S 0x1c34da03006082a4
19.ibportstate:来管理交换机的端口,enable、reset、disable等等。如果交换机的端口disable了,连对端卡的状态就是polling。
示例:ibportstate 127 37enable # 启动lid为127的交换机的37号端口。
示例:ibportstate 12737 #查看lid为127的交换机的37号端口。
20.perfquery:查看端口计数器,主要用来排错。
示例:perfquery32 2:显示lid号为32的设备的2号端口的计数器。
示例:perfquery-l 26 1-10 -r:分别显示lid号为26的设备的1-10号端口的计数器。
-r:读取指定的端口计数器之后,重新开始计数。
-l:显示每一个端口的数据
-a:将所有端口,数据汇聚后,展示。
21.ib_send_bw:测试两个节点的带宽。常用参数
-a:Runsizes from 2 till 2^23
-c:指定连接类型。RC面向连接的可靠服务。UC面向连接的不可靠服务。UD面向数据包的不可靠服务。
-F:表示屏蔽掉CPU频率相关的提示信息。有时候CPU不到最大频率,会有提示信息。
-d:表示卡的id。
-i:指定网卡的端口
服务端: ib_send_bw -a -cUD -F -d mlx5_0
客户端: ib_send_bw -a -cUD -F -d mlx5_0 11.4.3.19
22.ib_send_lat:测试两个节点的延迟,用法类似。
声明
本文内容仅代表作者观点,或转载于其他网站,本站不以此文作为商业用途
如有涉及侵权,请联系本站进行删除
转载本站原创文章,请注明来源及作者。