Mellanox网卡支持AI网络:RoCE协议应用进展

2025-10-10 技术视角

在AI网络飞速发展的当下,Mellanox网卡凭借对RoCE协议的支持,在AI领域发挥着越来越重要的作用。RoCE协议即基于以太网的远程直接内存访问协议,能让数据在网络中直接传输到目标内存,大幅减少CPU参与,提高数据传输效率。下面我们就来详细探讨一下Mellanox网卡支持AI网络的RoCE协议应用进展及性能优势。

一、Mellanox网卡支持AI网络:RoCE协议应用进展如何

在AI训练场景中,RoCE协议应用广泛。以前AI训练多集中于超算中心,如今随着技术发展逐渐走向泛化智算。企业出于成本以及网络架构开放性、灵活扩展性的考虑,RoCE协议成为与InfiniBand竞争的解决方案。

以数据中心为例,很多数据中心在进行AI模型训练时,采用了Mellanox支持RoCE协议的网卡,如Mellanox ConnectX-6 Dx,配合RoCEv2协议,能实现服务器之间的高速数据传输,每服务器配置8×100G RoCEv2智能网卡,可支持GPUDirect RDMA技术,让显存直连网络从而降低时延。

在一些高校和科研机构的AI研究中,也开始广泛应用RoCE协议。如清华大学的某AI科研项目,利用Mellanox网卡的RoCE协议,将端到端通信延迟降至微秒级,大大提高了AI算法的训练速度。

二、Mellanox网卡RoCE协议在AI网络中的性能优势有哪些

低延迟:RoCE协议通过将RDMA技术融入以太网架构,能将端到端通信延迟降至微秒级。在AI训练中,数据的快速传输至关重要,低延迟可以让各个计算节点之间快速交互数据,例如在进行图像识别的AI训练时,能使不同服务器上的图像数据快速传输到需要处理的节点,提高训练效率。

高带宽利用率:RoCE协议可以使带宽利用率提升至90%以上。在AI的数据处理中,往往需要传输大量的数据,如在自然语言处理中,处理大规模的文本数据,高带宽利用率能保证数据快速传输,避免数据堵塞,使得AI模型能够及时获取所需数据进行训练。

降低CPU占用率:RoCE协议可以将TCP/IP协议处理任务卸载至专用硬件,也就是支持RoCE的Mellanox智能网卡,从而释放CPU算力用于业务计算。在AI计算中,CPU需要处理大量的算法和数据,通过RoCE协议卸载任务,能让CPU更专注于核心的AI计算任务,提升整体性能。

扫我了解更多

扫我了解更多

留言咨询
咨询电话:13537522009 咨询微信:13537522009
立即询价