中金:国内AI算力基础设施建设加速推进 国产高速互连网络体系正步入破局期

AI算力集群正加速向万卡、十万卡级规模迭代,高速互连网络作为“神经枢纽”,成为影响集群有效算力释放的关键环节。

智通财经APP获悉,中金发布研报称,AI算力集群正加速向万卡、十万卡级规模迭代,高速互连网络作为“神经枢纽”,成为影响集群有效算力释放的关键环节。当前智算场景的高速互连网络生态主要由InfiniBand(IB)、RoCE v2为主,核心技术与生态长期由海外厂商主导。随着国内AI算力基础设施建设加速推进,国产高速互连网络体系正步入破局期,国产RDMA高速互连网络有望从底层架构和自研硬件切入,推动国内算力基础设施在互联层面逐步实现国产替代,建议关注国产算力产业链。

中金主要观点如下:

RDMA是实现高性能AI网络的重要技术路径

RDMA的核心特征在于“内核旁路”与“零拷贝”,能够绕过主机的操作系统内核与CPU调度,直接对远端服务器的内存区域进行读写操作,可大幅降低通信时延并减少CPU资源占用。目前主流RDMA方案包含IB、RoCE、iWARP三种,IB是专为RDMA设计的原生网络,端到端无损性能表现最优;RoCE将RDMA架构应用于以太网生态中,RoCE v2依赖优先流量控制和显式拥塞通知等流控机制进行网络调优,在传统有损以太网中模拟出无损传输的效果。

scale Fabric支撑国产万卡级算力集群规模化落地

在海外厂商主导高端互连网络生态的背景下,国产高速互连RDMA网络正逐步实现突破,国产替代进程加速。中科曙光推出的scale Fabric是国内自研的400G原生无损RDMA高速互连网络架构,沿用与InfiniBand一致的信用流控及链路层重传机制,依托于类IB的原生RDMA网卡和交换芯片,实现400Gb/s超高带宽、低于1 微秒端侧通信延迟和无损传输。目前scale Fabric作为国产万卡智算集群落地的网络基石,已支撑scaleX万卡超集群规模化落地,有望助力大规模国产算力集群进入加速部署阶段。

标的方面

建议关注中科曙光(603019.SH)。

风险因素

国产算力互连生态成熟度不及预期;国产算力建设不及预期。

智通声明:本内容为作者独立观点,不代表智通财经立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。更多最新最全港美股资讯,请点击下载智通财经App
分享
微信
分享
QQ
分享
微博
收藏
相关阅读