OpenAI 联手 NVIDIA、AMD、微软推出「MRC 网路协议」:彻底解决十万级 GPU 训练塞车问题

前沿 AI 模型的军备竞赛中,算力的瓶颈往往不在于 GPU 本身,而在于如何让成千上万张 GPU 「完美同步」地交换数据。

2026 年 5 月 5 日,OpenAI 发布了一项震撼科技圈的基础设施更新:他们与 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 等晶片与云端巨头联手,成功开发出名为「MRC(Multipath Reliable Connection,多路径可靠连接)」的网路协议,并已透过开放运算计划(OCP)将规格开源给全产业。

大模型训练的致命伤:一个封包卡住,全网停摆

OpenAI 在公告中指出,前沿模型的训练高度依赖 GPU 之间极速且可靠的资料传输。在传统网路架构下,只要一个资料包发生延迟或设备故障,就会导致整个同步训练步骤卡住,让昂贵的 GPU 陷入闲置。过去,单一连结的故障经常导致训练中断、被迫重新启动,或是花费大量时间等待路由重新计算,成本极其高昂。

为了解决这个随著丛集规模扩大(如传闻中的 Stargate 星际之门超级电脑)而日益严重的问题,OpenAI 决定从根本上重新设计网路层。

MRC 的三大核心设计创新

MRC 协议透过三项颠覆性的底层架构改动,实现了超低延迟与极高的容错率:

  • 多平面(Multi-plane)网路拓扑:将高达 800Gb/s 的网路介面拆分为多个较小连结(例如 8 个 100Gb/s),连接至不同的交换器形成平行「平面」。这使得系统只需 2 层交换器就能连接超过 10 万个 GPU(传统架构需 3-4 层),大幅降低了建置成本、功耗与元件数量。
  • 适应性封包喷洒(Adaptive Packet Spraying):有别于传统单一传输只走一条路径的壅塞风险,MRC 会将封包分散到数百条路径上。系统具备「动态负载平衡」,侦测到壅塞就自动切换;若交换器过载,则启动「封包修剪(Packet Trimming)」仅转发标头以触发快速重传,有效减少误判。
  • 静态源路由(SRv6 Source Routing)取代动态路由:大胆停用传统的 BGP 动态路由协议,改由发送端直接在封包中嵌入完整路径。交换器只需无脑遵循静态转发表,消除复杂的动态故障。当故障发生时,MRC 能在「微秒级别」绕过坏路径,让训练作业几乎毫无感觉。

已部署于全球最大 GB200 超级电脑

这项技术并非纸上谈兵。OpenAI 证实,MRC 目前已全面部署在其所有最大型的 NVIDIA GB200 超级电脑上,包括与甲骨文(Oracle Cloud)在德州 Abilene 合作的站点,以及微软的 Fairwater 超级电脑中,并正用于训练多个下一代前沿大模型。OpenAI 强调:

「在生产环境中,即使每分钟有多个连结发生抖动,或是需要重启第一层交换器,训练作业也几乎不受影响,不再需要特别协调维护时间。」

加入动区 Telegram 频道

📍相关报导📍

OpenAI 手机量产时间提前至 2027,传出联发科独吞处理器订单

OpenAI花 5000 镁请KOL拍「中国AI威胁个资」,企图影响 2026 AI 监管

马斯克诉讼 Openai 首周,结果最大的瓜是承认 xAI 蒸馏 ChatGPT

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
收藏
评论