OpenAI 联手 NVIDIA、AMD、微软推出「MRC 网路协议」：彻底解决十万级 GPU 训练塞车问题

本文目录

在前沿 AI 模型的军备竞赛中，算力的瓶颈往往不在于 GPU 本身，而在于如何让成千上万张 GPU 「完美同步」地交换数据。

2026 年 5 月 5 日，OpenAI 发布了一项震撼科技圈的基础设施更新：他们与 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 等晶片与云端巨头联手，成功开发出名为「MRC（Multipath Reliable Connection，多路径可靠连接）」的网路协议，并已透过开放运算计划（OCP）将规格开源给全产业。

大模型训练的致命伤：一个封包卡住，全网停摆

OpenAI 在公告中指出，前沿模型的训练高度依赖 GPU 之间极速且可靠的资料传输。在传统网路架构下，只要一个资料包发生延迟或设备故障，就会导致整个同步训练步骤卡住，让昂贵的 GPU 陷入闲置。过去，单一连结的故障经常导致训练中断、被迫重新启动，或是花费大量时间等待路由重新计算，成本极其高昂。

为了解决这个随著丛集规模扩大（如传闻中的 Stargate 星际之门超级电脑）而日益严重的问题，OpenAI 决定从根本上重新设计网路层。

MRC 的三大核心设计创新

MRC 协议透过三项颠覆性的底层架构改动，实现了超低延迟与极高的容错率：

多平面（Multi-plane）网路拓扑：将高达 800Gb/s 的网路介面拆分为多个较小连结（例如 8 个 100Gb/s），连接至不同的交换器形成平行「平面」。这使得系统只需 2 层交换器就能连接超过 10 万个 GPU（传统架构需 3-4 层），大幅降低了建置成本、功耗与元件数量。
适应性封包喷洒（Adaptive Packet Spraying）：有别于传统单一传输只走一条路径的壅塞风险，MRC 会将封包分散到数百条路径上。系统具备「动态负载平衡」，侦测到壅塞就自动切换；若交换器过载，则启动「封包修剪（Packet Trimming）」仅转发标头以触发快速重传，有效减少误判。
静态源路由（SRv6 Source Routing）取代动态路由：大胆停用传统的 BGP 动态路由协议，改由发送端直接在封包中嵌入完整路径。交换器只需无脑遵循静态转发表，消除复杂的动态故障。当故障发生时，MRC 能在「微秒级别」绕过坏路径，让训练作业几乎毫无感觉。

已部署于全球最大 GB200 超级电脑

这项技术并非纸上谈兵。OpenAI 证实，MRC 目前已全面部署在其所有最大型的 NVIDIA GB200 超级电脑上，包括与甲骨文（Oracle Cloud）在德州 Abilene 合作的站点，以及微软的 Fairwater 超级电脑中，并正用于训练多个下一代前沿大模型。OpenAI 强调：

「在生产环境中，即使每分钟有多个连结发生抖动，或是需要重启第一层交换器，训练作业也几乎不受影响，不再需要特别协调维护时间。」

OpenAI 联手 NVIDIA、AMD、微软推出「MRC 网路协议」：彻底解决十万级 GPU 训练塞车问题

大模型训练的致命伤：一个封包卡住，全网停摆

MRC 的三大核心设计创新

已部署于全球最大 GB200 超级电脑

相关报导