OpenAI 聯手 NVIDIA、AMD、微軟推出「MRC 網路協議」：徹底解決十萬級 GPU 訓練塞車問題

本文目錄

在前沿 AI 模型的軍備競賽中，算力的瓶頸往往不在於 GPU 本身，而在於如何讓成千上萬張 GPU 「完美同步」地交換數據。

2026 年 5 月 5 日，OpenAI 發布了一項震撼科技圈的基礎設施更新：他們與 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 等晶片與雲端巨頭聯手，成功開發出名為「MRC（Multipath Reliable Connection，多路徑可靠連接）」的網路協議，並已透過開放運算計畫（OCP）將規格開源給全產業。

大模型訓練的致命傷：一個封包卡住，全網停擺

OpenAI 在公告中指出，前沿模型的訓練高度依賴 GPU 之間極速且可靠的資料傳輸。在傳統網路架構下，只要一個資料包發生延遲或設備故障，就會導致整個同步訓練步驟卡住，讓昂貴的 GPU 陷入閒置。過去，單一連結的故障經常導致訓練中斷、被迫重新啟動，或是花費大量時間等待路由重新計算，成本極其高昂。

為了解決這個隨著叢集規模擴大（如傳聞中的 Stargate 星際之門超級電腦）而日益嚴重的問題，OpenAI 決定從根本上重新設計網路層。

MRC 的三大核心設計創新

MRC 協議透過三項顛覆性的底層架構改動，實現了超低延遲與極高的容錯率：

多平面（Multi-plane）網路拓撲：將高達 800Gb/s 的網路介面拆分為多個較小連結（例如 8 個 100Gb/s），連接至不同的交換器形成平行「平面」。這使得系統只需 2 層交換器就能連接超過 10 萬個 GPU（傳統架構需 3-4 層），大幅降低了建置成本、功耗與元件數量。
適應性封包噴灑（Adaptive Packet Spraying）：有別於傳統單一傳輸只走一條路徑的壅塞風險，MRC 會將封包分散到數百條路徑上。系統具備「動態負載平衡」，偵測到壅塞就自動切換；若交換器過載，則啟動「封包修剪（Packet Trimming）」僅轉發標頭以觸發快速重傳，有效減少誤判。
靜態源路由（SRv6 Source Routing）取代動態路由：大膽停用傳統的 BGP 動態路由協議，改由發送端直接在封包中嵌入完整路徑。交換器只需無腦遵循靜態轉發表，消除複雜的動態故障。當故障發生時，MRC 能在「微秒級別」繞過壞路徑，讓訓練作業幾乎毫無感覺。

已部署於全球最大 GB200 超級電腦

這項技術並非紙上談兵。OpenAI 證實，MRC 目前已全面部署在其所有最大型的 NVIDIA GB200 超級電腦上，包括與甲骨文（Oracle Cloud）在德州 Abilene 合作的站點，以及微軟的 Fairwater 超級電腦中，並正用於訓練多個下一代前沿大模型。OpenAI 強調：

「在生產環境中，即使每分鐘有多個連結發生抖動，或是需要重啟第一層交換器，訓練作業也幾乎不受影響，不再需要特別協調維護時間。」

OpenAI 聯手 NVIDIA、AMD、微軟推出「MRC 網路協議」：徹底解決十萬級 GPU 訓練塞車問題

大模型訓練的致命傷：一個封包卡住，全網停擺

MRC 的三大核心設計創新

已部署於全球最大 GB200 超級電腦

相關報導