OpenAI 聯手 NVIDIA、AMD、微軟推出「MRC 網路協議」:徹底解決十萬級 GPU 訓練塞車問題

前沿 AI 模型的軍備競賽中,算力的瓶頸往往不在於 GPU 本身,而在於如何讓成千上萬張 GPU 「完美同步」地交換數據。

2026 年 5 月 5 日,OpenAI 發布了一項震撼科技圈的基礎設施更新:他們與 AMD、Broadcom、Intel、Microsoft 以及 NVIDIA 等晶片與雲端巨頭聯手,成功開發出名為「MRC(Multipath Reliable Connection,多路徑可靠連接)」的網路協議,並已透過開放運算計畫(OCP)將規格開源給全產業。

大模型訓練的致命傷:一個封包卡住,全網停擺

OpenAI 在公告中指出,前沿模型的訓練高度依賴 GPU 之間極速且可靠的資料傳輸。在傳統網路架構下,只要一個資料包發生延遲或設備故障,就會導致整個同步訓練步驟卡住,讓昂貴的 GPU 陷入閒置。過去,單一連結的故障經常導致訓練中斷、被迫重新啟動,或是花費大量時間等待路由重新計算,成本極其高昂。

為了解決這個隨著叢集規模擴大(如傳聞中的 Stargate 星際之門超級電腦)而日益嚴重的問題,OpenAI 決定從根本上重新設計網路層。

MRC 的三大核心設計創新

MRC 協議透過三項顛覆性的底層架構改動,實現了超低延遲與極高的容錯率:

  • 多平面(Multi-plane)網路拓撲:將高達 800Gb/s 的網路介面拆分為多個較小連結(例如 8 個 100Gb/s),連接至不同的交換器形成平行「平面」。這使得系統只需 2 層交換器就能連接超過 10 萬個 GPU(傳統架構需 3-4 層),大幅降低了建置成本、功耗與元件數量。
  • 適應性封包噴灑(Adaptive Packet Spraying):有別於傳統單一傳輸只走一條路徑的壅塞風險,MRC 會將封包分散到數百條路徑上。系統具備「動態負載平衡」,偵測到壅塞就自動切換;若交換器過載,則啟動「封包修剪(Packet Trimming)」僅轉發標頭以觸發快速重傳,有效減少誤判。
  • 靜態源路由(SRv6 Source Routing)取代動態路由:大膽停用傳統的 BGP 動態路由協議,改由發送端直接在封包中嵌入完整路徑。交換器只需無腦遵循靜態轉發表,消除複雜的動態故障。當故障發生時,MRC 能在「微秒級別」繞過壞路徑,讓訓練作業幾乎毫無感覺。

已部署於全球最大 GB200 超級電腦

這項技術並非紙上談兵。OpenAI 證實,MRC 目前已全面部署在其所有最大型的 NVIDIA GB200 超級電腦上,包括與甲骨文(Oracle Cloud)在德州 Abilene 合作的站點,以及微軟的 Fairwater 超級電腦中,並正用於訓練多個下一代前沿大模型。OpenAI 強調:

「在生產環境中,即使每分鐘有多個連結發生抖動,或是需要重啟第一層交換器,訓練作業也幾乎不受影響,不再需要特別協調維護時間。」

加入動區 Telegram 頻道

📍相關報導📍

OpenAI 手機量產時間提前至 2027,傳出聯發科獨吞處理器訂單

OpenAI花 5000 鎂請KOL拍「中國AI威脅個資」,企圖影響 2026 AI 監管

馬斯克訴訟 Openai 首週,結果最大的瓜是承認 xAI 蒸餾 ChatGPT

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論