OpenAI는 NVIDIA, AMD, Microsoft와 협력하여 수십만 개의 GPU를 사용한 학습에서 발생하는 병목 현상 문제를 완전히 해결하는 "MRC 네트워크 프로토콜"을 출시했습니다.

이 기사는 기계로 번역되었습니다

원문 표시

최첨단 AI 모델 경쟁 에서 해시레이트 의 병목 현상은 종종 GPU 자체에 있는 것이 아니라 수천 개의 GPU가 "완벽하게 동기화"된 상태로 데이터를 교환하도록 하는 방법에 있습니다.

2026년 5월 5일, OpenAI는 기술계를 뒤흔드는 획기적인 인프라 업데이트를 발표했습니다 . AMD, Broadcom, Intel, Microsoft, NVIDIA와 같은 칩 및 클라우드 업계의 거물들과 협력하여 "MRC(Multipath Reliable Connection)"라는 네트워크 프로토콜을 성공적으로 개발하고, 해당 사양을 오픈 컴퓨팅 프로젝트(OCP)를 통해 업계 전체에 공개한 것입니다.

대규모 모델 학습의 치명적인 결함: 단 하나의 패킷 걸림 현상으로 전체 네트워크가 마비될 수 있다.

OpenAI는 발표에서 최첨단 모델 학습은 GPU 간의 매우 빠르고 안정적인 데이터 전송에 크게 의존한다고 지적했습니다. 기존 네트워크 아키텍처에서는 단일 데이터 패킷 지연이나 장치 오류로 인해 전체 동기식 학습 프로세스가 중단되어 고가의 GPU가 유휴 상태가 될 수 있습니다. 과거에는 단일 연결 실패로 인해 학습이 중단되거나, 강제로 재시작하거나, 경로 재계산을 위해 대량 시간을 기다려야 하는 경우가 많아 막대한 비용이 발생했습니다.

(소문으로만 떠도는 스타게이트 슈퍼컴퓨터처럼) 클러스터 규모가 커짐에 따라 증가하는 이러한 문제를 해결하기 위해 OpenAI는 네트워크 계층을 근본적으로 재설계하기로 결정했습니다.

MRC의 세 가지 핵심 설계 혁신

MRC 프로토콜은 세 가지 획기적인 기본 아키텍처 변경을 통해 초저지연 및 매우 높은 내결함성을 달성합니다.

멀티플레인 네트워크 토폴로지: 이 방식은 최대 800Gb/s 속도의 네트워크 인터페이스를 여러 개의 작은 연결(예: 8개의 100Gb/s 연결)로 분할하고, 이를 서로 다른 스위치에 연결하여 병렬 "플레인"을 구성하는 것입니다. 이를 통해 시스템은 단 2개의 스위치 계층(기존 아키텍처는 3~4개 계층 필요)만으로 10만 개 이상의 GPU를 연결할 수 있어 구축 비용, 전력 소비 및 구성 요소 수를 크게 줄일 수 있습니다.
적응형 패킷 스프레이: 혼잡 리스크 기존의 단일 경로 전송 방식과 달리, MRC는 패킷을 수백 개의 경로에 분산합니다. 이 시스템은 "동적 부하 분산" 기능을 통해 혼잡이 감지되면 자동으로 경로를 전환합니다. 스위치에 과부하가 걸리면 "패킷 트리밍"을 수행하여 헤더만 전달하고 빠른 재전송을 유도함으로써 오탐을 효과적으로 줄입니다.
정적 소스 라우팅(SRv6)은 동적 라우팅을 대체합니다. 기존의 BGP 동적 라우팅 프로토콜을 과감하게 버리고, 송신자가 패킷에 전체 경로를 직접 포함할 수 있도록 합니다. 스위치는 정적 포워딩 테이블을 따르기만 하면 되므로 복잡한 동적 오류 처리가 필요 없습니다. 오류가 발생하더라도 MRC는 "마이크로초" 단위 로 잘못된 경로를 우회할 수 있어 교육 작업에 거의 영향을 미치지 않습니다.

세계 최대 규모의 GB200 슈퍼컴퓨터에 배포됨

이 기술은 더 이상 이론적인 것이 아닙니다. OpenAI는 MRC가 텍사스주 아빌린에 있는 오라클 클라우드와의 파트너십 사이트와 마이크로소프트의 페어워터 슈퍼컴퓨터를 포함한 모든 최대 규모의 NVIDIA GB200 슈퍼컴퓨터 에 완전히 배포되었으며, 여러 차세대 최첨단 대형 모델을 학습하는 데 사용되고 있다고 확인했습니다. OpenAI는 다음과 같이 강조합니다.

"실제 운영 환경에서는 여러 연결이 매분 불안정해지거나 1계층 스위치를 재시작해야 하는 경우에도 교육 작업은 거의 영향을 받지 않으며, 더 이상 유지보수 시간을 특별히 조정할 필요가 없습니다."

OpenAI는 2026년 AI 규제에 영향을 미치기 위해 "중국 AI가 개인 데이터를 위협한다"라는 제목의 기사를 제작할 KOL(핵심 오피니언 리더)을 고용하는 데 5,000달러를 지출했습니다.

머스크가 오픈AI를 상대로 소송을 제기한 첫 주에 가장 큰 파장을 일으킨 것은 xAI가 ChatGPT를 분석했다는 사실을 인정한 것이었다.

태그: AI, GPU , MRC, 엔비디아 , OCP , OpenAI , 스타게이트, 마이크로소프트 네트워크 아키텍처 , 슈퍼컴퓨터

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트

OpenAI는 NVIDIA, AMD, Microsoft와 협력하여 수십만 개의 GPU를 사용한 학습에서 발생하는 병목 현상 문제를 완전히 해결하는 "MRC 네트워크 프로토콜"을 출시했습니다.

대규모 모델 학습의 치명적인 결함: 단 하나의 패킷 걸림 현상으로 전체 네트워크가 마비될 수 있다.

MRC의 세 가지 핵심 설계 혁신

세계 최대 규모의 GB200 슈퍼컴퓨터에 배포됨

관련 보고서