Mục lục lục
ToggleTrong cuộc chạy đua vũ trang của các mô hình AI tiên tiến, nút thắt cổ chai về tỷ lệ băm thường không nằm ở chính GPU, mà ở việc làm thế nào để hàng nghìn GPU trao đổi dữ liệu một cách "đồng bộ hoàn hảo".
Vào ngày 5 tháng 5 năm 2026, OpenAI đã phát hành một bản cập nhật cơ sở hạ tầng đột phá làm chấn động giới công nghệ: họ hợp tác với các ông lớn trong lĩnh vực chip và điện toán đám mây như AMD, Broadcom, Intel, Microsoft và NVIDIA để phát triển thành công một giao thức mạng có tên gọi "MRC (Multipath Reliable Connection)", và đã mã nguồn mở các thông số kỹ thuật cho toàn ngành thông qua Dự án Điện toán Mở (OCP).
Điểm yếu chí mạng khi huấn luyện các mô hình lớn: chỉ một sự tắc nghẽn gói dữ liệu cũng có thể khiến toàn bộ mạng bị tê liệt.
Trong thông báo của mình, OpenAI nhấn mạnh rằng việc huấn luyện các mô hình tiên tiến phụ thuộc rất nhiều vào việc truyền dữ liệu cực nhanh và đáng tin cậy giữa các GPU. Trong các kiến trúc mạng truyền thống, chỉ cần một gói dữ liệu bị chậm trễ hoặc lỗi thiết bị cũng có thể làm gián đoạn toàn bộ quá trình huấn luyện đồng bộ, khiến các GPU đắt tiền bị bỏ không. Trước đây, một lỗi kết nối duy nhất thường dẫn đến gián đoạn huấn luyện, buộc phải khởi động lại hoặc mất lượng lớn thời gian chờ đợi để tính toán lại định tuyến, dẫn đến chi phí cực kỳ cao.
Để giải quyết vấn đề ngày càng nghiêm trọng này khi các cụm máy tính mở rộng quy mô (như siêu máy tính Stargate được đồn đoán), OpenAI đã quyết định thiết kế lại hoàn toàn lớp mạng.
Ba cải tiến thiết kế cốt lõi của MRC
Giao thức MRC đạt được độ trễ cực thấp và khả năng chịu lỗi cực cao thông qua ba thay đổi kiến trúc nền tảng Sự lật đổ:
- Cấu trúc mạng đa lớp: Cấu trúc này bao gồm việc chia nhỏ giao diện mạng với tốc độ lên đến 800Gb/s thành nhiều kết nối nhỏ hơn (ví dụ: tám kết nối 100Gb/s) và kết nối chúng với các bộ chuyển mạch khác nhau để tạo thành các "lớp" song song. Điều này cho phép hệ thống kết nối hơn 100.000 GPU chỉ với 2 lớp chuyển mạch (các kiến trúc truyền thống yêu cầu 3-4 lớp), giúp giảm đáng kể chi phí triển khai, điện năng tiêu thụ và số lượng linh kiện.
- Phân phối gói tin thích ứng: Không giống như truyền dẫn một đường truyền truyền thống rủi ro tắc nghẽn, MRC phân phối các gói tin trên hàng trăm đường truyền. Hệ thống này có tính năng "cân bằng tải động", tự động chuyển đổi khi phát hiện tắc nghẽn; nếu bộ chuyển mạch bị quá tải, "cắt bớt gói tin" sẽ được khởi động, chỉ chuyển tiếp phần tiêu đề để kích hoạt truyền lại nhanh chóng, giúp giảm thiểu hiệu quả các trường hợp báo động sai.
- Định tuyến nguồn tĩnh (SRv6) thay thế định tuyến động: Nó mạnh dạn từ bỏ giao thức định tuyến động BGP truyền thống, thay vào đó cho phép người gửi trực tiếp nhúng toàn bộ đường dẫn vào gói tin. Thiết bị chuyển mạch chỉ đơn giản tuân theo bảng chuyển tiếp tĩnh, loại bỏ các lỗi động phức tạp. Khi xảy ra lỗi, MRC có thể bỏ qua các đường dẫn xấu trong "vài micro giây", khiến các hoạt động huấn luyện hầu như không bị ảnh hưởng.
Được triển khai trên siêu máy tính GB200 lớn nhất thế giới.
Công nghệ này không chỉ là lý thuyết. OpenAI đã xác nhận rằng MRC hiện đã được triển khai đầy đủ trên tất cả các siêu máy tính NVIDIA GB200 lớn nhất của họ, bao gồm cả địa điểm hợp tác với Oracle Cloud ở Abilene, Texas, và siêu máy tính Fairwater của Microsoft, và đang được sử dụng để huấn luyện nhiều mô hình lớn tiên tiến, thế hệ tiếp theo. OpenAI nhấn mạnh:
"Trong hoàn cảnh sản xuất, ngay cả khi nhiều kết nối bị gián đoạn mỗi phút, hoặc nếu cần khởi động lại bộ chuyển mạch lớp đầu tiên, hoạt động đào tạo hầu như không bị ảnh hưởng và không còn yêu cầu phối hợp đặc biệt về thời gian bảo trì."







