OpenAI, hợp tác với NVIDIA, AMD và Microsoft, đã cho ra mắt "Giao thức mạng MRC", giải quyết hoàn toàn vấn đề tắc nghẽn trong quá trình huấn luyện với hàng trăm nghìn GPU.

Bài viết này được dịch máy
Xem bản gốc

Trong cuộc chạy đua vũ trang của các mô hình AI tiên tiến, nút thắt cổ chai về tỷ lệ băm thường không nằm ở chính GPU, mà ở việc làm thế nào để hàng nghìn GPU trao đổi dữ liệu một cách "đồng bộ hoàn hảo".

Vào ngày 5 tháng 5 năm 2026, OpenAI đã phát hành một bản cập nhật cơ sở hạ tầng đột phá làm chấn động giới công nghệ: họ hợp tác với các ông lớn trong lĩnh vực chip và điện toán đám mây như AMD, Broadcom, Intel, Microsoft và NVIDIA để phát triển thành công một giao thức mạng có tên gọi "MRC (Multipath Reliable Connection)", và đã mã nguồn mở các thông số kỹ thuật cho toàn ngành thông qua Dự án Điện toán Mở (OCP).

Điểm yếu chí mạng khi huấn luyện các mô hình lớn: chỉ một sự tắc nghẽn gói dữ liệu cũng có thể khiến toàn bộ mạng bị tê liệt.

Trong thông báo của mình, OpenAI nhấn mạnh rằng việc huấn luyện các mô hình tiên tiến phụ thuộc rất nhiều vào việc truyền dữ liệu cực nhanh và đáng tin cậy giữa các GPU. Trong các kiến ​​trúc mạng truyền thống, chỉ cần một gói dữ liệu bị chậm trễ hoặc lỗi thiết bị cũng có thể làm gián đoạn toàn bộ quá trình huấn luyện đồng bộ, khiến các GPU đắt tiền bị bỏ không. Trước đây, một lỗi kết nối duy nhất thường dẫn đến gián đoạn huấn luyện, buộc phải khởi động lại hoặc mất lượng lớn thời gian chờ đợi để tính toán lại định tuyến, dẫn đến chi phí cực kỳ cao.

Để giải quyết vấn đề ngày càng nghiêm trọng này khi các cụm máy tính mở rộng quy mô (như siêu máy tính Stargate được đồn đoán), OpenAI đã quyết định thiết kế lại hoàn toàn lớp mạng.

Ba cải tiến thiết kế cốt lõi của MRC

Giao thức MRC đạt được độ trễ cực thấp và khả năng chịu lỗi cực cao thông qua ba thay đổi kiến ​​trúc nền tảng Sự lật đổ:

  • Cấu trúc mạng đa lớp: Cấu trúc này bao gồm việc chia nhỏ giao diện mạng với tốc độ lên đến 800Gb/s thành nhiều kết nối nhỏ hơn (ví dụ: tám kết nối 100Gb/s) và kết nối chúng với các bộ chuyển mạch khác nhau để tạo thành các "lớp" song song. Điều này cho phép hệ thống kết nối hơn 100.000 GPU chỉ với 2 lớp chuyển mạch (các kiến ​​trúc truyền thống yêu cầu 3-4 lớp), giúp giảm đáng kể chi phí triển khai, điện năng tiêu thụ và số lượng linh kiện.
  • Phân phối gói tin thích ứng: Không giống như truyền dẫn một đường truyền truyền thống rủi ro tắc nghẽn, MRC phân phối các gói tin trên hàng trăm đường truyền. Hệ thống này có tính năng "cân bằng tải động", tự động chuyển đổi khi phát hiện tắc nghẽn; nếu bộ chuyển mạch bị quá tải, "cắt bớt gói tin" sẽ được khởi động, chỉ chuyển tiếp phần tiêu đề để kích hoạt truyền lại nhanh chóng, giúp giảm thiểu hiệu quả các trường hợp báo động sai.
  • Định tuyến nguồn tĩnh (SRv6) thay thế định tuyến động: Nó mạnh dạn từ bỏ giao thức định tuyến động BGP truyền thống, thay vào đó cho phép người gửi trực tiếp nhúng toàn bộ đường dẫn vào gói tin. Thiết bị chuyển mạch chỉ đơn giản tuân theo bảng chuyển tiếp tĩnh, loại bỏ các lỗi động phức tạp. Khi xảy ra lỗi, MRC có thể bỏ qua các đường dẫn xấu trong "vài micro giây", khiến các hoạt động huấn luyện hầu như không bị ảnh hưởng.

Được triển khai trên siêu máy tính GB200 lớn nhất thế giới.

Công nghệ này không chỉ là lý thuyết. OpenAI đã xác nhận rằng MRC hiện đã được triển khai đầy đủ trên tất cả các siêu máy tính NVIDIA GB200 lớn nhất của họ, bao gồm cả địa điểm hợp tác với Oracle Cloud ở Abilene, Texas, và siêu máy tính Fairwater của Microsoft, và đang được sử dụng để huấn luyện nhiều mô hình lớn tiên tiến, thế hệ tiếp theo. OpenAI nhấn mạnh:

"Trong hoàn cảnh sản xuất, ngay cả khi nhiều kết nối bị gián đoạn mỗi phút, hoặc nếu cần khởi động lại bộ chuyển mạch lớp đầu tiên, hoạt động đào tạo hầu như không bị ảnh hưởng và không còn yêu cầu phối hợp đặc biệt về thời gian bảo trì."

加入動區 Telegram 頻道

📍 Các báo cáo liên quan📍

Lịch trình sản xuất hàng loạt điện thoại thông minh OpenAI được đẩy lên năm 2027, với các báo cáo cho thấy MediaTek sẽ độc chiếm các đơn đặt hàng bộ xử lý.

OpenAI đã chi 5.000 USD để thuê những người có ảnh hưởng (KOL) quay một bài báo có tiêu đề "Trí tuệ nhân tạo Trung Quốc đe dọa dữ liệu cá nhân", nhằm mục đích tác động đến việc điều chỉnh AI vào năm 2026.

Thông tin gây chấn động nhất trong tuần đầu tiên của vụ kiện do Musk khởi xướng chống lại OpenAI là việc thừa nhận xAI đã chắt lọc ChatGPT.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận