【Giới thiệu】Không có hội nghị hàng đầu, không có ấn phẩm arXiv, nhưng một blog đã trở thành một con đường nhanh chóng đến OpenAI. Nhà khoa học thiên tài Keller Jordan chỉ tham gia OpenAI với blog Muon optimizer. Nó thậm chí có thể được sử dụng để đào tạo siêu mô hình thế hệ tiếp theo GPT-5.
Yêu cầu để nộp đơn xin gia nhập OpenAI thành công là gì?
Tốt nghiệp chuyên ngành? Xuất bản bài báo tại các hội nghị hàng đầu? Học hỏi từ các bậc thầy AI như Hinton và LeCun? Hay anh ấy là người nổi tiếng về công nghệ trên mạng xã hội?
Hoặc có thể chỉ cần viết một bài đăng trên blog.
Keller Jordan là một nhà nghiên cứu trong lĩnh vực học máy. Vào cuối năm 2024, ông đã thiết kế Muon, một trình tối ưu hóa cho lớp ẩn của mạng nơ-ron và công khai ghi lại tiến trình nghiên cứu của mình.
Không lâu sau, các thành viên cộng đồng cũng bắt đầu chạy thử nghiệm song song và báo cáo kết quả, mọi thứ trở nên ngày càng thú vị hơn - cả OpenAI và xAI đều chú ý đến anh ấy, và cuối cùng anh ấy đã chọn tham gia OpenAI!
Yuchen Jin, tác giả thứ hai của Muon, cho biết việc xuất bản một bài báo không đồng nghĩa với ảnh hưởng. Có lẽ Muon đã được sử dụng trong quá trình đào tạo GPT-5.
Đừng mù quáng chạy theo đỉnh cao
Câu chuyện của Keller Jordan có phần giống với cảm giác gây ra bởi mã nguồn mở DeepSeek. Mặc dù ảnh hưởng của cả hai không thể so sánh được, nhưng logic cơ bản đằng sau vấn đề này dường như chỉ ra cùng một điều -
Trong thế giới AI đang thay đổi nhanh chóng, mô hình giấy truyền thống dường như đã lỗi thời. Sự cởi mở, cộng đồng cùng xây dựng và phản ứng nhanh có thể cho phép con người theo kịp tốc độ tiến hóa của AI.
Shital Shah, một kỹ sư nghiên cứu tại Microsoft Research, đã rất phấn khích khi biết về trải nghiệm của Keller Jordan vì ông luôn cho rằng rằng nghiên cứu nên được "thực hiện theo cách này".
Ngay cả trong các phòng nghiên cứu "mở", bạn cũng sẽ thấy rất nhiều nhà nghiên cứu nhỏ nhen và cầu kỳ về "những ý tưởng ban đầu".
Việc chia sẻ nghiên cứu thường chỉ giới hạn giữa những người bạn thân thiết và trong một thời gian dài, mọi người đã quá ám ảnh với việc này…
Phải mất nhiều tháng để bất kỳ ý tưởng nào có thể xuất hiện dưới dạng một bài báo được xuất bản.
Và khi cuối cùng được xuất bản, nó thường bị chôn vùi giữa lượng lớn các bài báo khác.
Nếu ai đó nhận thấy điều đó, việc cải thiện nó đòi hỏi một chu trình dài và khó khăn tương tự.
Keller đã có một phương pháp khác.
Ông đã công bố những ý tưởng ban đầu của mình dưới dạng kho lưu trữ GitHub công khai thay vì xuất bản chúng dưới dạng một bài báo.
Mọi người có thể thử và cải thiện những điều này ngay lập tức.
Mọi thứ đều có thể được xác minh bởi mọi người bất cứ lúc nào. Vì mọi thứ đều công khai nên không có chỗ cho gian lận hoặc tuyên bố phóng đại.
Đây thực sự là “nghiên cứu AI thời gian thực phân tán” ! Trong vòng vài ngày, Keller và những người khác đã cải thiện ý tưởng. Những người nhìn thấy tiềm năng đã tham gia và giúp song song hóa.
Trong nghiên cứu AI truyền thống, chu kỳ phản hồi này sẽ mất hơn sáu tháng, không chỉ sáu ngày.
Về việc lựa chọn giữa việc xuất bản bài báo và "công nghệ thông qua nhanh", quan điểm của Keller Jordan vẫn giống như nửa năm trước. Hôm nay, ông đã đăng lại một dòng tweet của riêng mình từ tháng 2, nói rằng mặc dù Muon đã trở nên phổ biến và giúp ông gia nhập OpenAI, ông sẽ không viết bài báo cho Muon.
Ý của Keller Jordan rất rõ ràng. So với một bài báo trên arXiv có khả năng bị "chôn vùi", tốt hơn là tiếp tục nghiên cứu "trình tối ưu hóa" của riêng bạn một cách trung thực.
Ngay cả ngày nay, ông vẫn "cụ thể" bày tỏ quan điểm của mình về việc tối ưu hóa AI hiện tại trong các bài báo của mình - "Tất cả đều là giả, toàn là văn bản nước".
Ảnh hưởng > Danh tiếng
Nhân tiện, Keller Jordan được OpenAI tuyển dụng chỉ dựa trên một blog. Anh ta có bối cảnh như thế nào?
Anh nhận bằng cử nhân kép chuyên ngành toán học và khoa học máy tính từ UC San Diego vào năm 2020, đồng thời cũng học tại UC Santa Cruz và UC Berkeley.
Sau khi tốt nghiệp, anh làm việc với tư cách là kỹ sư máy học tại Hive, một công ty tập trung vào AI tạo sinh, và sau đó làm việc với tư cách là nhà nghiên cứu thỉnh giảng tại Trung tâm Khoa học Phức tạp Vienna.
Phải đến tháng 12 năm 2024, Keller mới chính thức gia nhập OpenAI.
Dự án có ảnh hưởng nhất trên GitHub của anh là Modded-NanoGPT, với hơn 2,4 nghìn sao.
Keller và đội ngũ chỉ sử dụng 8 H100 để tái tạo mô hình GPT trong 3 phút, chỉ xử lý 0,73 tỷ mã thông báo.
Anh ấy cũng có một blog cá nhân, chưa được cập nhật kể từ khi anh ấy tham gia OpenAI. Bài viết cuối cùng là về trình tối ưu hóa Muon.
Bài viết này nói chính xác về cái gì?
Một trình tối ưu hóa phá vỡ kỷ lục tốc độ đào tạo
Trong lĩnh vực học độ sâu, trình tối ưu hóa là công cụ cốt lõi để thúc đẩy hiệu quả và hiệu suất đào tạo mô hình.
Phải đến tháng 12 năm 2024, một trình tối ưu hóa có tên Muon mới xuất hiện, phá vỡ kỷ lục thế giới về tốc độ đào tạo NanoGPT và CIFAR-10 nhờ hiệu suất vượt trội của nó.
Muon là một trình tối ưu hóa được thiết kế cho các lớp ẩn tham số 2D của mạng nơ-ron.
Ý tưởng cốt lõi là ma trận cập nhật được tạo ra bởi phương pháp SGD-momentum được trực giao hóa thông qua phép lặp Newton-Schulz để tạo ra bản cập nhật gần với ma trận bán trực giao, do đó cải thiện hiệu quả đào tạo.
Việc triển khai đơn giản và hiệu quả, hỗ trợ hoạt động ổn định ở độ chính xác bf16 và giảm đáng kể chi phí tính toán.
So với trình tối ưu hóa AdamW, Muon hoạt động rất tốt trong nhiều nhiệm vụ.
Trong CIFAR-10, nó giảm thời gian đào tạo để đạt được độ chính xác 94% từ 3,3 xuống còn 2,6 sau 100 giây, cải thiện khoảng 21%.
Đối với quá trình đào tạo NanoGPT, Muon đã đạt được mức tổn thất xác minh là 3,28 và tăng tốc độ đào tạo lên 1,35 lần trên dữ liệu FineWeb.
Ngoài ra, Muon vẫn duy trì lợi thế về tốc độ đào tạo trên các mô hình có kích thước tham số 774M và 1.5B.
Để đào tạo mô hình Transformer có tham số 1,5B ở mức GPT-2 XL, Muon chỉ mất 10 8xH100 giờ, trong khi AdamW mất 13,3 giờ, cải thiện hiệu quả khoảng 25%.
Vậy, sức ảnh hưởng của Muon trong lĩnh vực AI lớn đến mức nào?
Đội ngũ Microsoft đã sử dụng trình tối ưu hóa Muon trong bài báo tháng 1 của họ.
Một số chuyên gia về máy học đã viết các phân tích cụ thể cho mục đích này và ngày càng có nhiều nghiên cứu áp dụng công cụ tối ưu hóa Muon.
Tiềm năng của Muon
Trí tuệ nhân tạo đang phát triển nhanh chóng và đào tạo mô hình luôn là liên kết cốt lõi của nó. Bộ tối ưu hóa đóng nhân vật quan trọng. Nó chịu trách nhiệm điều chỉnh các tham số của mô hình để làm cho mô hình hoạt động tốt hơn trên dữ liệu .
AdamW là người đi đầu trong việc đào tạo các mô hình ngôn ngữ lớn trong vài năm qua.
AdamW có thể giúp những quái vật như GPT, LLaMA và Qwen học tập một cách đều đặn và nhanh chóng.
Tuy nhiên, khi các tham số mô hình tăng từ hàng trăm triệu lên hàng trăm tỷ và thời gian đào tạo tăng từ vài ngày lên vài tuần hoặc thậm chí vài tháng, những hạn chế của AdamW bắt đầu xuất hiện - hiệu quả của nó trong các kịch bản quy mô cực lớn bắt đầu bị thách thức.
Để cải thiện hơn nữa khả năng của AI, cần có những mô hình lớn hơn và nhiều nguồn lực đào tạo hơn.
Tuy nhiên, chi phí cao cho tài nguyên máy tính và thời gian đào tạo dài sẽ làm chậm tiến độ nghiên cứu và ứng dụng.
Do đó, việc phát triển một bộ tối ưu hóa hiệu quả hơn không chỉ là một mục tiêu kỹ thuật mà còn là nhu cầu cấp thiết trong kinh tế và thực tiễn.
Sau đó, Muon "lặng lẽ xuất hiện", và mặc dù vẫn chưa trở thành tâm điểm chú ý của ngành, nhưng thiết kế độc đáo và hiệu suất tuyệt vời của nó cho thấy đây có thể là một cải tiến cơ bản quan trọng trong lĩnh vực đào tạo mô hình AI.
Sự đổi mới quan trọng này không đến từ một bài báo nổi tiếng hay một đội ngũ có tiếng , mà chỉ là một "thực hành" của Keller Jordan.
“Tình trạng hỗn loạn” của thị trường việc làm nghiên cứu AI
Nhiều nhà nghiên cứu AI có bằng tiến sĩ dường như rơi vào quan niệm sai lầm cho rằng việc xuất bản các bài báo tại các hội nghị hàng đầu là mục tiêu cuối cùng.
Đã có thời điểm mà việc xuất bản một bài báo cũng tương đương với việc tạo ra tác động!
ResNet, Seq2Seq, Adam, Attention, Transformers, MoE, tất cả đều xuất hiện dưới dạng bài báo.
Sai lầm thực sự là không nhận ra rằng điều này không còn áp dụng nữa.
Xuất bản bài viết ≠ ảnh hưởng.
Muon chỉ là một bài đăng trên blog. Nó đưa Keller vào OpenAI và có lẽ anh ấy đang sử dụng nó để đào tạo GPT-5.
Keller không đơn độc!
Ngay cả khi bạn không có bằng tiến sĩ, bạn vẫn có thể tham gia OpenAI. Hôm qua, James Campbell đã chính thức tuyên bố rằng ông sẽ từ bỏ bằng tiến sĩ của mình để giới thiệu trí nhớ và tính cách cho ChatGPT và AGI.
Các chu kỳ bình duyệt ngang hàng truyền thống không thể theo kịp tốc độ nghiên cứu và phát triển AI hiện đại.
Tất nhiên, việc đánh giá ngang hàng dựa trên AI vẫn có thể cần thiết.
Mã nguồn mở giống như đánh giá ngang hàng mới. Việc áp dụng và khả năng tái tạo trong thế giới thực quan trọng hơn.
Thật không may, trong học viện, khích lệ có phần không phù hợp. Các học giả cần phải đưa ra "bằng chứng" để thăng tiến sự nghiệp (thăng chức, tài trợ, sự công nhận từ đồng nghiệp).
Hình thức chứng minh có giá trị nhất là xuất bản một bài báo tại một hội nghị hàng đầu.
Vẫn còn quá sớm để nói liệu việc tuyển chọn nhân tài của các công ty AI hàng đầu có chuyển từ việc chỉ xem xét các bài báo học thuật sang việc đánh giá toàn diện nhiều khía cạnh như bài báo, kỹ thuật và cộng đồng hay không.
Nhưng như chính thức của OpenAI đã nói, họ "không chỉ xem xét trình độ học vấn mà còn đánh giá cao tiềm năng và kỹ năng thực tế".
Bất kể bạn chọn con đường nào, điều quan trọng là phải tạo ra được kết quả vững chắc (cho dù đó là bài báo, mã hay dự án) và có tác động đáng kể .
Tham khảo:
https://kellerjordan.github.io/posts/muon/
https://www.51cto.com/aigc/4707.html
https://x.com/Yuchenj_UW/status/1934291648542126580
https://x.com/kellerjordan0/status/1890178773586489716
https://shital.com/blog/tweets/thread/202410131001-adamw-who-new-optimizer/
Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , do Dinghui Taozi biên tập và được 36Kr xuất bản với sự cho phép.




