단 한 개의 블로그 게시물로 그는 OpenAI에 성공적으로 합류했으며 그의 핵심 기술은 GPT-5 훈련에 사용될 수 있습니다.

avatar
36氪
06-16
이 기사는 기계로 번역되었습니다
원문 표시

【요약】 정상급 컨퍼런스에 실패하고, arXiv에 게재하지 못했지만, 한 블로그로 OpenAI의 빠른 티켓을 얻었다. 천재 과학자 Keller Jordan은 단순히 Muon 최적화기 블로그로 OpenAI에 합류했다. 심지어 이는 다음 세대 슈퍼 모델 GPT-5 훈련에 사용될 수 있다.

OpenAI에 성공적으로 지원하려면 어떤 조건이 필요할까?

정통 전공? 정상급 컨퍼런스 논문? Hinton, LeCun과 같은 AI 거장의 제자? 아니면 소셜 미디어의 기술 인플루언서?

또는, 아마도 단순히 블로그 하나만 있으면 될 것이다.

Keller Jordan은 머신러닝(ML) 분야의 연구자로, 2024년 말 그는 신경망 은닉층의 최적화기 Muon을 설계하고 자신의 연구 진행 상황을 공개했다.

곧 커뮤니티 구성원들도 병렬 실험을 시작하고 결과를 보고하면서 상황은 점점 더 흥미로워졌다. OpenAI와 xAI가 동시에 그를 주목했고, 결국 그는 OpenAI에 합류하기로 결정했다!

Muon의 제2저자 Yuchen Jin은 논문 게재 ≠ 영향력이라고 직언했다. 아마도 Muon은 이미 GPT-5 훈련에 사용되고 있을 것이다.

더 이상 맹목적으로 정상급 컨퍼런스를 추구하지 말라

Keller Jordan의 이야기는 DeepSeek 오픈소스로 인한 소동과 다소 유사하다. 두 사례의 영향력은 비교할 수 없지만, 그 이면의 근본 로직은 같은 방향을 가리키는 것 같다.

빠르게 진화하는 AI 세계에서, 전통적인 논문 방식은 이미 뒤처졌으며, 개방성과 커뮤니티 공동 구축, 신속한 대응만이 인간이 AI 진화 속도를 따라잡을 수 있게 해줄 것이다.

(이하 생략)

그렇다면, AI 업계에서 Muon의 영향력은 얼마나 클까요?

마이크로소프트 팀은 1월 논문에서 Muon 최적화기를 사용했습니다.

일부 머신러닝(ML) 전문가들이 이를 분석했으며, 더 많은 연구에서 Muon 최적화기를 수용하고 있습니다.

Muon의 잠재력

인공지능 발전 속도는 매우 빠르며, 모델 훈련은 항상 핵심 단계입니다. 최적화기는 매우 중요한 역할을 하며, 모델의 매개변수를 조정하여 데이터에서 더 나은 성능을 발휘하게 합니다.

지난 몇 년간, AdamW는 대규모 언어 모델 훈련의 주력이었습니다.

AdamW는 GPT, LLaMA, Qwen과 같은 거대 모델을 안정적이고 빠르게 학습시킬 수 있었습니다.

그러나 모델 매개변수가 수억에서 수천억으로 증가하고, 훈련 시간이 며칠에서 몇 주 심지어 몇 개월로 늘어나면서 AdamW의 한계가 드러나기 시작했습니다. 초대규모 시나리오에서 그 효율성에 도전을 받고 있습니다.

AI 능력을 더욱 향상시키기 위해서는 더 큰 모델과 더 많은 훈련 리소스가 필요합니다.

하지만 컴퓨팅 리소스의 비용은 매우 높고, 훈련 시간이 너무 길면 연구와 응용의 진행을 지연시킵니다.

따라서 더 효율적인 최적화기 개발은 기술적 추구일 뿐만 아니라 경제적, 실무적으로 시급한 필요입니다.

그러다 Muon이 '조용히 등장'했고, 비록 아직 업계의 주목을 받지는 못했지만, 그 독특한 설계와 뛰어난 성능은 AI 모델 훈련 분야의 중요한 기본 혁신일 수 있음을 시사합니다.

이 중요한 혁신은 유명한 논문이나 유명 팀에서 나온 것이 아니라, 단순히 켈러 조던의 '연습' 과정에서 나왔습니다.

AI 연구원 취업 시장의 '혼란스러운 현실'

많은 AI 연구원 박사들은 정상급 컨퍼런스에 논문을 게재하는 것이 최종 목표라는 잘못된 인식에 빠져 있는 것 같습니다.

한때는 논문 게재가 곧 영향력과 동일시되었습니다!

ResNet, Seq2Seq, Adam, Attention, Transformers, MoE 모두 논문 형태로 등장했습니다.

진정한 오류는 이러한 상황이 더 이상 적용되지 않는다는 점을 인식하지 못한 것입니다.

논문 게재 ≠ 영향력

Muon은 단순한 블로그 게시물이었습니다. 이를 통해 켈러는 OpenAI에 성공적으로 입사했고, 현재 아마도 GPT-5를 훈련하는 데 사용하고 있을 것입니다.

켈러는 특별한 사례가 아닙니다!

박사 학위가 없어도 OpenAI에 입사할 수 있습니다. 어제, 제임스 캠벨은 박사 학위 포기를 공식 발표하고 ChatGPT와 AGI에 기억과 개성을 도입하겠다고 했습니다.

전통적인 동료 검토 주기는 현대 인공지능 연구 및 개발 속도를 따라잡을 수 없습니다.

물론 인공지능 기반의 동료 검토는 여전히 필요할 수 있습니다.

오픈소스는 새로운 동료 검토와 같습니다. 실제 세계의 채택과 재현성이 더 중요합니다.

불행히도 학계에서는 인센티브 메커니즘이 약간 어긋나 있습니다. 학자들은 자신의 경력 발전(승진, 자금 지원, 동료 인정)을 위해 '증거'를 보여야 합니다.

가장 가치 있는 증명 형태는 정상급 컨퍼런스에 논문을 게재하는 것입니다.

최고급 AI 기업의 인재 선발이 순수하게 학술 논문만 보는 것에서 논문, 엔지니어링, 커뮤니티 등 다차원적 성과를 종합적으로 평가하는 방식으로 전환되었는지는 아직 단정 지을 수 없습니다.

하지만 OpenAI 공식 입장에 따르면, 그들은 "학력만을 보지 않고 실제 잠재력과 기술을 더 중요하게 여긴다"고 합니다.

어떤 경로를 통해서든, 핵심은 확실한 성과(논문, 코드 또는 프로젝트)를 내고 실질적인 영향력을 만들어내는 것입니다.

참고 자료:

https://kellerjordan.github.io/posts/muon/

https://www.51cto.com/aigc/4707.html

https://x.com/Yuchenj_UW/status/1934291648542126580

https://x.com/kellerjordan0/status/1890178773586489716

https://shital.com/blog/tweets/thread/202410131001-adamw-who-new-optimizer/

본 기사는 위챗 공식 계정 "신지원"에서 제공되었으며, 편집: 정혜, 도자, 36크에서 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트