전 OpenAI 연구원 케빈 루가 전 OpenAI CTO 미라 무라티가 설립한 Thinking Machines Lab에 합류했습니다. Thinking Machines Lab은 2025년 7월 초기 단계 융자 약 20억 달러를 확보했으며, 기업 가치는 약 120억 달러로 평가되었습니다. 케빈 루는 이전에 GPT-4o 미니 프로젝트를 이끌었으며, 강화 학습, 소규모 모델, 합성 데이터 등을 오랫동안 연구해 왔습니다.
방금 또 다른 중국인 사장이 OpenAI를 떠났습니다.
전 OpenAI 연구원 케빈 루가 AI 스타트업 Thinking Machines Lab에 합류했다고 발표했습니다.
케빈 루는 GPT-4o mini의 출시를 주도했으며 o*-mini, o3 등의 모델 작업에 참여했습니다.
Thinking Machines Lab은 전 OpenAI CTO인 미라 무라티가 설립했습니다.
2025년 7월, 회사는 약 20억 달러 규모 의 역사적으로 초대형 초기 융자(a16z 주도)을 완료했으며, 기업 가치는 약 120억 달러입니다 .
이후 팀의 핵심 멤버들은 소셜 플랫폼을 통해 환영의 뜻을 전했습니다.
케빈 루는 강화 학습과 소규모 모델 연구자입니다. 그는 캘리포니아 대학교 버클리에서 학사 학위를 받았습니다. OpenAI에서 근무하는 동안 강화 학습, 소규모 모델, 그리고 합성 데이터에 집중했습니다.
Thinking Machines에 합류하기 전 그는 Hudson River Trading과 MetaAI에서 순차적 의사 결정과 딥 러닝 연구를 담당했습니다.
AI 발전을 실제로 촉진하는 것은 인터넷입니다.
케빈 루의 소규모 모델과 합성 데이터에 대한 실무 경험은 Thinking Machines가 논문에서 사용자 가치까지의 거리를 단축하는 데 도움이 될 것입니다.
특히, 그가 7월에 쓴 블로그 게시물은 큰 인기를 끌었습니다. AI의 발전을 진정으로 주도하고 있는 것은 바로 인터넷입니다.
한 가지 간단히 설명하자면, 아키텍처를 반복적으로 수정하는 대신, 데이터 소스 (예: 인터넷)와 데이터 소비 방식의 현실에 맞춰 확장하고, 강화하고, 적응하는 것이 더 좋습니다. 그렇지 않으면 모델은 항상 "잘 알려지지 않고 잘 이해되지 않는" 상태가 될 것입니다.
블로그 주소: https://kevinlu.ai/the-only-important-technology-is-the-internet
다음은 블로그의 일부 번역입니다.
AI의 발전은 변환기, RNN, 확산 등 몇몇 획기적인 논문에 기인하는 경우가 많지만, 이는 AI의 가장 근본적인 병목인 데이터를 무시한 것입니다.
그렇다면 "좋은 데이터"란 실제로 무엇을 의미할까요?
AI를 정말로 발전시키고 싶다면 딥러닝 최적화보다는 '인터넷'을 연구 해야 합니다.
인터넷은 AI 모델의 확장을 가능하게 하는 핵심 기술입니다.
변압기는 방해물이다
많은 연구자들은 아키텍처 혁신(5년 만에 AlexNet에서 Transformer까지)이 가져온 급속한 진전에 영감을 받아, "Transformer보다 나은" 새로운 아키텍처를 설계하고자 더 나은 아키텍처 사전 지식을 찾아왔습니다.
사실, Transformer 이후에 더 나은 아키텍처가 등장한 것은 사실입니다. 하지만 GPT-4 이후로 우리가 이러한 개선 사항을 "직접적으로 느끼는" 것이 왜 그렇게 어려울까요?
패러다임 전환
해시레이트 범위 제한.
옛날에는 해시레이트 에 따라 방법이 확장되었고, 더 효율적인 방법이 더 좋았습니다.
정말 중요한 것은 가능한 한 효율적으로 모델에 데이터를 집어넣는 것입니다. 이러한 방법은 더 잘 작동할 뿐만 아니라, 규모가 커질수록 더욱 뛰어난 것으로 보입니다.
그러면 데이터는 제한적이다(데이터 바운드).
모델 아키텍처를 연구하는 것이 전혀 쓸모없는 것은 아닙니다. 커뮤니티는 Transformer 이후 SSM과 Mamba와 같은 더 나은 방법을 개발해 왔습니다.
하지만 이것들은 "무료 승리"가 아닙니다. 주어진 양의 훈련 해시레이트 주어지면, 트랜스포머를 훈련하면 종종 더 나은 성능을 얻을 수 있습니다.
하지만 데이터 바인딩 패러다임은 무료입니다 . 모든 방법은 결국 기본적으로 동일합니다!
그러므로 추론 단계에 대한 더 나은 방법을 선택해야 하며, 아마도 " 2차 주의 변형"과 같은 것이 있을 것입니다.
이러한 접근 방식이 다시 주목을 받을 가능성이 높습니다.
연구자들은 무엇을 해야 할까?
추론(제품으로 이해될 수 있음)뿐만 아니라 점근적 성능 (AGI를 향한 진행으로 이해될 수 있음)도 신경 쓴다고 가정해 보겠습니다.
물론, 아키텍처만 최적화하는 것은 실수입니다.
Q-함수 궤적 클리핑을 조정하는 것도 올바르지 않습니다.
새로운 데이터 세트를 직접 만드는 것은 확장성이 없습니다 .
새로운 첨단 시간 가우시안 탐색 방법도 확장성이 부족할 가능성이 높습니다.
커뮤니티의 많은 구성원은 "데이터 소비"의 새로운 방식을 모색해야 한다는 데 의견을 같이했습니다.
현재 두 가지 주요 패러다임은 다음과 같습니다. (1) 다음 토큰 예측(NTP) 및 (2) 강화 학습(RL).
(물론, 우리는 "새로운 패러다임"에서 많은 획기적인 진전을 이루지 못했습니다.)
AI의 본질은 데이터를 소비하는 것입니다
AI 분야에서 현재 진행 중인 획기적인 작업은 본질적으로 데이터를 소비하고 활용하는 새로운 방식을 개척하는 것입니다.
AlexNet(2012) : 다음 토큰 예측의 관점에서 ImageNet을 요약합니다.
GPT-2(2019) : 다음 단어 예측을 통한 인터넷 텍스트 학습.
기본적으로 다중 모드(예: GPT-4o, Gemini 1.5) : 인터넷에서 이미지와 오디오를 흡수하여 다음 단어를 예측합니다.
ChatGPT : 강화 학습을 통해 채팅 시나리오에서 인간이 선호하는 무작위 보상을 수집합니다.
DeepSeek-R1: 좁은 영역에서 강화 학습을 통해 결정적이고 검증 가능한 보상을 수집합니다.
"다음 토큰 예측" 과 관련해서 인터넷은 완벽한 솔루션입니다. 인터넷은 시퀀스 모델링을 학습하기에 딱 맞는, 매우 풍부하고 순차적으로 관련된 데이터를 제공합니다.
인터넷은 다음 토큰 예측에 자연스럽게 적합한 구조화된 HTML의 "시퀀스" 로 가득 차 있습니다. 이를 다른 순서로 재구성하면 다양한 유용한 기능을 발휘할 수 있습니다.
이는 우연이 아닙니다. 이런 종류의 "시퀀스 데이터"는 다음 토큰 예측에 거의 완벽합니다. 인터넷과 다음 토큰 예측은 서로 밀접하게 연관되어 있습니다 .
행성 수준 데이터
2020년 알렉 래드포드는 선견지명이 있는 연설에서 당시 많은 새로운 방법이 제안되었지만 그 중 어떤 것도 "데이터를 확장하고 정리하는 것"만큼 중요하지 않았다고 지적했습니다.
우리는 더 나은 방법(구문 트리를 암시하는 손실 함수 등)을 통한 마법적 일반화를 기대하는 것에서 벗어나 간단한 원칙으로 전환합니다. 모델에 알려주지 않으면 확실히 알 수 없습니다.
대규모 지도 학습 데이터 세트를 생성하여 "예측 목표를 명확하게 지정"하는 대신, 모델이 "외부의 모든 것"에서 학습하고 예측을 수행하도록 하는 것이 더 좋습니다.
데이터 세트를 생성할 때마다 "세상의 다른 모든 것"의 중요도를 0으로, "데이터 세트의 모든 것"의 중요도를 1로 설정하는 것과 같습니다.
불쌍한 모델들이군요! 아는 게 너무 없고, 숨겨진 게 너무 많아요.
GPT-2 이후, 전 세계가 OpenAI에 주목하기 시작했고, 시간이 지나면서 그 영향력이 입증되었습니다.
변압기는 있지만 인터넷이 없다면?
데이터 부족. 데이터 부족 패러다임에서는 Transformer가 무용지물이 될 수 있습니다. "아키텍처 사전"이 CNN이나 RNN만큼 좋지 않기 때문에 성능이 떨어질 수밖에 없습니다.
책. 좀 더 극단적인 시나리오는 다음과 같습니다. 인터넷이 없다면 사전 학습을 위해 책이나 교과서를 활용할 수도 있습니다. 교과서는 종종 인간 지혜의 정점으로 여겨집니다. 저자들은 잘 교육받았고, 그들의 언어는 신중하게 선택되었습니다. 이는 " 고품질 데이터가 대량의 데이터보다 낫다 "는 믿음을 반영합니다.
교과서와 파이. 파이 시리즈("교과서만 있으면 된다")는 작은 모델에서는 좋은 성능을 보이지만, 필터링 및 합성에는 여전히 인터넷에서 학습된 GPT-4를 사용합니다.
전반적으로 Phi는 매우 훌륭하지만, 인터넷 데이터로 사전 학습된 모델의 점근적 성능을 달성할 수 있는지는 아직 입증되지 않았습니다. 또한, 교과서에는 실제 세계와 다국어에 대한 지식이 많이 부족합니다 ( 제한된 컴퓨팅 성능 에서도 매우 강력하지만).
데이터 클래스 비유
"교과서"는 검증 가능한 보상 (진술은 거의 항상 사실임)으로 생각할 수 있는 반면, "책"(특히 창작물)은 "인간의 선호도"와 더 유사하며 학생 모델에 더 큰 스타일 다양성을 제공할 수 있습니다.
o3나 Sonnet 3.7이 우리를 대신해 글을 써주지 않을 것처럼, 고품질 데이터로만 훈련된 모델에는 특정한 창의적 "활력"이 부족할 수 있습니다.
따라서 Phi의 PMF(제품-시장 적합성)는 이상적이지 않습니다. 지식이 필요할 때 사람들은 대규모 모델을 선호하고 , 지역적인 "캐릭터 쓰기"가 필요할 때 사람들은 Phi를 선택할 가능성이 낮습니다.
인터넷의 아름다움
책과 교과서는 본질적으로 압축된 인터넷 데이터일 뿐입니다(아마도 압축을 담당하는 강력한 지능이 있을 것입니다).
더 높은 차원에서 살펴보면, 인터넷은 매우 다양한 감독의 원천 이며 인간을 반영하는 것 입니다.
지난 30년 동안 인터넷 사용자가 수백만 명에서 50억 명 이상으로 장기적으로 지속적으로 증가했음을 보여줍니다.
일부 연구자들은 연구 진행을 위해 제품에 의존하는 것이 이상하다고(심지어 방해스럽다고) 생각할 수도 있지만, AGI가 인류에게 유익해야 한다고 생각한다면(AlphaZero처럼 진공 상태에서 단순히 똑똑해지는 것이 아니라), AGI의 형태(제품)를 고려해야 합니다.
저는 연구(사전 훈련)와 제품(인터넷)의 공동 설계가 매우 우아하다고 생각합니다.
탈중앙화 와 다양성
인터넷은 탈중앙화 있으며, 누구나 민주적으로 지식을 추가할 수 있습니다. 진실의 단일 출처는 없습니다.
여기에는 대량 관점, 문화적 밈, 자원이 부족한 언어가 포함되어 있습니다. 대규모 모델을 이에 맞춰 사전 훈련하면 광범위한 지식을 이해하는 지능을 얻을 수 있습니다.
즉, 인터넷 관리자(제품 "관리자")가 AGI 설계 에 중요한 역할을 한다는 의미입니다!
인터넷의 다양성이 약화되면 강화 학습을 할 때 모델의 '엔트로피'(정보 다양성)가 크게 저하됩니다. 데이터가 삭제되면 AGI의 하위 문화 전체가 사라질 수도 있습니다.
정렬. 정렬된 모델을 얻으려면 정렬된 데이터와 정렬되지 않은 데이터 모두에 대해 사전 학습이 필요하다는 것을 보여주는 매우 흥미로운 결과가 있습니다. 사전 학습을 통해 두 데이터가 선형적으로 분리되는 방향을 학습하게 되기 때문입니다.
정렬이 잘못된 데이터를 제거하면 모델이 "무엇이 정렬이 잘못되었고 왜 잘못된 데이터인지" 이해하기 어려워집니다. ( 선과 악이 공존하는 것처럼 느껴집니다. 선과 악이 따로 없습니다 .)
위 그림에서 지표("Toxigen")가 높을수록 독성이 강하다는 것을 의미합니다.
10% 독성 데이터와 수동 지침 으로 사전 학습된 모델은 0% 독성 데이터와 지침으로 사전 학습된 모델 보다 독성이 낮습니다 .
특히, 앞서 언급한 "유해한" 데이터는 제한 없는 토론과 유해한 콘텐츠로 유명한 익명 온라인 포럼인 4chan에서 나온 것입니다.
이는 제품과 연구 사이의 긴밀한 연결에 대한 구체적인 사례입니다(정렬된 연구 모델을 달성하기 위해서는 이런 종류의 제한 없는 토론이 필요합니다). 그러나 인터넷의 디자인 결정이 교육 후 최종 결과에 영향을 미친 훨씬 더 많은 유사한 사례를 생각해 볼 수 있을 것 같습니다.
비정렬의 또 다른 예: 더 나은 캡션으로 이미지 생성을 개선하는 것이 DALL·E 3의 개발을 주도했습니다.
이 방법은 이제 주석을 다시 작성하여 "좋은 이미지/나쁜 이미지"를 더 명확하게 구분함으로써 생성 모델에서 널리 사용됩니다.
이는 RLHF의 "좋아요/싫어요"와 비슷한 정신입니다.
쓰라린 교훈
사람들이 인터넷을 사용하고 싶어한다는 사실 과, 이러한 유용한 속성은 그들이 인터넷을 제품으로 사용하여 상호작용한 결과 라는 점을 기억하는 것이 중요합니다.
우리가 항상 수동으로 데이터를 정리한다면 , "정리되는 콘텐츠"와 "사용자가 이를 유용하게 사용할 수 있는 능력" 사이에 이분법적 대립이 생길 것입니다.
유용한 기술은 연구자가 변덕스럽게 선택해서는 안 됩니다. 사용자가 답을 알려줄 것입니다.
사람들이 인터넷을 사용하고 싶어 하는 또 다른 이유는 1인당 비용이 충분히 낮아 광범위한 도입과 데이터 수집이 가능하기 때문입니다. 만약 인터넷에 고가의 가입비가 필요하다면, 대규모 데이터 제공은 불가능할 것입니다.
사람들은 "확장성"에 대한 논의에서 종종 이 점을 간과합니다. 인터넷은 학습과 검색(데이터와 계산)을 확장할 수 있는 간단한 아이디어 입니다.
만약 당신이 이런 "간단한 아이디어"를 발견하고 확장한다면, 당신은 놀라운 결과를 얻을 수 있을 것입니다.
핵심 요점. 인터넷은 다음과 같은 이유로 교육에 매우 유용합니다.
1) 다양 하고 유용한 지식이 대량 합니다.
2) 자연스러운 교육과정 형성
3) 제품-시장 적합성이 있으며, 사용자가 지속적으로 공급됩니다.
4) 경제적으로 실행 가능하고 , 1인당 비용이 저렴하며, 널리 이용 가능합니다.
인터넷은 "다음 토큰 예측"의 "이중"입니다.
인터넷은 감독되는 차기 토큰 예측을 완벽하게 보완하기 때문에 인터넷을 "기반"으로 삼는다면 연구자들은 거의 필연적으로 차기 토큰 예측으로 수렴할 것이라고 말할 수 있습니다.
그래서 제가 말하고 싶은 건 인터넷이 "다음 토큰 예측"의 이중성이라는 겁니다.
위에서 언급했듯이, 많은 대량 에도 불구하고 여전히 두 가지 주요 패러다임만이 존재합니다 .
따라서 새로운 " 학습 패러다임 "을 생각해 내는 것보다 새로운 " 제품 " 아이디어를 생각해 내는 것이 더 쉬울 수 있습니다. 이는 다음과 같은 질문을 던집니다. 강화 학습의 "이중성"은 무엇일까요?
몇 가지 아이디어가 있지만, 모두 단점이 있습니다. 그중 "순수 연구"는 없으며, 모두 실제 현실을 기반으로 제품을 구축하는 것 입니다.
우리가 원하는 속성은 다음과 같습니다: 다양성, 자연스러운 커리큘럼, PMF, 경제적 타당성 .
마지막 코멘트: 다양성을 먼저 희생하는 것도 괜찮습니다. 강화 학습을 사용하여 자사 제품(게임, 자판기, 고객 유지/수익/참여 등)의 지표를 최적화하세요.
이 방법이 효과적일 수도 있지만, 어려움은 다양하고 확장 가능한 보상 세계로 "업그레이드"하여 패러다임 전환을 촉발하는 방법 에 있습니다.
간단히 말해, 우리는 아직 "인터넷과 NTP"만큼 우아하고 생산적인 "RL 이중성"을 찾지 못했습니다 .
마지막으로, 케빈 루는 훈련 중에 모델은 데이터 세트에 있는 것만을 "본다"고 반복해서 말했습니다. 데이터 세트 외부의 세계는 무시됩니다 (가중치 0).
언젠가는 이 문제를 해결할 방법을 찾을 수 있기를 바랍니다.
참고문헌:
https://x.com/_kevinlu/status/1942977315031687460
본 기사는 위챗 공개 계정 "Xinzhiyuan" 에서 발췌하였으며, 저자는 Xinzhiyuan이고, 36Kr.의 출판 허가를 받았습니다.