역사는 종종 수많은 "사고와 우연"에 의해 형성된다.
2022년, 연구원 헌터 라이트먼이 OpenAI 에 합류했을 때 그의 동료들은 역사상 가장 빠르게 성장하는 사용자 현상이었던 전 세계적 현상인 ChatGPT를 폭발시키는 데 바빴습니다.
하지만 라이트먼은 조용히 겉보기에 눈에 띄지 않는 팀인 MathGen에 합류했습니다.
그들의 사명은 고등학교 수준에서 어려운 수학 경시대회를 풀 수 있도록 AI 모델을 훈련시키는 것입니다.
오늘날, 한때 알려지지 않았던 MathGen 팀은 OpenAI가 업계를 지배할 수 있는 진짜 이유로 여겨지고 있습니다!
2023년 5월 31일, OpenAI는 "프로세스 감독을 통한 수학적 추론 향상"이라는 제목의 연구 블로그 게시물을 발표하여 프로세스 감독 교육의 효과를 공식적으로 제안했습니다.
MathGen 팀과 협력하는 Hunter Lightman과 다른 연구원들의 이름이 저자 서명에 포함되어 있습니다. 이 블로그는 MathGen 팀과 관련된 최초의 공식 자료 중 하나입니다.
같은 날, 울트라맨은 X에 축하 메시지를 게시했습니다. 이는 OpenAI가 MathGen 팀의 공식 존재를 직접 확인한 첫 번째 사례였습니다.
그들이 만들어낸 "AI 추론 능력"이 바로 궁극의 기술, AI 에이전트의 핵심입니다!
이런 종류의 지능형 에이전트는 인간과 마찬가지로 컴퓨터에서 할당된 모든 작업을 독립적으로 완료합니다!
"당시 AI의 수학적 추론 능력은 엉망이었습니다!" 라이트먼은 회상했다. "우리의 목표는 AI에게 진정으로 생각할 수 있도록 가르치는 것이었습니다."
"멍청한 학생"에서 "수학 올림피아드 금메달리스트"로의 진화!
공평하게 말해서, 오늘날의 OpenAI 모델은 완벽과는 거리가 멀다. 여전히 뻔뻔스럽게 말도 안 되는 소리를 하고, 소위 AI 에이전트는 복잡한 작업 앞에서는 종종 무력하다.
하지만 엄청난 변화가 일어나고 있습니다!
OpenAI의 최고 모델이 수학적 추론에서 놀라운 복귀를 이루었습니다!
최근, OpenAI의 모델이 세계 최고의 국제 수학 올림피아드(IMO) 대회에서 금메달을 수상했습니다!
OpenAI는 이 강력한 추론 능력이 어떤 분야에서든 복제 될 수 있다고 굳게 믿고 있습니다!
이것이 그들이 일반 AI 지능체를 구축하는 데 있어서 초석이 되는 것이며, 그들이 창립된 이래로 꿈꿔왔던 궁극적인 꿈입니다!
ChatGPT의 성공을 '우연히 이뤄낸 걸작'이라고 한다면, 원래는 조용히 테스트할 목적으로 의도했지만 예상치 못하게 전 세계적으로 폭발적인 인기를 얻은 기적을 뜻합니다.
그렇다면 AI 에이전트는 OpenAI가 수년에 걸쳐 전략적 계획을 세우고 신중하게 고려한 결과의 결정체입니다!
"미래에는 컴퓨터에 명령만 내리면 모든 일을 알아서 해줄 거예요!"
OpenAI의 CEO인 알트만은 2023년 개발자 컨퍼런스에서 "이 기능이 바로 AI 에이전트입니다. 이 기능이 가져올 혁신은 전례 없는 수준이 될 것입니다!"라고 선언했습니다.
알트만의 예측은 실현될까요? 세상은 아직 지켜보고 있습니다. 하지만 OpenAI는 이미 행동에 나섰습니다!
2024년 가을, 최초의 AI 추론 모델 o1이 탄생하여 큰 인기를 얻었습니다!
1년도 채 되지 않아, 이 신화를 만들어낸 핵심 연구자 21명은 즉시 실리콘 밸리가 갈망하던 최고 인물이 되었습니다!
주커버그는 비용을 아끼지 않고 OpenAI에서 o1팀의 핵심 멤버 5명을 빼내어 Meta의 "슈퍼 인텔리전스" 군대를 구성하기 위해 1억 달러가 넘는 엄청난 연봉을 제안했습니다.
그 중 한 명인 청화대 동문 조성지가 메타초지능연구실의 수석 과학자 로 직접 임명되었습니다!
"AI 두뇌"를 둘러싼 인재 전쟁이 극에 달했습니다!
강화 학습: 지능 혁명을 촉발한 고대 기술
OpenAI의 추론 혁명 뒤에는 강화 학습(RL)이라는 오래된 기술의 부활이 있습니다.
이는 엄격한 코치와 같습니다. 시뮬레이션 환경에서 AI의 선택에 대해 지속적으로 보상하고 처벌을 내리면서 AI에게 무엇이 "옳은지"를 가르치는 것입니다.
이 기술은 새로운 것이 아닙니다.
2016년 초, 구글 딥마인드의 알파고가 이를 사용해 세계 바둑 챔피언을 물리치고 전 세계적으로 유명해졌습니다.
당시 OpenAI의 베테랑 직원인 안드레이 카르파티는 강화 학습(RL)을 사용하여 컴퓨터를 능숙하게 조작할 수 있는 AI 에이전트를 만드는 방법을 고안하기 시작했습니다.
하지만 OpenAI가 이 이상을 현실로 만들기까지는 몇 년이 걸렸습니다.
2018년에 OpenAI는 획기적인 GPT 시리즈 의 대규모 언어 모델을 출시했습니다.
논문 주소: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
방대한 데이터와 GPU 클러스터에 의존하여 텍스트 처리 분야에서 천재성을 발휘했고, 결국 ChatGPT를 탄생시켰습니다.
하지만 이 알고리즘의 약점은 똑같이 치명적입니다. 기본적인 수학조차 처리할 수 없다는 것입니다 .
2023년까지 획기적인 돌파구가 찾아왔습니다!
"Q*"(나중에 " Strawberry "로 명명됨)라는 코드명의 프로젝트는 대규모 언어 모델, 강화 학습(RL) 및 "테스트 타임 컴퓨팅"이라는 기술을 통합합니다!
이를 통해 모델이 생각할 수 있는 시간이 늘어나 AI가 답변을 하기 전에 반복적으로 계획하고, 추론하고, 검증할 수 있습니다.
그 결과물이 바로 Chain of Thought(CoT) 기술입니다! 전례 없는 수학 문제를 해결하는 데 있어 AI의 성능은 혁신을 이룹니다!
"모델이 실제로 추론하는 모습을 봤어요." 연구원 엘 키스키는 열광적으로 말했다. "실수를 발견하면 바로잡기 위해 되돌아가기도 하고, 심지어 좌절감을 표현하기도 했어요. 마치 사람의 마음을 읽는 것 같았죠! "
이러한 기술은 개별적으로 볼 때 독창적이지 않습니다.
하지만 OpenAI의 마법은 이 두 가지를 전례 없는 방식으로 결합하는 데 있으며, 이로 인해 나중에 등장한 트럼프 카드인 o1 이 탄생했습니다.
그 순간, OpenAI는 갑자기 깨달았습니다. 이러한 계획 및 사실 확인 능력이 AI 에이전트를 구동하는 완벽한 엔진이 아닐까요?
"제가 몇 년 동안 고민해 온 문제를 해결했습니다!" 라이트먼은 말했다. "제 과학 경력에서 가장 짜릿한 순간이었습니다!"
폭발적인 추론: 하향식 도박
AI 추론 모델을 통해 OpenAI의 야망이 완전히 불타올랐습니다.
그들은 완전히 새로운 두 가지 진화 경로를 발견했습니다.
1. 모델 학습의 후반 단계에 더 많은 해시레이트 투자하세요!
2. 질문에 답할 때 모델이 생각할 수 있는 시간과 해시레이트 더 많이 제공하세요!
라이트먼은 "OpenAI는 현재에 대해서만 생각하지 않고 , 미래에 자사의 장점을 무한히 확장하는 방법에 대해서도 생각하는 회사입니다! "라고 말했습니다.
2023년 "딸기" 프로젝트가 획기적인 성과를 거둔 후, OpenAI는 연구원 다니엘 셀삼이 이끄는 "AI 에이전트" 특수부대 팀을 신속하게 구성했습니다.
그들의 목표는 단 하나뿐입니다. 이 새로운 능력을 극한까지 끌어올리는 것입니다!
처음에는 회사 내에서 '추론 모델'과 'AI 에이전트'를 엄격하게 구분하지도 않았습니다.
모든 사람의 공통된 목표는 단 하나 , 복잡한 작업을 완료할 수 있는 슈퍼 AI를 만드는 것입니다!
결국, 이 특수부대 팀의 업무는 공동 창립자인 일리야 수츠케버를 포함한 최고 경영자 그룹이 이끄는 더 큰 규모의 O1 모델 프로젝트로 통합되었습니다.
o1을 구축하기 위해 OpenAI는 가장 귀중한 리소스인 최고의 인재와 GPU에 투자해야 합니다.
OpenAI에서는 인력을 연공서열이 아닌 능력에 따라 결정합니다.
연구자들은 회사의 전폭적인 지원을 받는 대가로 놀라운 혁신을 이루어야 합니다.
Lightman은 " OpenAI에서 모든 연구 혁신은 최전선에서, 하향식으로 시작됩니다. "라고 설명했습니다.
"우리가 O1에 대한 놀라운 증거를 제시했을 때, 회사 전체가 즉시 동의했습니다. '바로 이거다, 전부 걸자!'"
전직 직원 중 다수는 OpenAI가 인공 일반 지능(AGI)에 대한 거의 집착적인 추구로 인해 이러한 추론 혁명이 일어났다고 믿고 있습니다.
그들은 단기적인 제품 개발에 흔들리지 않고 가장 강력한 AI 두뇌를 구축하는 데 집중하고 있습니다. 비용과 관계없이 이러한 종류의 도박은 다른 AI 대기업에게는 거의 불가능합니다.
지금 돌이켜보면, 이 결정은 정말 장기적인 안목에서 내린 결정이었습니다!
2024년 말까지 많은 AI 거대 기업들은 기존의 "데이터를 쌓고, 해시레이트 쌓는" 모델로는 수익이 점점 낮아진다는 사실을 깨달았습니다.
AI 분야에서 가장 흥미로운 흐름은 바로 'AI 추론'의 발전에서 나옵니다!
AI가 정말 "생각"할 수 있을까? 철학의 종말
AI는 정말 "추론"할 수 있을까요? 정말 "생각"을 할 수 있을까요?
o1이 출시된 이래로 ChatGPT의 인터페이스는 마치 새로운 시대의 도래를 알리는 듯 "생각"과 "추론"과 같은 의인화된 단어로 채워졌습니다.
이에 대해 질문을 받자, 연구원 키스키는 재치 있게 이렇게 답했습니다. "우리는 모델에게 해시레이트 가장 효율적으로 사용하여 답을 찾는 방법을 가르치고 있습니다. 컴퓨터 과학의 관점에서 정의한다면, 네, 추론입니다. "
Lightman의 견해는 더 실용적이고 결과 지향적입니다.
" 내부적으로 무슨 일을 하는지는 중요하지 않습니다! 모델이 극도로 어려운 문제를 해결할 수 있다면, 목표를 달성하는 데 필요한 근사적 추론 능력을 습득한 것입니다."
그는 이렇게 결론지었습니다. " 겉보기에는 추론이라고 할 수 있지만, 사실은 목적을 달성하기 위한 수단일 뿐입니다. 우리의 진정한 목표는 인류 전체를 위한 놀랍도록 강력한 AI 도구를 만드는 것입니다! "
OpenAI 과학자들은 사람들이 "추론"에 대한 그들의 정의에 동의할 필요가 없다는 것을 인정합니다.
오랫동안 비판론자들이 등장했지만, 그들은 용어에 대한 논쟁보다 모델 자체의 역량이 더 중요하다고 주장합니다.
AI 연구자 네이선 램버트는 훌륭한 비유를 들었습니다. AI 추론은 비행기와 같습니다.
비행기는 새에서 영감을 얻었 지만, 비행 원리는 새의 비행 원리와 완전히 다릅니다 .
이것은 비행기의 위대함에는 전혀 영향을 미치지 않습니다. 비행기는 여전히 우리를 하늘로 데려갈 수 있습니다.
AI의 "사고"에도 동일한 것이 적용될 수 있습니다. 영감은 인간의 뇌에서 나오지만 그 메커니즘은 완전히 다릅니다. 하지만 이것이 인간과 동일하거나 심지어 인간을 능가하는 결과를 달성하는 것을 막지는 못합니다.
궁극의 전장: AI 에이전트가 주관적인 작업을 마스터하도록 하기
현재 시장에 출시된 AI 에이전트는 코딩과 같이 명확한 규칙이 있는 분야에서 그 역량을 입증했습니다.
OpenAI의 Codex는 프로그래머가 사소한 코드를 처리하는 데 도움이 될 수 있으며 Anthropic의 모델은 Cursor와 같은 AI 프로그래밍 도구에서 많은 인기를 얻으며 사용자가 기꺼이 비용을 지불할 의향이 있는 최초의 AI 에이전트 중 하나가 되었습니다.
하지만 진짜 문제는 주관적인 세계에 있습니다!
AI가 온라인 쇼핑이나 장기 주차 공간을 찾는 데 도움을 주기를 원할 때, 일반 AI 에이전트(예: ChatGPT Agent)는 종종 실망스럽습니다. 응답이 느리고 어리석은 실수를 하기 때문입니다.
AI 에이전트가 널리 보급되기 전 마지막 장애물은 다음과 같습니다. 표준 답변이 없고 주관성이 가득한 작업을 처리하도록 AI를 어떻게 가르칠 수 있을까요?
"이건 근본적으로 데이터 문제입니다 ." 라이트먼이 직설적으로 말했다. "현재 우리의 가장 흥미로운 연구는 검증 불가능한 과제에 대해 모델을 효과적으로 훈련하는 방법입니다. 이미 몇 가지 단서를 찾았습니다!"
OpenAI의 또 다른 핵심 연구자인 노엄 브라운은 단순히 옳고 그름으로 측정할 수 없는 AI 기술을 가르칠 수 있는 새로운 일반 강화 학습 기술을 개발했다고 밝혔습니다.
IMO 수학 올림피아드 금메달은 이 방법을 사용해 획득했습니다!
금메달을 수상한 AI 모델은 더욱 진보된 시스템입니다. 여러 AI 에이전트를 동시에 파견하고, 각기 다른 문제 해결 아이디어를 개별적으로 탐색한 후, 최종적으로 가장 적합한 아이디어를 선택할 수 있습니다.
오늘날 Google과 xAI의 최신 모델도 이 "군집 지능" 전략을 채택하고 있습니다.
브라운은 "AI의 수학적 능력은 다른 추론 분야와 마찬가지로 계속 향상될 것입니다."라고 자신감을 표했다. "진화 속도는 믿을 수 없을 정도로 빠르며, 속도가 느려질 조짐은 전혀 보이지 않습니다!"
GPT-5의 야망: 보편적 AI를 향한 궁극적 비전
이러한 급속한 기술 발전은 OpenAI의 곧 출시될 GPT-5 모델에서 완전히 입증될 가능성이 높습니다.
OpenAI의 목표는 단 하나입니다. GPT-5의 절대적 이점을 활용하여 AI 지능형 에이전트 분야에서 왕권을 방어하는 것입니다!
하지만 그들의 야망은 그 이상입니다.
키스키는 궁극적인 그림을 그렸습니다. 미래의 AI 에이전트는 지루한 설정을 거치지 않고도 직관적으로 사용자의 의도를 이해할 수 있을 것입니다.
마치 암묵적으로 이해하는 슈퍼 비서처럼, 어떤 도구를 언제 호출해야 할지, 얼마나 많은 "생각"이 필요한지 자율적으로 판단합니다.
이것은 ChatGPT의 최종 형태입니다. 모든 인터넷 문제를 처리하고 사용자의 마음을 이해할 수 있는 전방위 AI 에이전트입니다!
이는 오늘날의 ChatGPT와는 거리가 멀지만, OpenAI의 연구가 이 미래를 향해 전속력으로 나아가고 있다는 점에는 의심의 여지가 없습니다.
하지만 이미 트랙은 사람들로 북적입니다!
몇 년 전만 해도 절대적인 1인자였던 AI가 이제는 강력한 경쟁자들에 둘러싸여 있습니다. DeepSeek, Google, Anthropic, xAI, Meta... 모두 AI를 주시하고 있습니다.
더 이상 문제는 OpenAI가 지능형 에이전트의 미래를 실현할 수 있는지 여부가 아니라,
영웅들 간의 피비린내 나는 전투에서 결승선을 가장 먼저 통과할 수 있을까요?
참고문헌:
https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/
본 기사는 위챗 공개 계정 "신지위안" 에서 발췌하였으며, 저자는 신지위안이고, 편집자는 정휘, 호쿤이며, 36Kr이 출판 권한을 가지고 있습니다.




