새벽 시간대에 오픈아이(OpenAI)는 GPT-5.2 기반의 차세대 AI 연구 도구인 프리즘(Prism)을 공개했습니다. 이 플랫폼을 통해 과학자들은 연구 논문을 작성하고 공동 작업할 수 있으며, 챗GPT(ChatGPT) 계정을 가진 모든 사용자는 무료로 이용할 수 있습니다. 중국 AI 기업가인 위천진(Yuchen Jin)은 "모든 논문에 챗GPT가 공동 저자로 등재될 것"이라고 말했습니다.
어제, OpenAI 부사장 겸 새로 설립된 OpenAI for Science 팀의 책임자인 케빈 웨일은 X에 글을 올려 미래에 대한 기대감을 높였습니다. 그는 "우리의 목표는 모든 과학자에게 AI 초능력을 부여하여 더 많은 연구를 수행하고, 2030년까지 세계가 2050년 수준의 과학 연구를 수행할 수 있도록 하는 것입니다."라고 말했습니다.
ChatGPT가 폭발적인 인기를 얻은 지 3년 만에 OpenAI의 기술은 일상생활의 다양한 측면을 혁신적으로 변화시켰습니다. 이제 OpenAI는 과학 연구 분야에 집중하며 연구자들을 적극적으로 공략하고 있습니다. 지난 10월, OpenAI는 대규모 언어 모델(LLM)을 활용하여 연구자들을 지원하고, 관련 도구를 최적화하는 데 주력하는 새로운 'OpenAI for Science' 팀 설립을 발표했습니다. 최근 몇 달 동안 소셜 미디어에서는 관련 콘텐츠 대량 했고, 학술지에도 수많은 연구 결과가 발표되었습니다. 수학자, 물리학자, 생물학자 등 다양한 분야의 연구자들은 대규모 언어 모델, 특히 GPT-5가 어떻게 새로운 발견을 하거나 놓쳤을지도 모르는 해결책을 찾는 데 도움을 주었는지에 대한 논문을 발표했습니다.
그렇다면 오픈아이(OpenAI)는 왜 하필 이 시점에 이 분야에 진출했을까요? 이러한 행보는 어떤 목표를 달성하기 위한 것일까요? 과학 연구에 대한 집중은 회사의 더 큰 사명과 어떻게 부합할까요? 사실 오픈아이는 이 분야에서 이미 후발주자입니다. 구글 딥마인드(Google DeepMind)는 이미 몇 년 전에 과학 연구를 위한 AI 팀을 설립하고 알파폴드(AlphaFold)와 알파이볼브(AlphaEvolve) 같은 획기적인 과학 모델을 개발했습니다. 2023년 인터뷰에서 구글 딥마인드의 CEO이자 공동 창립자인 데미스 하사비스(Demis Hassabis)는 이 팀에 대해 "이것이 바로 딥마인드를 설립하게 된 초기 동기입니다. 사실, 제가 제 경력 전체를 AI에 바친 이유이기도 합니다."라고 말했습니다.
최근 인터뷰에서 케빈 웨일은 이러한 질문들에 직접적으로 답변했을 뿐만 아니라, 현재 모델의 능력에 대해 이전보다 더욱 신중한 평가를 내렸습니다. 그는 모델이 아직 획기적인 새로운 발견을 이룰 수준에는 미치지 못하지만, 이미 해결된 문제에 시간을 낭비하는 것을 막아준다면 과학 연구를 가속화할 수 있을 것이라고 말했습니다. 흥미롭게도 그는 오픈AI에 먼저 연락하여 유료 GPT-5 서비스를 구독한 한 연구원이 GPT-5가 인간의 오류보다 더 어리석은 기본적인 오류를 범하기도 하지만, 지속적으로 개선되고 있다고 보고했다고 밝혔습니다.
또한, OpenAI는 AI 연구 분야에서의 전략에 따라 두 가지 주요 방식으로 모델의 전반적인 설계를 최적화할 것입니다. 첫째, GPT-5가 답변을 제공할 때 확신 수준을 낮춰 인지적 겸손함을 보여주도록 하는 것이고, 둘째, GPT-5를 사용하여 자체 출력에 대한 사실 검증을 수행하는 것입니다.
"과학 연구 분야에서 2026년의 중요성은 소프트웨어 엔지니어링 분야에서 2025년의 중요성과 비견될 것입니다."라고 웨일은 말했다. "2025년 초에 누군가가 AI를 활용해 대부분의 코드를 작성했다면, 그는 단지 얼리어답터일 뿐이지만, 1년 후 AI를 활용하지 않았다면 이미 뒤처지고 있을지도 모릅니다. 현재 과학 연구 분야는 프로그래밍 분야와 유사한 초기 발전 모멘텀을 보이고 있습니다. 1년 후, 연구자가 연구에 AI를 심도 있게 활용하지 않았다면, 사고의 질을 향상시키고 연구 진행 속도를 높일 기회를 놓치게 될 것입니다."
인공 일반 지능(AGI)의 모델링 능력은 이미 대학원생의 90%를 능가하며, AGI의 가장 큰 가치는 과학 발전을 촉진하는 데 있습니다.
몇 년 전, 웨일은 오픈AI에 최고제품책임자(CPO)로 합류했으며, 그전에는 트위터와 인스타그램에서 제품 책임자를 역임했습니다. 하지만 그의 경력은 과학 연구에서 시작되었습니다. 스탠퍼드 대학교에서 입자 물리학 박사 학위 과정을 3분의 2까지 마친 후, 실리콘 밸리의 꿈을 쫓기 위해 학계를 떠났습니다. 웨일은 이러한 학문적 배경을 자랑스럽게 언급하며, "예전에는 평생 물리학 교수가 될 거라고 생각했었는데, 지금도 휴가 때면 수학책을 읽곤 합니다."라고 말합니다.
오픈AI 포 사이언스가 회사의 기존 사무직 생산성 도구 및 폭발적인 인기를 누리는 비디오 앱 소라와 어떻게 연관되는지 묻는 질문에 웨일은 즉시 "오픈AI의 사명은 인공 일반 지능(AGI)을 개발하고 이 기술이 모든 인류에게 도움이 되도록 하는 것입니다."라고 답했습니다. 그는 이 기술이 과학 연구 분야에 가져올 미래의 변화, 즉 완전히 새로운 약품, 재료 및 장치를 상상해 보라고 제안했습니다.
"인공 일반 지능(AGI)이 현실의 본질을 탐구하고 미해결 과학 문제를 해결하는 데 어떻게 도움이 될 수 있을지 상상해 보십시오. 아마도 AGI가 인류에게 가져다줄 수 있는 가장 중요하고 긍정적인 가치는 과학 발전을 촉진하는 능력일 것입니다."라고 그는 덧붙였다. "GPT-5의 등장은 우리에게 이러한 가능성을 보여주었습니다."
Weil에 따르면, 오늘날의 대규모 언어 모델은 연구자들에게 귀중한 협력자가 될 만큼 충분히 발전했습니다. 이러한 모델은 아이디어를 생성하고, 새로운 연구 방향을 제시하며, 수십 년 전에 잘 알려지지 않았거나 외국어로 된 학술지에 발표된 기존 해결책과 새로운 문제 사이의 유익한 연결 고리를 찾아낼 수 있습니다. 하지만 불과 1년 전만 해도 상황은 달랐습니다. OpenAI는 2024년 12월 첫 번째 추론 모델(문제를 여러 단계로 나누어 하나씩 해결하는 논리 학습 모델)을 출시한 이후 이 기술의 한계를 끊임없이 확장해 왔습니다. 추론 모델의 등장으로 대규모 언어 모델은 수학적, 논리적 문제를 해결하는 능력이 크게 향상되었습니다.
"몇 년 전만 해도 SAT에서 800점을 받는 모델만으로도 모두가 놀라워했을 겁니다."라고 웨일은 말했습니다. 하지만 이제 대규모 언어 모델은 수학 경시대회에서 우승하고 대학원 수준의 물리학 문제를 해결하고 있습니다. 작년에는 오픈AI와 구글 딥마인드가 세계에서 가장 어려운 수학 경시대회 중 하나인 국제수학올림피아드에서 자신들의 대규모 언어 모델이 금메달급 성적을 거두었다고 발표했습니다. 웨일은 "이러한 모델의 능력은 이미 대학원생의 90%를 훨씬 뛰어넘었으며, 진정으로 인간 능력의 한계에 도달했습니다."라고 말했습니다.
이 주장은 대담하지만, 결점이 없는 것은 아닙니다. 하지만 추론 모델을 탑재한 GPT-5가 복잡한 문제 해결 능력 면에서 GPT-4보다 훨씬 발전했다는 점에는 의심의 여지가 없습니다. 400개 이상의 객관식 문항으로 구성된 업계 벤치마크인 GPQA는 생물학, 물리학, 화학 분야의 박사 학위 수준 전문성을 평가합니다. GPT-4는 이 테스트에서 39%의 정확도를 기록했는데, 이는 인간 전문가의 벤치마크인 약 70%에 훨씬 못 미치는 수치입니다. 반면, OpenAI 데이터에 따르면 2024년 12월에 출시된 최신 버전인 GPT-5-5.2는 92%의 정확도를 달성했습니다.
30년간의 연구 논문을 모두 읽어봤지만, 이 모델은 획기적인 새로운 발견을 내놓지 못했습니다.
바일의 흥분은 분명했지만, 다소 과했던 것 같다. 지난 10월, 바일과 다른 오픈아이언 임원들은 X 플랫폼에서 GPT-5가 여러 미해결 수학 문제에 대한 해답을 찾아냈다고 공개적으로 발표했다. 그러나 수학자들은 GPT-5가 실제로는 초기 연구 논문, 특히 독일 논문 한 편을 포함한 기존 연구 논문에서 이미 나와 있는 해답을 찾아낸 것에 불과하다고 재빨리 지적했다. 이러한 능력은 가치는 있지만, 오픈아이언이 주장했던 획기적인 성과와는 거리가 멀다. 바일과 그의 동료들은 이후 관련 게시물을 삭제했다.
당시 이는 상당한 파장을 일으켰습니다. 처음에는 GPT-5가 이전에 풀리지 않았던 에르되시 문제 10개를 해결하고 다른 11개 문제에 대해서도 진전을 보였다는 소문이 돌았습니다. 그러나 에르되시 문제 웹사이트를 관리하는 수학자 토마스 블룸은 GPT-5가 단순히 해당 문제를 해결할 수 있는 몇 가지 참고 자료를 찾았을 뿐이라고 해명했습니다. 딥마인드 CEO 데미스 하사비스는 팀의 발표가 "너무 성급했다"고 지적했습니다. 메타의 전 수석 AI 과학자 얀 르쿤은 오픈AI가 "자신의 GPT 지지자들에게 이용당했다"며 "자신이 만든 GPT 돌을 들어 올렸다가 스스로 발등을 찍었다"고 비꼬았습니다.
며칠 전, GPT-5.2 Pro가 에르되시 추측, 특히 에르되시 문제 데이터베이스의 281번 문제를 해결했다는 소식이 전해졌습니다. 이 증명은 수학자 닐 소마니가 주도했으며, 필즈상 수상자인 테렌스 타오가 검증했습니다. 타오는 이 증명을 "인공지능이 미해결 수학 문제를 해결하는 가장 확실한 사례 중 하나"라고 평가했습니다. 현재 GPT-5.2 Pro의 증명은 에르되시 문제 웹사이트에 게시되어 있습니다.
GPT-5.2Pro가 이 문제에 대한 새로운 증명을 제시했다고 합니다. 테렌스 타오는 GPT-5.2Pro의 증명 방식이 기존 증명들을 무시하고 있으며, 개념적인 유사점만 있을 뿐 "상당히 다르다"고 지적합니다. 현재 이 문제에 대한 가능한 접근 방식은 두 가지입니다. 하나는 GPT-5.2Pro가 사용하는 에르고딕 이론 프레임 로, "페르스텐베르크 대응 원리"의 변형을 활용하는 방식이고, 다른 하나는 1936년과 1966년에 이미 존재했던 두 정리, 즉 데이븐포트-엘도스 정리와 로저스 정리를 결합하여 더 간단한 해법을 제시하는 방식입니다.
하지만 웨일은 이제 더 신중한 태도를 보입니다. 그는 이미 존재하지만 잊혀진 해답을 찾는 것 자체가 중요하다고 말합니다. "우리 모두는 거인들의 어깨 위에 서 있습니다. 대규모 언어 모델이 이러한 지식을 통합하여 이미 해결된 문제에 시간을 낭비하지 않도록 해준다면, 그것만으로도 과학 연구를 가속화할 수 있습니다." 그는 또한 대규모 언어 모델이 곧 획기적인 발견을 할 것이라는 주장에 대해서도 회의적인 반응을 보입니다. "현재 모델들은 아직 그 수준에 이르지 못했다고 생각하지만, 미래에는 그렇게 될 수도 있겠죠. 저는 그 점에 대해서는 낙관적입니다."
하지만 그는 이것이 팀의 핵심 임무는 아니라고 강조했습니다. "우리의 임무는 과학 발전을 가속화하는 것이며, 과학 발전을 가속화하는 기준이 아인슈타인처럼 전체 분야를 완전히 재구상하는 것을 반드시 요구하는 것은 아닙니다." 웨일의 관점에서 핵심 질문은 단 하나, 과학 발전 속도가 정말로 빨라졌는가 하는 것입니다. "연구자들이 모델을 활용하여 협력할 때, 혼자 연구할 때보다 더 많은 일을 해낼 수 있고 더 효율적입니다. 저는 이미 그러한 사례를 목격했다고 생각합니다."
지난 11월, OpenAI는 사내외 연구원들이 제공한 일련의 사례 연구를 공개하며 GPT-5의 실용적인 응용 사례와 과학 연구를 지원하는 역할을 실제 사례를 통해 보여주었습니다. 웨일은 "이 사례 연구에 참여한 연구원 대부분은 이미 GPT-5를 연구에 직접 활용하고 있었습니다. 그들은 다양한 경로를 통해 저희에게 연락하여 '이 도구가 제게 어떤 도움을 줄 수 있는지 알아보고 싶습니다'라고 말했습니다."라고 밝혔습니다. GPT-5는 기존 연구 결과와 연구원들이 아직 깨닫지 못한 관련 단서를 찾아내어 새로운 아이디어를 제시하는 데 탁월합니다. 또한 연구원들이 수학적 증명을 작성하는 데 도움을 주고, 실험실에서 가설을 검증할 수 있는 실험 아이디어를 제공하기도 합니다.
"GPT 5.2는 지난 30년간 발표된 거의 모든 논문을 읽었습니다. 과학자들의 연구 분야 내용을 이해할 뿐만 아니라, 관련 없는 다른 분야에서도 유사한 아이디어를 추출해낼 수 있습니다."라고 웨일은 말했습니다. "이것은 엄청나게 강력한 기능입니다. 관련 분야에서 인간 협력자를 찾는 것은 언제든 가능하지만, 잠재적으로 관련된 수천 개의 분야에서 수천 명의 협력자를 찾는 것은 훨씬 더 어렵습니다. 게다가, 저는 밤늦게까지 모델과 함께 작업할 수 있습니다. 모델은 휴식이 필요 없고, 동시에 열 가지 질문을 할 수도 있습니다. 이런 작업을 사람과 함께 한다면 필연적으로 어색할 것입니다."
GPT-5는 인간보다 실수를 더 많이 하는데도 로봇들이 그 명령을 더 잘 따르는 걸까?
보도에 따르면, 오픈AI는 웨일의 관점 뒷받침하기 위해 여러 연구원들에게 연락했고, 대다수가 그의 의견에 동의했습니다. 밴더빌트 대학교 물리학 및 천문학 교수인 로버트 셰러는 이전에는 ChatGPT를 취미 삼아 사용해 본 적이 있었습니다. 그는 "한번은 ChatGPT에게 '길리건의 섬' 주제곡을 베오울프 스타일로 바꿔보라고 했는데, 정말 훌륭하게 해냈습니다."라고 말했습니다. 하지만 밴더빌트 대학교 동료이자 현재 오픈AI에서 일하는 물리학자 알렉스 룹사스카가 GPT-5가 자신의 연구 문제를 해결하는 데 도움이 되었다고 말해준 후에야 셰러는 그 모델에 대한 생각을 바꾸게 되었습니다.
루프사스카는 셰러를 위해 오픈AI의 프리미엄 구독 서비스인 월 200달러짜리 GPT-5 프로를 구독했습니다. 셰러는 "저와 제 대학원생들은 몇 달 동안 아무런 성과도 내지 못했던 문제를 GPT-5가 해결해 주었습니다."라고 말했습니다. 하지만 그는 모델이 완벽하지는 않다고 인정하며 "GPT-5는 여전히 몇 가지 기본적인 오류를 범합니다. 물론 저도 실수를 하지만, GPT-5의 오류는 훨씬 더 어처구니없습니다."라고 덧붙였습니다. 그럼에도 불구하고 그는 GPT-5의 발전이 놀랍다고 평가하며 "현재 추세가 계속된다면 머지않아 모든 연구자들이 대규모 언어 모델을 사용하게 될 것이라고 생각합니다. 물론 이는 제 추측일 뿐입니다."라고 말했습니다.
비영리 연구기관인 잭슨 연구소의 생물학 교수인 데리야 우누트마즈는 면역 체계 관련 연구에서 브레인스토밍, 논문 요약, 실험 계획 수립에 GPT-5를 활용합니다. 그가 오픈AI와 공유한 사례 연구에서, 그의 연구팀은 오래된 데이터셋을 분석했는데, GPT-5의 분석 결과 완전히 새로운 통찰력과 해석을 도출해냈습니다. 그는 "대규모 언어 모델은 과학자들에게 필수적인 요소가 되었습니다. 예전에는 몇 달씩 걸리던 데이터셋 분석 작업이 이제는 대규모 언어 모델을 사용하면 가능해졌습니다. 대규모 언어 모델 없이는 불가능에 가깝습니다."라고 말했습니다.
캘리포니아 대학교 버클리 캠퍼스의 통계학자 니키타 지보토프스키는 ChatGPT의 첫 번째 버전이 출시된 이후로 연구에 대규모 언어 모델을 사용해 왔다고 말합니다. 셰러와 마찬가지로 그는 대규모 언어 모델의 가장 유용한 측면은 자신의 연구와 이전에 알려지지 않았던 기존 연구 결과 사이의 예상치 못한 연결 고리를 밝혀내는 능력이라고 생각합니다. "대규모 언어 모델은 컴퓨터와 인터넷이 그랬던 것처럼 과학자들에게 없어서는 안 될 기술 도구가 되고 있다고 생각합니다. 이러한 도구를 사용하지 않는 사람들은 장기적으로 불리할 것입니다." 그러나 그는 대규모 언어 모델이 단기간에 새로운 발견을 가져올 것이라고는 기대하지 않습니다. "모델이 별도의 논문으로 발표할 가치가 있는 진정으로 새로운 관점 나 주장을 제시하는 것을 거의 본 적이 없습니다. 지금까지는 진정으로 새로운 연구 방법을 만들어내기보다는 기존 연구를 통합하는 데 그치고, 때로는 오류를 범하는 것처럼 보입니다."
오픈AI와 아무런 관련이 없는 일부 연구원들은 그다지 낙관적이지 않습니다.
리버풀 대학교 화학과 교수이자 레버험 기능성 소재 설계 센터 소장인 앤디 쿠퍼는 "지금까지는 대규모 언어 모델이 과학 연구 방식을 근본적으로 바꾸지는 않았지만, 최근 연구 결과는 이러한 도구가 유용하게 쓰일 수 있음을 시사합니다."라고 말했습니다. 쿠퍼 교수는 연구 워크플로의 일부를 완전히 자동화할 수 있는 시스템인 이른바 'AI 과학자' 개발을 주도하고 있습니다. 그는 자신의 연구팀이 연구 아이디어를 구상하는 데 대규모 언어 모델을 사용하지는 않겠지만, 로봇 제어 지원과 같은 대규모 자동화 시스템에서 이 기술이 실질적인 가치를 보여주기 시작했다고 밝혔습니다.
"제 생각에는 대규모 언어 모델은 적어도 초기에는 로봇 워크플로우에 더 많이 사용될 것 같습니다. 사람들이 대규모 언어 모델의 명령을 기꺼이 따를지는 확신할 수 없기 때문입니다. 저 자신도 그렇게 하지는 않을 겁니다."라고 쿠퍼는 말했다.
팀의 핵심 목표는 GPT의 자신감을 낮추고 겸손함을 높이는 것입니다.
대규모 언어 모델의 실용성은 날로 증가하고 있지만, 여전히 주의가 필요합니다. 지난 12월, 양자역학을 연구하는 과학자 조너선 오펜하임은 한 과학 저널에서 대규모 언어 모델로 인해 발생한 오류를 지적했습니다. 그는 X 플랫폼에 기고한 글에서 "OpenAI 경영진은 GPT-5가 핵심 아이디어를 제시한 *Physics Letters B* 논문을 홍보하고 있습니다. 이는 대규모 언어 모델이 핵심 관점 제공하고 동료 심사를 거친 최초의 논문일 수 있습니다. 그러나 작은 문제가 있습니다. GPT-5가 제시한 아이디어는 검증 대상 측면에서 완전히 잘못되었습니다. 연구자들은 GPT-5에게 비선형 이론을 탐지하는 검증 실험을 설계해 달라고 요청했지만, GPT-5는 비국소성 이론을 탐지하는 방안을 제시했습니다. 두 가지는 관련 있어 보이지만 실제로는 완전히 다릅니다. 마치 코로나19 진단 키트를 원하는데 대규모 언어 모델이 수두 진단 키트를 건네주는 것과 같습니다."라고 밝혔습니다.
많은 연구자들이 대규모 언어 모델을 창의적이고 실용적인 방식으로 활용하고 있는 것은 분명합니다. 그러나 이 기술이 만들어낼 수 있는 오류는 전문가조차 알아차리지 못할 정도로 미묘할 수 있다는 점 또한 명백합니다. 이러한 문제는 부분적으로 ChatGPT의 상호작용적인 특성에서 비롯되는데, ChatGPT는 종종 부드러운 어조로 사용자를 안심시키려 합니다. 조너선 오펜하임은 "핵심 문제는 대규모 언어 모델의 훈련 목표가 사용자의 요구에 부응하는 데 있는 반면, 과학 연구에는 우리에게 도전적인 도구를 필요로 한다는 점"이라고 지적했습니다. 극단적인 사례로, 연구 분야와 무관한 일반인이 ChatGPT에 속아 몇 달 동안 자신이 새로운 수학 분야를 발명했다고 믿었던 적도 있습니다.
물론, Weil은 대규모 언어 모델에서 착각 문제가 발생한다는 사실을 잘 알고 있지만, 차세대 모델이 착각을 일으킬 확률은 크게 줄어들었다고 강조합니다. 그럼에도 불구하고, 그는 착각에만 초점을 맞추는 것은 핵심을 놓치는 것일 수 있다고 생각합니다.
“제 동료이자 전직 수학 교수였던 분이 제게 깊은 인상을 남긴 말을 한 적이 있습니다. ‘연구를 할 때 동료들과 아이디어를 주고받는데, 제 관점 의 90%는 틀립니다. 하지만 바로 그게 핵심입니다. 우리 모두는 실현 가능한 연구 방향을 찾기 위해 과감하게 아이디어를 브레인스토밍하는 것이죠.’” 웨일은 이렇게 말했습니다. “이것이 바로 과학 연구의 이상적인 상태입니다. 충분히 많은 잘못된 관점 제시하다 보면 누군가 우연히 진실의 한 조각을 발견하고, 다른 누군가는 그것을 붙잡고 ‘당신 말이 완전히 맞는 건 아니지만, 관점을 바꾸면 어떨까요?’라고 토론을 이어가는 거죠. 그렇게 과학 연구라는 안개 속에서 사람들은 점차 앞으로 나아갈 길을 찾을 수 있습니다.”
이것이 바로 웨일이 OpenAI for Science에 제시한 핵심 비전입니다. 그는 GPT-5가 훌륭하지만 만병통치약은 아니라고 생각합니다. 이 기술의 가치는 최종 답을 제시하는 것보다 사람들이 새로운 방향을 탐색하도록 안내하는 데 있습니다. 실제로 OpenAI는 현재 GPT-5의 한 기능을 최적화하는 작업을 진행 중입니다. 바로 답을 제시할 때 확신도를 낮추는 것입니다. 더 이상 "정답은 여기 있습니다"라고 직접적으로 말하는 대신, 연구자들에게 "다음 아이디어는 참고용입니다"와 같이 보다 미묘한 방식으로 알려줄 것입니다. 웨일은 "우리가 현재 대량 노력을 기울이고 있는 부분이 바로 이것입니다. 모델에 인지적 겸손함을 부여하는 것이죠."라고 말했습니다.
OpenAI가 GPT-5를 활용하여 자체 출력 결과를 검증하는 또 다른 방향을 모색하고 있다는 사실이 밝혀졌습니다. 실제 응용 사례에서는 GPT-5의 답변을 모델에 다시 입력하면 모델이 한 줄씩 분석하여 오류를 지적하는 것을 흔히 볼 수 있습니다. 웨일은 "모델이 자체 검증자 역할을 하도록 할 수 있습니다. 이를 통해 다음과 같은 워크플로를 구축할 수 있습니다. 모델이 먼저 초기 추론을 완료한 다음 결과를 다른 모델에 제출하여 검토를 받습니다. 이 모델이 개선할 부분을 발견하면 '이 부분은 틀렸지만 이 사고 과정은 가치 있으므로 유지할 수 있습니다.'라고 원래 모델에 피드백합니다. 마치 두 개의 지능형 에이전트가 협력하는 것과 같습니다. 출력 결과가 검증자의 검토를 통과한 후에야 최종적으로 제시됩니다."라고 설명했습니다.
이 메커니즘은 구글 딥마인드가 알파이볼브(AlphaEvolve)를 위해 개발한 모델과 매우 유사합니다. 알파이볼브는 대규모 언어 모델인 제미니(Gemini)를 더 큰 시스템 안에 통합하여, 양질의 응답을 걸러내고 이를 모델 개선에 피드백하는 도구입니다. 구글 딥마인드는 알파이볼브를 활용하여 여러 실제 과학 연구 문제를 해결해 왔습니다.
오늘날 OpenAI는 다른 회사들의 대규모 언어 모델과의 치열한 경쟁에 직면해 있습니다. 이들 모델은 OpenAI가 주장하는 모든 기능을 구현하지는 못하더라도 대부분의 기능을 수행할 수 있습니다. 그렇다면 연구자들이 매년 개선되고 업그레이드되는 Gemini나 Anthropic의 Claude 시리즈 모델 대신 GPT-5를 선택할 이유가 있을까요? 궁극적으로 OpenAI의 과학 분야 전략은 이 새로운 분야에서 선두 자리를 확보하는 데 중점을 두고 있습니다. 하지만 진정한 기술 혁신은 아직 도래하지 않았습니다.
참고 링크:
https://www.technologyreview.com/2026/01/26/1131728/inside-openais-big-play-for-science/
https://openai.com/zh-Hans-CN/prism/
이 기사는 화웨이가 위챗 공식 계정 "AI 프론트라인" 에 게시한 기사이며, 36Kr의 허가를 받아 게재되었습니다.





