GPT-5의 효과가 기대에 크게 미치지 못하는 것으로 알려졌습니다.
OpenAI가 최근 12번의 발표회를 마쳤지만, 사람들이 가장 기대했던 GPT-5/4.5의 모습은 보이지 않았고, 이에 월스트리트저널이 폭로했습니다.
GPT-5는 최소 2차례의 훈련을 완료했지만, 매번 새로운 문제에 직면했다고 합니다.
OpenAI는 GPT-5를 위해 전문적으로 코드를 작성하고 수학 문제를 해결할 인력을 고용하고 있으며, o1 합성 데이터도 사용하고 있지만 효율이 높지 않아 GPT-5의 사전 훈련 요구 사항을 충족하기 어려운 상황입니다.
시장 추정에 따르면, 6개월 동안의 훈련에 계산 비용만 5억 달러가 소요될 것으로 보입니다. GPT-5의 두 차례 훈련 진행이 순조롭지 않았던 만큼, 그 뒤의 비용도 천문학적일 것으로 보입니다.
Ilya가 최근 NeurIPS 2024에서 선언한 사전 훈련의 종말이 다시 한 번 입증되는 것 같습니다.
이는 The Information의 이전 보도와도 일치합니다. GPT 시리즈의 진화 속도가 늦춰지면서 OpenAI가 o1, o3 시리즈 출시 등 전략 조정을 시도하고 있습니다.
현재 OpenAI는 이번 보도에 대해 아직 답변하지 않고 있습니다.
하지만 GPT-5가 OpenAI가 숨기고 있는 것인지, 아니면 발표할 수 없는 상황인지는 더욱 확실해졌습니다.
방대한 데이터와 계산 능력으로도 GPT-5의 사전 훈련을 완성하기 어려운 상황
월스트리트저널의 보도에 따르면, OpenAI는 GPT-5에 대한 기대가 매우 높습니다.
GPT-5는 과학적 발견을 수행하고 예약, 항공권 예약 등 일상적인 인간 작업을 완수할 수 있을 것으로 기대되며, 오류를 줄이거나 오류의 존재를 인정할 수 있을 것으로 기대됩니다.
이는 이전에 공개된 정보와도 일치합니다. OpenAI의 전 CTO Mira는 GPT-5의 지능 수준을 박사 과정 학생에 비유한 바 있습니다.
이는 GPT-5가 특정 분야에서 높은 성과를 거둘 수 있고, 연구원이나 박사 수준의 깊이 있는 이해, 추론 능력과 전문 지식을 갖출 수 있다는 의미입니다. 이에 비해 GPT-3은 걸음마 단계의 아이, GPT-4는 고등학생 수준입니다.
올해 10월, OpenAI가 최근 조달한 66억 달러의 자금 조달로 기업 가치가 1570억 달러까지 치솟았습니다. 투자자들의 추가 투자는 GPT-5가 중대한 도약을 이룰 것이라는 믿음 때문인 것으로 보입니다.
하지만 GPT-5의 출시는 계속 지연되고 있습니다.
이전에 OpenAI의 Dario Amodei는 GPT-5에 명확한 출시 시기가 없다고 밝혔습니다. 준비가 되면 언제든 출시할 수 있으며, 이는 2025년 또는 2026년이 될 수 있습니다.
돌이켜 보면, GPT-5의 출시가 계속 험난했던 것으로 보입니다.
2023년에는 OpenAI가 Arrakis라는 코드명의 모델을 포기했다고 알려졌습니다. 이 모델은 성능을 유지하면서도 계산 자원 수요를 줄이지 못해 기대한 훈련 효율을 달성하지 못했기 때문입니다.
이는 더 큰 규모의 모델을 훈련하려면 더 많은 계산 자원과 시간이 필요하다는 것을 역으로 증명합니다.
GPT-5는 분명 '거대한' 모델이 될 것입니다.
GPT-5 개발은 GPT-4 출시 시점부터 시작되었으며, 지금까지 18개월 이상 지났습니다.
내부 코드명은 오리온(Orion)입니다. 원래 계획에 따르면 마이크로소프트가 2024년 중반에 GPT-5를 보고자 했습니다.
월스트리트저널에 따르면, GPT-5의 대규모 훈련은 최소 2차례 진행되었으며, 매번 수개월이 소요되었고 새로운 문제가 발생했다고 합니다.
최선의 경우에도 Orion은 OpenAI의 현재 제품보다 성능이 좋을 것입니다. 하지만 투입된 비용에 비하면 그 향상은 크지 않습니다.
추정에 따르면, 6개월 간의 훈련에 계산 비용만 5억 달러가 소요될 것으로 보입니다. 이에 비해 GPT-4의 훈련 비용은 1억 달러를 넘었습니다.
다른 한편으로, 더 나은 모델을 위해서는 더 많은 데이터가 필요합니다.
공개 데이터 자원이 고갈되자 OpenAI는 직접 데이터를 구축하기로 했습니다. 보도에 따르면 소프트웨어 엔지니어와 수학자를 고용하여 코드를 작성하고 수학 문제를 해결하는 데이터를 제공하고 있습니다.
AI 업계에서는 모델이 코드를 학습하면 다른 문제를 해결하는 능력이 향상될 것이라고 믿어왔습니다.
또한 OpenAI는 물리학자들과 협력하여 GPT-5가 과학자들이 문제를 이해하는 방식을 학습하도록 하고 있습니다.
하지만 이 방식은 너무 느립니다.
OpenAI는 AI 합성 데이터 활용 방식도 시도하고 있습니다. GPT-5에는 o1에서 합성한 데이터가 사용되었다고 합니다.
이러한 접근법은 이미 입증되고 있습니다.
Anthropic도 AI 합성 데이터를 사용하여 모델을 훈련하고 있다고 알려졌습니다. 그들은 가장 유용한 모델 내부의 합성 데이터를 보유하고 있는데, 모델 성능이 합성 데이터의 품질에 직접 비례하기 때문입니다.
이상이 GPT-5와 관련된 최신 정보입니다.
하지만 최근에는 누가 GPT-5에 관심이 있겠습니까(웃음)?
결국 OpenAI는 o1, o3 시리즈를 통해 추론 Scaling Law를 열었습니다.
최근 발표된 o3은 ARC-AGI 벤치마크에서 새로운 기록을 세웠습니다. 400개의 공개 과제에서 최고 91.5%의 정확도를 달성했습니다.
o3의 핵심 메커니즘도 새로운 통찰을 제공했습니다. 토큰 공간에서 검색하고 실행하는 방식으로 테스트 시 지식을 재구성했습니다.
o3 시리즈 출시와 함께 AGI에 대한 기대감은 여전히 매력적입니다.
o3가 ARC-AGI 테스트를 휩쓸었지만, AGI까지는 아직 멀어 보입니다.
ARC-AGI 데이터셋에 대해 간단히 소개하면, 문제는 색상이 있는 격자 배열(텍스트로 표현되며 숫자로 색상 표현)이며, 대형 모델은 3개의 입력-출력 예시를 관찰하고 새로운 빈 격자를 채워야 합니다.
이 예시는 비교적 간단하지만, 실제 문제는 다음과 같을 수 있습니다:
ARC-AGI 테스트 세트에는 총 400개의 공개 문제와 100개의 비공개 문제가 포함되어 있습니다.
공개 문제에서 o3의 고효율 버전은 82.8%의 정확도를 달성했으며, 1.11억 토큰을 소비했고 평균 과제당 비용은 17달러였습니다.
저효율 버전(고효율 버전의 172배 계산량)은 91.5%의 정확도를 달성했지만, 95억 토큰이라는 엄청난 양의 토큰을 소비했습니다.
ARC挑战的发起者之一、前谷歌资深工程师、Keras之父François Chollet认为,o3能够适应以前从未遇到过的任务,可以说在ARC-AGI领域接近人类水平。
当然成本也十分昂贵,即使是低计算量模式,每个任务也需要17-20美元,而发起方雇佣真人解决此类问题的成本,平均到每个问题只有5美元。
但抛开成本问题,Chollet指出,o3对GPT系列的改进证明了架构的重要性,认为无法在GPT-4上通过投入更多计算来获得这样的成绩。
所以,通过ARC-AGI测试,意味着o3实现AGI了吗?Chollet认为并不是。
通过测试发现,o3在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。
另外,ARC-AGI的下一代ARC-AGI-2也即将推出,早期测试表明其将对o3构成重大挑战,即使在高计算量模式下,其得分也可能会降低到30%以下(而聪明人仍然能够得分超过95%)。
但无论是否达到AGI,o3能够实现的成绩都是前所未有的,甚至有人认为,针对ARC这样的任务而言,人类的优势其实是在于视觉推理,如果改成像模型看到的那样用文本形式描述图形,那人类做的不一定会比AI好。
并且,针对o3"没能成功"的一个案例,还有人质疑是标准答案错了。
这道题当中,变化规律是将处于同一行或列的两个蓝色格子连成线,并把穿过的红色区域整块涂蓝。
这道题的"标准答案"和o3的尝试,区别就是绿色框中的部分是否被涂成蓝色:
在三个示例当中,由红变蓝的部分都是被连线从中间穿过,但在这道题中连线是从这个3×4的红色区域下方经过,o3因此认为不该把这块区域涂蓝。
那么,o3又是怎么实现的呢?
有人认为是通过提示词,但ARC挑战负责人Greg Kamradt和OpenAI的研究人员Brandon McKinzie均否认了这一说法,表示给o3的提示词非常简单。
另外Chollet推测,o3的核心机制似乎是在Token空间内搜索和执行自然语言程序——在某种评估器模型引导下,搜索可能的描述解决任务所需的步骤的思维链空间。
按照Chollet的观点,o3实现了在测试时的知识重组,总之,o3构建出了一种通向AGI的新的范式。
英伟达AI科学家范麟熙(Jim Fan)认为,o3的本质是"放松单点RL超级智能,以覆盖有用问题空间中的更多点"。
也就是用深度换取广度,放松对于个别任务的强化学习,换得在更多任务上的通用性。
范麟熙举例说,像AlphaGo、波士顿动力电子地图集都是超级人工智能,在特定的任务上表现非常出色。
但o3不再是像这样只能应付单点任务的专家,而是一个在更大的有用任务集都表现优异的专家。
不过范麟熙也表示,o3仍然无法涵盖人类认知的所有分布,我们仍然处于莫拉维克悖论之中。
(莫拉维克悖论认为,人类所独有的高阶智慧能力只需要非常少的计算能力(例如推理),但是无意识的技能和直觉却需要极大的运算能力。)
ARC挑战发起方的发现——o3在一些非常简单的任务上失败,似乎刚好印证了这一观点。
最后,关于AGI,范麟熙表示,我们已经实现了巨大的里程碑,并且有清晰的路线图,但还有更多事情要做。
One More Thing
作为12天发布的一部分,OpenAI在最后一天发布o3的同时,也发了一篇关于安全问题的论文。
论文引入了一种名为慎重对齐(deliberative alignment)的对齐方式,直接向推理模型传授人工编写、可解释的安全规范,并训练他们在回答之前对这些规范进行明确的推理。
结果,训练出的模型不需要人工标记的CoT或答案,就可以高度精确地遵守OpenAI的安全政策。
OpenAI发现,o1在一系列内部和外部安全基准方面显著优于GPT-4o等其他最先进模型 ,并且在许多具有挑战性的(安全)数据集上的性能达到饱和。
这一发现,揭示了推理将成为提高模型安全性的一条新途径。
参考链接:
[1]https://www.wsj.com/tech/ai/openai-gpt5-orion-delays-639e7693?st=ng5hBi
[2]https://x.com/mckbrando/status/1870285050555810198
[3]https://x.com/DrJimFan/status/1870542485023584334[4]https://arcprize.org/blog/oai-o3-pub-breakthrough
本文来自微信公众号"量子位",作者:关注前沿科技,36氪经授权发布。