GPT-4.5 IQ테스트 94, LLM 아레나 1위, 네티즌들 내부사정 의문 제기, 실제 테스트 결과도 놀랍다

avatar
36氪
03-04
이 기사는 기계로 번역되었습니다
원문 표시

LM Arena에서 유명한 AI 순위에서 전체 순위 최하위였던 GPT-4.5가 어느새 1위를 차지했다? 심지어 수학, 프로그래밍 등의 분야에서 뛰어난 성과를 보여 네티즌들이 의심하기 시작했다: 대규모 언어 모델 경기장이 LLM에 의해 조작되고 있는 것은 아닌가? 그러나 실험 결과 GPT-4.5가 실제로 뛰어난 감성 지능을 가지고 있어 추론 없이도 인간의 깊은 의도를 이해할 수 있다는 것이 밝혀졌다!

GPT-4.5의 평판이 다시 반전되었다?

3,000회 이상의 비교 끝에 GPT-4.5가 모든 부문에서 1위를 차지하며 LLM 경기장 정상에 올랐다!

지능지수가 아닌 감성지수로 평가받은 GPT-4.5는 이전 기준 테스트에서 최하위였지만, 이번에는 완전히 다른 모습을 보였다.

결과적으로 그것이 대규모 언어 모델 경기장의 정상에 올랐다??

LLM Arena 순위표에 따르면 GPT-4.5가 모든 부문에서 1위를 차지했고, 스타일 제어와 다중 대화 부문에서 독보적인 성과를 거두며 총점 1,411점을 받았다.

다중 대화, 어려운 프롬프트, 코딩, 수학, 창의적 작문, 지시 준수, 장문 질의 등 모든 분야에서 1위를 차지했다!

이 결과는 정말 예상치 못한 것 같다...

마스크는 즉시 GPT-4.5가 일시적인 1위일 뿐 오래가지 않을 것이라고 말했다.

마스크의 말이 채 가시기도 전에 대규모 언어 모델 경기장의 1위는 Grok-3로 바뀌었다. 총점 1,412점으로 GPT-4.5와 점수 차이가 극히 작다.

하지만 어쨌든 일시적으로 1위를 차지했던 GPT-4.5는 사람들에게 많은 의문을 남겼다: 그것은 단순히 감성 지능이 뛰어난 것뿐만 아니라 압도적인 지능으로 o1, Grok-3, Clauede 등 선배들을 제압했다는 것이다?

감성 지능을 강조하는 GPT-4.5가 프로그래밍, 수학 등의 분야에서도 1위를 차지할 수 있을까?

이제 많은 네티즌들이 대규모 언어 모델 경기장에 문제가 있다고 의심하기 시작했다.

심지어 어떤 이들은 LLM이 LMArena를 조종하고 있다고 추측하고 있다.

GPT-4.5 지능 결과 공개: 점수 94점, 5위 랭크

동시에 GPT-4.5의 지능 테스트 결과도 공개되었다.

오프라인 테스트에서 지능 점수 97점, 온라인 멘사 테스트에서 94점을 받았다.

이 결과는 OpenAI의 o1 Pro, o3 mini, o1-preview보다 낮다.

이 결과는 어느 정도 합리적이라고 볼 수 있다.

오프라인 지능 테스트에서 가장 높은 점수를 받은 것은 OpenAI o1 pro이고, 온라인 멘사 테스트에서 가장 높은 점수를 받은 것은 OpenAI o1이다.

하지만 인간과 비교하면 GPT-4o는 이미 인간 수준의 지능을 갖추고 있다고 할 수 있다.

인간의 평균 지능은 90~110 사이이고, 아인슈타인의 지능은 약 160, 세계에서 가장 높은 지능을 가진 것으로 알려진 토머스 소웰은 225~230점 사이이다.

인간의 지능이 LLM에 의해 넘어섰다는 것은 이제 시간문제일 것 같다.

그러나 많은 사람들이 의문을 제기하고 있다: LLM에게 지능 테스트를 하는 것이 과연 의미가 있을까?

이는 지능이 인간 정신의 고유한 특성과 관련된 척도이기 때문에 LLM과 관련이 없기 때문이다.

네티즌 실험 결과 놀라움: 사용자 의도를 잘 이해한다!

최근 오토만이 GPT-4.5와의 대화 내용을 공개했다.

그는 "특이점이 다가오고 있는데 그 결과가 어떨지 모르겠다"라고 질문했고, GPT-4.5는 깊이 있게 답변했다.

많은 네티즌들도 GPT-4.5가 사용자의 의도를 매우 잘 이해한다는 것을 실험을 통해 발견했다.

예를 들어 어떤 사용자가 체스와 관련된 저속한 농담을 했을 때, GPT-4.5는 어려움 없이 그 농담을 이해하고 적절하게 대응했다.

이 AI 전문가는 GPT-4.5의 이런 능력에 깊은 인상을 받았다고 말했다. 사전 훈련이 특정 분야에서는 효과가 줄어들었지만 다른 분야에서는 놀라운 발전을 이루었다고 평가했다.

반면에 이 저속한 농담을 이해하지 못한 것은 Claude Sonnet와 Grok 3였다.

对此,不服气的马斯克还出现在了评论区,贴上了Grok 3的回复,力证它并没有落后。

GPT-4.5并非文武双全

仔细看竞技场排名,目前在「语言」(language)选项上,UB排名第一的是Grok-3-Preview-02-24,得分1412,共3364次投票。

GPT-4.5-Preview的UB排名第二,得分1411,只在「风格控制」(StyleCtrl)上排名第一,共3224次投票。

· UB排名: 模型的排名上限,由统计上优于目标模型的数量加一确定。当模型A的95%置信区间下限分数高于模型B的上限分数时,认为模型A在统计上优于模型B。· 风格控制排名:考虑了响应长度和Markdown使用等影响因素的模型排名,从而将模型性能与潜在的混淆因素分离。

「综合」(Overall)选项上,Grok-3和GPT-4.5排名并列第一,后者在部分项目上有微弱优势。

在编程(coding)和数学(math)上,GPT-4.5的确和Grok-3并列第一。

按不同语言分类,Grok-3和GPT-4.5在英文、中文、德文等语言上并列第一。

此外DeepSeek-R1在中文上也是第一。

WebDev Arena是实时进行的AI编程竞赛,各个模型在「网页开发」挑战中直接对决,GPT-4.5压根没参赛!

而且OpenAI的模型表现并非佳,最好的o3-mini-high与Early-grok-3并列第4,落后与Claude 3.7 Sonnet、Claude 3.5 Sonnet以及DeepSeek-R1。

GPT-4.5新王登基?测试让人大跌眼镜

对于GPT-4.5,某研究者也发表了一篇博客,来对它详细进行了剖析。

GPT-4.5在社区中引发了褒贬不一的反应。

尽管前期进行了大肆炒作,该模型却未能完全达到人们的高期望。

一些测试结果让人大跌眼镜。

Karpathy的测试表明,在五分之四的情况下,用户更倾向于GPT-4o的回答。

尽管GPT-4.5被宣传为更具创意和情商,但在实际的用户体验中,这些优势并没有充分体现出来。

甚至有用户反馈,在创意写作方面,GPT-4.5的表现不如之前的模型。

此外,高昂的使用成本也成为了推广GPT-4.5的一大障碍。

与GPT-4o相比,GPT-4.5的API价格大幅上涨:输入token价格从每百万2.50美元涨到了75美元,输出token价格从每百万10美元涨到了150美元。

用户对GPT-4.5的高价普遍表示难以接受,一些网友直言「只是为了感觉更有氛围而花75美元」。

对于小型公司和独立开发者来说,如此高昂的成本无疑是一个巨大的负担,影响了GPT-4.5的广泛应用。

GPT-4.5的高价格可能反映了背后的资源约束。

Altman表示,尽管公司希望同时推出GPT-4.5 Plus和Pro版本,但GPU资源已经用尽,计划在下周增加数万个GPU,然后才能推广到Plus用户。

尽管GPT-4.5在某些方面取得了明显的进步,许多人期望的全面改进却并未实现。

由于其庞大的规模和复杂的架构,GPT-4.5的响应速度更慢,降低了用户体验。

Sam Altman对GPT-4.5的高调宣传,抬高了人们的期望,他将其描述为第一个「真正让人感受到AGI」的时刻。

如果现实未能达到预期,这种宣传也会像回旋镖一样对他不利。

为什么现在发布GPT-4.5?

与GPT-4两年前的盛大发布相比,GPT-4.5的发布出奇地低调简约,令许多人感到意外。

Sam Altman没有亲自出席这次发布会,这引发了外界对OpenAI对GPT-4.5的重视程度和信心的疑问。

GPT-4.5的目标受众主要是广大的普通用户,借助AI完成撰写邮件、总结文章等任务。

GPT-4.5是OpenAI从GPT-4o向GPT-5过渡的关键桥梁,成为了创意、沟通和解决实际问题的日常伙伴。

OpenAI明确表示,GPT-4.5并非旨在取代GPT-4o,这一表态进一步增加了市场对GPT-4.5未来的不确定性。

对许多人来说,ChatGPT就是AI的代名词,再加上OpenAI对AGI的大力炒作,提高了人们对新模型的期待。

GPT-4.5发布的原因可能是市场竞争加剧。

短时间内,越来越多更好的模型进入市场。DeepSeek R1可以与GPT-4o相媲美,xAI的Grok 3看起来几乎像人类,OpenAI面临着巨大的压力。

GPT-5预计在几个月内发布,首次在模型中结合推理和非推理组件,可以自主决定对查询的反应强度,即「推理扩展」。

GPT-4.5是战略性回应,目标是留住付费用户,防止其在GPT-5发布前转向竞争对手,保持OpenAI在市场中的领先地位。

参考资料:

https://x.com/lmarena_ai/status/1896590146465579105 https://x.com/elonmusk/status/1896624102674506172

https://www.forwardfuture.ai/p/gpt-4-5-a-new-king-on-the-throne

https://x.com/sama/status/1896653628674625812

本文来自微信公众号"新智元",作者:新智元,36氪经授权发布。

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
Followin logo