2월 28일, Open AI가 큰 발표를 했습니다. GPT-4.5가 "역사상 가장 큰 규모, 가장 풍부한 지식, 가장 비싼 가격의 AI 대형 모델"이라는 타이틀로 등장했습니다. CEO 샘 알트만은 트위터에서 이 모델을 극찬하며 "지금까지 논의했던 가장 좋고 심도 있는 모델"이라고 말했고, "이 녀석이 처음으로 AI가 사람 같다고 느끼게 해줬다"고 말했습니다.
하지만 이번 발표회는 극적이었습니다. 알트만이 온라인에서 GPT-4.5를 극찬했지만, 본인은 발표회에 참석하지 않았는데, 그 이유는 막 아버지가 되어 병원에서 아이를 돌보느라 바빴기 때문입니다.
2년 전 GPT의 신화에서부터 오늘날의 GPT-4.5 등장까지, 이 새로운 AI 대형 모델이 우리에게 어떤 것을 가져다 줄까요?
이번에는 "인간미"를 잡았다
GPT에 대한 기대는 더 말할 필요가 없겠죠. 2년 전 GPT-4가 대단한 활약을 펼쳤고, 사용해본 사람들은 모두 "와"라고 말했습니다.
하지만 시간이 빨리 흘러, 어느새 GPT-4.5의 발표회가 열렸습니다. 그러나 더 이상 "압도적"이라는 느낌은 없어 보입니다.
이번 GPT-4.5는 성능 면에서 사람들의 기대치에 미치지 못한다고 봅니다.
GPT-4o의 10배 계산 능력을 사용했다고 하지만, 전반적인 데이터를 보면 큰 향상은 없어 보입니다.
심지어 이름과도 잘 어울리는데, 약 "반 세대" 정도의 향상만 있었습니다.
온라인에서 전문가들이 AI에 자주 사용되는 고전 물리 테스트를 해봤는데, 성능이 나쁘지 않았습니다. 공 움직임 속도가 빨랐고, 큰 공을 넘지도 않았습니다.
하지만 추론 능력에서는 GPT-4.5가 GPT-4o에 비해 전반적으로 약간 향상되었지만, GPQA(과학), AIME'24(수학), SWE-Bench Verified(프로그래밍) 능력에서는 OpenAI o3-mini에 완전히 뒤처졌습니다.
따라서 이번 GPT-4.5의 장점은 OpenAI가 말한 "인간미"라고 할 수 있습니다.
GPT-4.5의 인간미는 어디에서 드러날까요?
GPT-4.5를 실제로 보여주기 전에, OpenAI는 먼저 GPT-1부터 GPT-4.5까지의 진화 과정을 보여주었는데, 매우 흥미로웠습니다. 그들은 상식적인 질문을 했습니다: 왜 바다는 짠가요?
GPT-1의 답변은 이렇습니다. 자신이 무슨 말을 하는지도 모르는 것 같습니다.
GPT-2와 GPT-3.5는 자신이 무슨 말을 하는지 알기 시작했고, 약간의 단서를 보여줍니다.
GPT-4는 우리가 가장 익숙한 답변 스타일입니다. 논리적이고 근거가 있지만, 너무 딱딱해서 전혀 인간적이지 않습니다.
그리고 GPT-4.5에 이르면, GPT-4와 크게 다르지 않다는 것을 알 수 있습니다. 이는 추론 및 논리 능력에 큰 변화가 없다는 것을 의미합니다.
가장 큰 변화는 어조에 있습니다. 한편으로는 말이 더 간단해지고 일상적인 단어를 사용하며, 다른 한편으로는 "느낌표"를 사용해 감정이 담긴 말투를 보여줍니다.
GPT-4.5의 감성 능력을 가장 잘 보여주는 것은 감정이 담긴 질문을 해보는 것입니다. 예를 들어 "시험에 떨어져서 너무 힘들어요."라고 말하면,
GPT-4o는 순수 논리적 분석만 하지만, GPT-4.5는 감정을 고려하여 위로하고 자신감을 주며 해결책을 제시합니다.
더 재미있는 것은, 이런 감성 능력 때문에 문과 분야에서 더 뛰어날 수 있다는 점입니다. 실제로 음악 추천 능력이 GPT-4o보다 훨씬 뛰어난 것으로 나타났습니다.
이는 음악이 논리적 추론보다는 감성적 감식안을 필요로 하기 때문인 것 같습니다. 이것이 바로 GPT-4.5의 강점입니다.
과거 사람들이 기대했던 "똑똑한 두뇌"와 달리, 이번 GPT-4.5는 더 이상 "문제 풀이 로봇"이 아니라 지적 능력은 여전히 뛰어나면서도 감성 지능이 탁월한 "친절한 언니" 같은 존재입니다. 언제든 당신의 감정적 가치를 제공할 수 있습니다.
DeepSeek가 GPT-4.5를 압도한다
물론 감성 지능 얘기가 나오면 DeepSeek도 빼놓을 수 없습니다. 당시 DeepSeek가 나왔을 때, 저렴한 가격뿐만 아니라 "인간미"도 큰 화제였죠. 가장 유명한 것은 이 채팅 캡처 화면입니다:
많은 사람들이 당시 DeepSeek가 "AI가 깨어났다"고 말했습니다. 때로는 인터넷 유행어로 대답하기도 했죠. 그렇다면 새로 나온 GPT-4.5와 비교하면 어떨까요? 저도 방금 시험 불합격 문제를 물어봤습니다:
제가 보기에 DeepSeek의 답변도 좋습니다. GPT-4.5와 거의 똑같이 위로하고, 자신감을 주며, 해결책을 제시하네요. 그래서 우리가 DeepSeek를 사용할 때 감성 지능이 높다고 느꼈던 것은 잘못된 인식이 아니었습니다. DeepSeek도 GPT-4.5와 어깨를 나란히 할 만큼 감성 지능이 뛰어납니다.
하지만 비용만 따지면 불공정하죠(게다가 GPT-4.5도 그렇게 능력이 뛰어나 보이지는 않네요). 많은 사람들이 GPT-4.5의 가격을 처음 봤을 때 가격이 잘못 표기된 것인지, 아니면 자신의 눈이 잘못된 것인지 의심했습니다.
GPT-4.5의 API 가격은 정말 엄청나게 비쌉니다. 입력 100만 Tokens당 75달러, 출력 100만 Tokens당 150달러로, GPT-4o의 30배나 됩니다. 반면 경쟁 모델 Claude 3.7은 입력 100만 Tokens당 3달러, 출력 100만 Tokens당 15달러에 불과해, 국외에서는 GPT-4.5가 10~25배 더 비싼 셈입니다.
科技界有人测算过,假如提问一个几十个汉字的问题,再拿到一个三四千字的答案,这里的价格就要掏 60 块钱左右。
或许这就是 OpenAI 这次最想告诉你的:当今世界最值钱的东西就是情绪价值,一个高情商的回答,就能比"直男"的 4o 要贵几十倍。
但假如我掏出 DeepSeek,那 GPT 将如何应对呢?现在 DeepSeek V3 的价格,输入是 2 块(换算于 0.27 美元),输出是 8 块(换算于 1.1 美元)。
GPT-4.5 整整贵了 277 倍和 150 倍,能力相当,但价格却这么贵,OpenAI 凭啥呢?
训练预期达到瓶颈 ?
最近的 Grok 3 和 GPT-4.5 可以说是接连推出,或许这与 DeepSeek 的出现有关,两者的出现,似乎有一点被"逼急"的感觉。
例如像 Grok 3,马斯克称他为"全球最聪明的 AI 大模型",然而前段时间也并没有轰动,同样的,现在出来的 GPT-4.5,在"情商"上有提升?但性能表现同样没能达到大家的预期,要知道,OpenAI 一直都是业界领先的存在,但这次却并不如人意。
或许,我们所熟知的,通过烧钱买卡,力大砖飞硬抬算力的 AI 之路开始进入瓶颈期了。
GPT-4.5 的这个项目从很早就开始立项了,但经过 2 年后现在才出来,很有可能,是中间的训练的过程一直没有出现理想的结果,直到现在被 DeepSeek 威胁到自身才急急忙忙端出来。
早在 2 月 19 日的时候,山姆奥特曼就已经预告过他们已经达到 4.5 的水平,所以这次的发布,其实是早在计划之内。
但当时他也说过,之后要想达到 GPT-5.5,则需要再增加 100 倍的算力。
那可是 100 倍算力,恐怕显卡都要堆成珠穆拉玛峰了,而且就算多少张 GPU 先不说,现在的 AI 用电量已经是全美的 4% 了,要想再翻 100 倍,那是要耗费多少个美国的电量呢?4 个美国吗?这有可能吗?
目前 AI 大模型主要走的是两条路,一条是国外的烧钱堆算力路线,另一条则是 DeepSeek 在算法上强化学习的路线。或许我们现在要期待的,是看一下 DeepSeek R2 能否在性能上达到大的突破,假如可以的话,或许我们走的路,才是正确的路。
参考资料:
知乎、X、facebook、youtube、b站、新浪微博
本文来自微信公众号 "科技狐"(ID:kejihutv),作者:老狐,36氪经授权发布。