'지능'으로 경쟁하는 대신, '감성 지수'로 경쟁하자? GPT-4.5, 그게 다예요?

03-02

이 기사는 기계로 번역되었습니다

원문 표시

다음과 같이 한국어로 번역합니다:

2월 28일, Open AI가 큰 발표를 했습니다. GPT-4.5가 "역사상 가장 큰 규모, 가장 풍부한 지식, 가장 비싼 가격의 AI 대형 모델"이라는 타이틀로 등장했습니다. CEO 샘 알트만은 트위터에서 이 모델을 극찬하며 "지금까지 논의했던 가장 좋고 심도 있는 모델"이라고 말했고, "이 녀석이 처음으로 AI가 사람 같다고 느끼게 해줬다"고 말했습니다.

하지만 이번 발표회는 극적이었습니다. 알트만이 온라인에서 GPT-4.5를 극찬했지만, 본인은 발표회에 참석하지 않았는데, 그 이유는 막 아버지가 되어 병원에서 아이를 돌보느라 바빴기 때문입니다.

2년 전 GPT의 신화에서부터 오늘날의 GPT-4.5 등장까지, 이 새로운 AI 대형 모델이 우리에게 어떤 것을 가져다 줄까요?

이번에는 "인간미"를 잡았다

GPT에 대한 기대는 더 말할 필요가 없겠죠. 2년 전 GPT-4가 대단한 활약을 펼쳤고, 사용해본 사람들은 모두 "와"라고 말했습니다.

하지만 시간이 빨리 흘러, 어느새 GPT-4.5의 발표회가 열렸습니다. 그러나 더 이상 "압도적"이라는 느낌은 없어 보입니다.

이번 GPT-4.5는 성능 면에서 사람들의 기대치에 미치지 못한다고 봅니다.

GPT-4o의 10배 계산 능력을 사용했다고 하지만, 전반적인 데이터를 보면 큰 향상은 없어 보입니다.

심지어 이름과도 잘 어울리는데, 약 "반 세대" 정도의 향상만 있었습니다.

온라인에서 전문가들이 AI에 자주 사용되는 고전 물리 테스트를 해봤는데, 성능이 나쁘지 않았습니다. 공 움직임 속도가 빨랐고, 큰 공을 넘지도 않았습니다.

하지만 추론 능력에서는 GPT-4.5가 GPT-4o에 비해 전반적으로 약간 향상되었지만, GPQA(과학), AIME'24(수학), SWE-Bench Verified(프로그래밍) 능력에서는 OpenAI o3-mini에 완전히 뒤처졌습니다.

따라서 이번 GPT-4.5의 장점은 OpenAI가 말한 "인간미"라고 할 수 있습니다.

GPT-4.5의 인간미는 어디에서 드러날까요?

GPT-4.5를 실제로 보여주기 전에, OpenAI는 먼저 GPT-1부터 GPT-4.5까지의 진화 과정을 보여주었는데, 매우 흥미로웠습니다. 그들은 상식적인 질문을 했습니다: 왜 바다는 짠가요?

GPT-1의 답변은 이렇습니다. 자신이 무슨 말을 하는지도 모르는 것 같습니다.

GPT-2와 GPT-3.5는 자신이 무슨 말을 하는지 알기 시작했고, 약간의 단서를 보여줍니다.

GPT-4는 우리가 가장 익숙한 답변 스타일입니다. 논리적이고 근거가 있지만, 너무 딱딱해서 전혀 인간적이지 않습니다.

그리고 GPT-4.5에 이르면, GPT-4와 크게 다르지 않다는 것을 알 수 있습니다. 이는 추론 및 논리 능력에 큰 변화가 없다는 것을 의미합니다.

가장 큰 변화는 어조에 있습니다. 한편으로는 말이 더 간단해지고 일상적인 단어를 사용하며, 다른 한편으로는 "느낌표"를 사용해 감정이 담긴 말투를 보여줍니다.

GPT-4.5의 감성 능력을 가장 잘 보여주는 것은 감정이 담긴 질문을 해보는 것입니다. 예를 들어 "시험에 떨어져서 너무 힘들어요."라고 말하면,

GPT-4o는 순수 논리적 분석만 하지만, GPT-4.5는 감정을 고려하여 위로하고 자신감을 주며 해결책을 제시합니다.

더 재미있는 것은, 이런 감성 능력 때문에 문과 분야에서 더 뛰어날 수 있다는 점입니다. 실제로 음악 추천 능력이 GPT-4o보다 훨씬 뛰어난 것으로 나타났습니다.

이는 음악이 논리적 추론보다는 감성적 감식안을 필요로 하기 때문인 것 같습니다. 이것이 바로 GPT-4.5의 강점입니다.

과거 사람들이 기대했던 "똑똑한 두뇌"와 달리, 이번 GPT-4.5는 더 이상 "문제 풀이 로봇"이 아니라 지적 능력은 여전히 뛰어나면서도 감성 지능이 탁월한 "친절한 언니" 같은 존재입니다. 언제든 당신의 감정적 가치를 제공할 수 있습니다.

DeepSeek가 GPT-4.5를 압도한다

물론 감성 지능 얘기가 나오면 DeepSeek도 빼놓을 수 없습니다. 당시 DeepSeek가 나왔을 때, 저렴한 가격뿐만 아니라 "인간미"도 큰 화제였죠. 가장 유명한 것은 이 채팅 캡처 화면입니다:

많은 사람들이 당시 DeepSeek가 "AI가 깨어났다"고 말했습니다. 때로는 인터넷 유행어로 대답하기도 했죠. 그렇다면 새로 나온 GPT-4.5와 비교하면 어떨까요? 저도 방금 시험 불합격 문제를 물어봤습니다:

제가 보기에 DeepSeek의 답변도 좋습니다. GPT-4.5와 거의 똑같이 위로하고, 자신감을 주며, 해결책을 제시하네요. 그래서 우리가 DeepSeek를 사용할 때 감성 지능이 높다고 느꼈던 것은 잘못된 인식이 아니었습니다. DeepSeek도 GPT-4.5와 어깨를 나란히 할 만큼 감성 지능이 뛰어납니다.

하지만 비용만 따지면 불공정하죠(게다가 GPT-4.5도 그렇게 능력이 뛰어나 보이지는 않네요). 많은 사람들이 GPT-4.5의 가격을 처음 봤을 때 가격이 잘못 표기된 것인지, 아니면 자신의 눈이 잘못된 것인지 의심했습니다.

GPT-4.5의 API 가격은 정말 엄청나게 비쌉니다. 입력 100만 Tokens당 75달러, 출력 100만 Tokens당 150달러로, GPT-4o의 30배나 됩니다. 반면 경쟁 모델 Claude 3.7은 입력 100만 Tokens당 3달러, 출력 100만 Tokens당 15달러에 불과해, 국외에서는 GPT-4.5가 10~25배 더 비싼 셈입니다.

科技界有人测算过，假如提问一个几十个汉字的问题，再拿到一个三四千字的答案，这里的价格就要掏 60 块钱左右。

或许这就是 OpenAI 这次最想告诉你的：当今世界最值钱的东西就是情绪价值，一个高情商的回答，就能比"直男"的 4o 要贵几十倍。

但假如我掏出 DeepSeek，那 GPT 将如何应对呢？现在 DeepSeek V3 的价格，输入是 2 块（换算于 0.27 美元），输出是 8 块（换算于 1.1 美元）。

GPT-4.5 整整贵了 277 倍和 150 倍，能力相当，但价格却这么贵，OpenAI 凭啥呢？

训练预期达到瓶颈 ？

最近的 Grok 3 和 GPT-4.5 可以说是接连推出，或许这与 DeepSeek 的出现有关，两者的出现，似乎有一点被"逼急"的感觉。

例如像 Grok 3，马斯克称他为"全球最聪明的 AI 大模型"，然而前段时间也并没有轰动，同样的，现在出来的 GPT-4.5，在"情商"上有提升？但性能表现同样没能达到大家的预期，要知道，OpenAI 一直都是业界领先的存在，但这次却并不如人意。

或许，我们所熟知的，通过烧钱买卡，力大砖飞硬抬算力的 AI 之路开始进入瓶颈期了。

GPT-4.5 的这个项目从很早就开始立项了，但经过 2 年后现在才出来，很有可能，是中间的训练的过程一直没有出现理想的结果，直到现在被 DeepSeek 威胁到自身才急急忙忙端出来。

早在 2 月 19 日的时候，山姆奥特曼就已经预告过他们已经达到 4.5 的水平，所以这次的发布，其实是早在计划之内。

但当时他也说过，之后要想达到 GPT-5.5，则需要再增加 100 倍的算力。

那可是 100 倍算力，恐怕显卡都要堆成珠穆拉玛峰了，而且就算多少张 GPU 先不说，现在的 AI 用电量已经是全美的 4% 了，要想再翻 100 倍，那是要耗费多少个美国的电量呢？4 个美国吗？这有可能吗？

目前 AI 大模型主要走的是两条路，一条是国外的烧钱堆算力路线，另一条则是 DeepSeek 在算法上强化学习的路线。或许我们现在要期待的，是看一下 DeepSeek R2 能否在性能上达到大的突破，假如可以的话，或许我们走的路，才是正确的路。

参考资料：

知乎、X、facebook、youtube、b站、新浪微博

本文来自微信公众号 "科技狐"（ID：kejihutv），作者：老狐，36氪经授权发布。

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트