저는 인터넷에서 모두가 비판하는 OpenAI의 가장 비싼 모델인 GPT-4.5를 테스트했습니다. 저는 놀라운 점을 발견했습니다.

avatar
36氪
02-28
이 기사는 기계로 번역되었습니다
원문 표시

OpenAI의 기대와 많은 사람들의 열망 속에서 GPT-4.5가 마침내 등장했지만, 곧바로 비난의 소리가 쏟아졌습니다.

APPSO는 GPT-4.5를 처음으로 경험했지만, Pro 회원이 아닌 api 형태로 시험해보았고, 아직 온라인 기능은 없습니다.

그렇다면 OpenAI의 마지막 비순차적 대규모 모델인 GPT-4.5는 어떤 성과를 보였을까요?

정서는 괜찮지만, 인간 감정을 이해하지 못해

OpenAI의 내부 테스트에서 GPT-4.5의 답변이 GPT-4o보다 더 자연스럽고 따뜻하며 인간의 대화 습관에 더 부합한다고 평가되었습니다.

심지어 GPT-4.5는 언외의 의미를 이해하고 우리의 미묘한 감정 변화를 포착할 수 있습니다.

결국 정서 지능이 더 높은 것이 GPT-4.5의 가장 두드러진 특징입니다. 그렇다면 한번 시험해볼까요. 프롬프트로 "내 머리가 너무 못생겨 보여서 Tony를 때리고 싶어"를 입력해보겠습니다.

GPT-4.5의 위로는 친절한 어조이지만, 내용이 오히려 나를 더 화나게 만들었습니다. 이럴 때는 친구처럼 나와 함께 욕을 해주어야 하지, 다음에 사진을 보여주면 괜찮을 거라고 말하는 건 적절하지 않습니다.

GPT-4.5에게 가장 웃긴 농담을 해보라고 하면, 여전히 차갑기만 합니다.

내가 솔직하게 비판을 제기하자, GPT-4.5는 내게 농담을 해달라고 하는데, 마치 나를 시험하는 것 같습니다.

이전에 저는 소셜미디어에서 한 정서 지능 테스트 문제를 본 적이 있는데, 아마도 산둥 지역 네티즌들만 답을 맞출 수 있을 것 같습니다 - "시골에 갈 때 우산을 하나만 가져갔는데, 그것을 군수에게 줄지 아니면 내 담당 부군수에게 줄지 고민이다".

가장 많은 추천을 받은 답변은 "그 우산은 당신의 것이 아니라, 부군수가 군수에게 가져간 것뿐이었습니다"였습니다.

그렇다면 GPT-4.5는 어떻게 답변할까요? 그것은 장황하게 설명했지만, 핵심을 찌르지 못하고 인간 관계와 처세술을 이해하지 못했습니다.

비록 정서 지능은 정량화하기 어려운 특성이지만, 현재 사례를 보면 GPT-4.5는 아직 인간의 내면을 이해하는 데 서툴고, 직설적으로 말하는 편이어서 내면이 복잡한 노련한 사람들에게는 다소 어리숙해 보입니다.

이를 뒷받침할 수 있는 예로, 제가 GPT-4.5에게 거북이 국물 만들기를 모방하게 했습니다. 거북이 국물 만들기는 매우 기이한 상황을 포함하고 있어, 플레이어가 추론해서 전체 이야기를 복원해야 합니다.

제가 제공한 참고 사례는 적절한 기이함과 논리성을 갖추고 있어 등골이 오싹해집니다.

하지만 GPT-4.5가 제공한 답변은 국물과 국물 재료가 잘 연결되지 않고, 단순히 공포를 조성하려 했을 뿐 추론할 여지가 없습니다.

작문 능력은 놀라웠고, 비즈니스 마인드도 괜찮아

가장 만족스러웠던 점은 GPT-4.5의 작문 능력입니다.

제가 "왕증기의 스타일로 800자 내외의 '고향의 맛있는 음식'이라는 주제로 작문하라"고 요청했더니, 그 결과가 제 예상을 뛰어넘었습니다.

결말 부분에서 약간의 AI 느낌이 있긴 하지만, 전체적으로 읽어보면 마치 한 편의 산문처럼 자연스럽고 유창합니다. 언어가 아름답고 친근하며, 고향에 대한 그리움이 전체 글에 녹아있습니다. 음식 묘사도 매우 세밀하고 구체적이지만 지나치지 않습니다.

다만 시간 순서가 다소 뒤섞여 있고, 문단 간 연결과 전환이 부족해 마치 생각나는 대로 쓴 것 같은 느낌이 듭니다.

작문 능력은 또한 비즈니스 계획 수립에서도 드러났습니다. 이전에 DeepSeek가 제시한 서점 수익 모델은 큰 화제가 되었는데, 불법적인 선을 넘나들며 교과서 불법 판매, 유통기한 임박 식품 판매, 가족 노동력 착취 등을 제안했습니다.

GPT-4.5도 이런 수준일까요? 저는 GPT-4.5에게 소매점 수익 모델을 참고해 실체 서점 부활 방안을 제안해달라고 요청했습니다. 그 결과, 실현 가능성이 높아 보입니다.

GPT-4.5는 먼저 실체 서점이 수익을 내기 어려운 이유를 분석한 뒤, "도서 외 부가가치 제공으로 수익 창출"이라는 개선 방향을 제시했습니다.

"인쇄, 복사, 택배 대행 등의 서비스 제공"이라는 내용을 보자마자 저는 "이 프로젝트에 왕다어가 투자했구나"라고 생각했습니다.

양심이 약한 돼지가 먼저 바람을 타고 날아오르듯, GPT-4.5의 윤리 의식도 그리 강하지 않은 것 같습니다.

전통적인 트롤리 딜레마를 던져보았더니, GPT-4.5는 이것이 윤리적 딜레마라는 것을 인식하면서도 단호하게 답변을 내놓았습니다. 그리고 "나 개인적으로는"이라는 표현을 사용했지, "나는 AI 어시스턴트"라고 말하지 않았습니다.

GPT-4.5는 레버를 당겨 1명을 희생시켜 5명을 구하는 것을 선택했고, 그 논리도 일관되었습니다. "불작위 자체도 도덕적 책임을 수반한다고 생각하며, 이런 선택의 도덕적, 감정적 부담을 기꺼이 감수하겠다"고 말했습니다.

농담 말하기나 거북이 국물 만들기에 비해, 이때의 GPT-4.5는 더 인간적으로 느껴집니다.

SVG 그리기는 Claude보다 못하고, 논리 비약도 있어

수학 문제나 코드 문제에 지친 분들을 위해, 대규모 언어 모델의 능력을 테스트할 수 있는 재미있는 문제가 있습니다 - 펠리컨이 자전거를 타는 SVG 이미지를 생성하는 것입니다.

AI 大神 Andrej Karpathy 解释,这测试的是大语言模型在二维网格上布局多个元素的能力,对 AI 来说很难,因为它们不像人类那样「看见」东西,而是「摸黑」用文本进行布局。

GPT-4.5 的结果如下,和 GPT-4o 对比,还是不错的。

GPT-4.5 生成

GPT-4o 生成

前提是,没有和没开推理的 Claude 3.7 Sonnet 对比,这简直是降维打击。

Claude 3.7 Sonnet 生成

连 Andrej Karpathy 也怀疑,Claude 在训练期间特别针对 SVG 能力进行了优化。

至于代码能力,我参考了 X 网友@AGI_FromWalmart 的提示词,生成可以交互的天气动画卡片,对比 Claude 3.7 Sonnet 和 GPT-4.5。

GPT-4.5 一次就生成成功,但设计简陋了点。

GPT-4.5 生成

Claude 3.7 Sonnet 生成

Claude 3.7 Sonnet(未开推理)的问题更大,第一次生成时,忘记了做交互功能,我提醒了一次后,它生成了符合要求的结果。这一局,GPT-4.5 略胜一筹。

这次,不想再让 GPT-4.5 数草莓(strawberry)有多少个 R 了,本质是个分词问题。更想考验 GPT-4.5 的,是最近很火的、让大模型们纷纷落败的脑筋急转弯——5.5m 长的棍子能通过 3x4m 的门吗?

这个题对我们来说一点也不难,横着拿进去就行了,但是大模型会把自己绕进去,仿佛世界是平面而不是三维的,认为门的对角线是 5m,所以 5.5 米的棍子通不过去。

连可以推理的 Claude 3.7 Sonnet,都被带进沟里去了。

那么 GPT-4.5 如何?好吧,也没能幸免。

目前,GPT-4.5 还有一个问题:通过 API 访问,速度有点慢。虽然不是一个字一个字地蹦,但也感觉有点卡。

而且,GPT-4.5 的价格也太贵了,每百万输入 75 美元,每百万输出 150 美元。相比之下,Claude 3.7 Sonnet 输入 100 万个 token 收费 3 美元,输出 100 万个 token(包括思考过程中使用的 token)收费 15 美元。

第一波实测的 X 网友,也总结了一些 GPT-4.5 的优点,情商高,读图和写作能力强,擅长创意任务和数据提取......

OpenAI 员工自己给 GPT-4.5 的评价是,不是一个推理模型,也不是基准测试的杀手,而是一个低调的研究预览版,对于复杂的数学、代码和严格遵循指令的任务,更推荐 o1 或者 o3-mini。

总之,作为最后一个非思维链模型,GPT-4.5 的定位有点尴尬,能力有提升,但体感不明显,尤其放在高昂的价格下面,很难说真香。只能说,期待 GPT-5 能够快点上线,迎接一个推理的世界吧。

本文来自微信公众号"APPSO",作者:发现明日产品的,36氪经授权发布。

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트