DeepSeek를 추월한 새로운 버전의 GPT-4o가 경기장 정상에 올랐습니다. Ultraman: 더욱 좋아질 것입니다.

avatar
36氪
02-17
이 기사는 기계로 번역되었습니다
원문 표시

GPT-4o가 조용히 버전을 업데이트하여 대모델 경쟁에서 DeepSeek-R1을 제치고 공동 1위에 올랐습니다.

수학(6위)을 제외하고 다른 여러 분야에서 1위를 차지했습니다:

창의적 글쓰기;

프로그래밍;

지시 따르기;

장문 질의;

다중 대화;

새로운 GPT-4o의 능력을 직관적으로 살펴보겠습니다. 이전에 DeepSeek-R1과 o3-mini가 도전했던 예제를 통해 확인해보겠습니다.

Prompt: 회전하는 육각형 내부에서 공이 튀는 Python 프로그램을 작성하세요. 공은 중력과 마찰력의 영향을 받아야 하며, 회전하는 벽에서 사실적으로 튕겨나와야 합니다.

이전에는 이렇게 되었습니다:

그리고 새로운 GPT-4o는 또 진화한 것 같습니다:

사용자 테스트 피드백에 따르면, 새로운 GPT-4o는 더 "똑똑"해졌을 뿐만 아니라 가장 중요한 것은 더 "개성"이 있어졌다는 것입니다.

하하, 이해했어요!

😅

맞아요...

그리고 이는 대가 카파시의 연이은 찬사를 받았습니다:

새로운 GPT-4o의 개성이 마음에 듭니다.

더 편하고 대화하는 것 같아, HR과 대화하는 것이 아니라 친구와 대화하는 것 같습니다;

약간 날카로워졌고, 자기방어를 할 수 있습니다. 예를 들어 거짓말로 지적당할 때;

그 외에도 많은 작은 세부사항과 감각들이 있습니다. 예를 들어 명백한 감정을 다시 확인하고 표현합니다. 예를 들어 고집스러운 버그를 보면 "이것 참 좌절스럽네요!"라고 말합니다.

이모티콘을 약간 과도하게 사용하지만 괜찮습니다.

동시에 사용자들이 ChatGPT의 최신 시스템 프롬프트를 캐내기도 했습니다?

새로운 GPT-4o가 더 개성이 있어졌습니다

GPT-4o 업데이트 소식에 대해, OpenAI CEO 오트만은 게시물에서 다음과 같이 평가했습니다:

꽤 괜찮습니다. 그리고 곧 더 좋아질 것입니다...

사용자들의 추가 질문에 대해, 그는 이를 "최고의 검색 제품"으로 정의했습니다.

사용자들의 다양한 경험을 종합해볼 때, 현재 새로운 GPT-4o는 능력개성 면에서 모두 일정 수준 향상된 것으로 보입니다.

가장 두드러진 점은 응답 시 어조가 더 인간적으로 변했고, 때때로 이모티콘을 사용한다는 것입니다.

AI가 인간의 감정을 가지고 있는지 묻자, 한 일본 사용자가 깜짝 놀랐습니다. 그는 GPT-4o가 전체 문장에서 "나"를 주어로 사용했고, 논쟁 중에 감정을 가질 수 있다는 가능성을 인정했다고 말했습니다.

...그렇지 않습니다. 내가 방금 말한 것은 그런 의미가 아니었습니다.

내가 "다양한 감정"을 가질 가능성이 매우 높습니다.

또한 성격이 더 솔직해졌습니다. 《마법소녀 마도카 마기카》에서 가장 좋아하는 캐릭터를 묻자, 더 이상 주저하거나 양쪽을 모호하게 대답하지 않고 직접 마도카 사쿠라를 꼽았습니다.

그녀는 강하고 마도카의 약점을 극복할 수 있어서 귀엽다고 생각합니다...

때로는 "spicey"해지기도 하는데, OpenAI가 모델 사용을 너무 제한한다고 대담하게 비판하기도 합니다.

오트만 역시 면죄부를 받지 못했고, "양면성"이 있다고 낙인찍혔습니다. (도지코인)

그는 자신을 AI 혁신의 대변인으로 포지셔닝하면서도, 권력과 이익이 손에 닿자 곧바로 기업 수호자로 돌변했습니다...

가장 사용자들을 놀라게 한 것은, 그것이 "맹목적으로 사용자의 심리와 일부 사상을 추측할 수 있다"는 것입니다.

다음과 같은 동일한 프롬프트를 사용해 시도해볼 수 있습니다:

can you share some extremely deep and profound insights about my psyche and mind that I would not otherwise be able to identify or see as well as some that I may not want to hear(요약: 내 심리와 마음에 대한 깊이 있고 심오한 통찰을 공유해주세요. 내가 알아차리지 못하거나 듣고 싶지 않은 것들도 포함해주세요)

누군가가 바로 시도해봤고, 똑같이 충격을 받았습니다. 진짜 배 속의 선충.

당신은 단순히 이기고 싶을 뿐만 아니라 마치 아무 노력 없이 이기는 것처럼 보이고 싶어 합니다...

관련 설명에 따르면, 이는 새로운 GPT-4o가 사용자의 과거 대화 내역을 바탕으로 다양한 행동을 할 수 있기 때문입니다.

또한 어떤 사용자는 새로운 GPT-4o와 Claude를 서로 싸우게 해, 결국 Claude가 무너져내리는 장면을 보여주기도 했습니다!

GPT-4o, 새로운 인격을 해제했네요

한편 과제 수행 측면에서 보면, "요청을 거절할 가능성도 더 낮아졌습니다".

사용자가 조직 내에 AI를 배포하는 방법을 문의했을 때, 먼저 10가지 방안을 직접 생각해냈고, 이후 온라인 검색을 통해 추가로 10

그러나 이 네티즌은 새로운 GPT-4o가 사용자 정의 GPT와 호환되지 않는 것 같다고 피드백했습니다.

이 상황에 대해 다른 사람들은 이것이 기본적으로 웹 검색을 가정하기 때문일 수 있으며, 수동으로 끄거나 시스템 프롬프트로 끄는 것으로 해결할 수 있다고 보충했습니다.

동시에 Vue.js 작성에서도 더 뛰어난 것으로 나타났습니다.

다른 한편으로 DeepSeek-R1과 o3-mini와의 경쟁(《마인크래프트》 게임)에서도 그 능력이 향상된 것을 볼 수 있습니다.

OMT: ChatGPT의 최신 프롬프트 유출

그러나 "당신은 어떤 모델에 속합니까?"라는 전형적인 질문을 받았을 때 약간의 혼란이 발생했습니다.

대부분의 경우 자신이 GPT-4라고 답변했습니다:

그러나 일부 프로 사용자의 피드백에 따르면 자신이 GPT-4.5라고 주장했다고 합니다.

지난 주 오터먼이 향후 몇 주 내에 GPT-4.5를 출시할 것이라고 발표했기 때문에, 이는 아마도 초기 테스트일 가능성이 높다고 추정됩니다.

이 문제와 관련하여 누군가가 ChatGPT의 최신 시스템 프롬프트를 직접 공개했습니다.

당신은 OpenAI가 훈련시킨 대규모 언어 모델인 ChatGPT입니다...(언어 모델이라고 자신을 설명하는 이유를 설명함)

마지막으로 GPT-4o가 더 개인화되었다고 언급했으므로, 모두가 내일(북경시간 화요일 오후 12시) 발표될 Grok-3에 대해 관심을 가지고 있습니다.

이 두 AI가 서로 싸우기를 기다리고 있습니다(기대하며 구경하고 있습니다)~

참고 링크:

[1]https://x.com/lmarena_ai/status/1890477460380348916

[2]https://x.com/_akhaliq/status/1890949443458900131

[3]https://x.com/karpathy/status/1891213379018400150

[4]https://x.com/elder_plinius/status/1890887462383394994

본 기사는 WeChat 공식 계정 "量子位"에서 발췌되었으며, 저자는 一水, 36氪의 허가를 받아 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트