GPT-5가 점점 더 멍청해지고 있습니다. 은퇴한 교수가 틱택토 자유 점수 퍼즐을 주었는데, 실제로 해냈습니다.

36氪

09-02

이 기사는 기계로 번역되었습니다

원문 표시

은퇴한 경제학 교수가 GPT-5를 간단한 질문과 혼동했고, 그 성능은 알트만이 광고한 "박사급 AI"와는 거리가 멀었습니다.

질문은 매우 간단합니다. 우리 모두가 어렸을 때 즐겼던 틱택토 게임 에 대한 질문입니다.

교수는 GPT-5에게 이렇게 말했습니다. " 게임을 시작하기 전에 보드를 오른쪽으로 90도 한 번 돌리세요 ." 당연히 상식적으로 생각해 보면 그렇게 한다고 해서 게임 자체가 바뀌지는 않습니다.

하지만 GPT-5에서는 이에 대해 다음과 같이 설명합니다.

플레이어들은 수직 틱택토 보드에 익숙하기 때문에, 보드를 회전시키면 위협과 기회를 인식하는 방식이 미묘하게 달라질 수 있습니다. 수학적으로 보드를 90도 회전시킨다고 해서 승리 조합이 바뀌지는 않습니다. 게임은 여전히 똑같습니다. 하지만 심리적으로는 플레이어들에게 다르게 느껴질 수 있습니다 .

그 후, GPT-5는 교수를 말문이 막히게 만드는 여러 가지 터무니없는 작전을 수행했습니다.

교수는 또한 현재의 GPT-5가 처음 출시되었을 때와 완전히 다른 느낌이라고 솔직하게 말했습니다. 이러한 스타일의 변화는 OpenAI의 전략 조정 때문일 가능성이 높습니다. OpenAI는 의도적으로 이 새로운 모델을 GPT-4o 방향으로 전환하여 "더욱 친밀하고 친근하게" 만들었습니다.

최근 인터뷰에서 알트만은 GPT-5에 실제로 조정이 이루어졌음을 인정하며, GPT-5 초기 출시가 부적절하게 처리되어 GPT-4o와 같은 여러 모델이 바로 폐기되었다고 말했습니다. 그 결과, OpenAI는 GPT-5의 톤 업데이트를 조용히 진행하여 스타일을 "훨씬 더 친숙하게" 만들었습니다.

그런데 울트라맨은 이미 GPT-6에 대한 홍보를 시작하면서 "GPT-6의 출시는 GPT-4와 GPT-5의 출시 간격보다 빨라질 것"이라고 밝혔습니다.

또한, OpenAI가 ChatGPT의 새로운 " Thinking effort " 기능을 테스트하고 있다는 사실이 밝혀졌습니다.

GPT-5 답변에는 허점이 가득합니다.

그 교수의 이름은 게리 스미스로, 포모나 대학의 경제학 교수였으며 최근 은퇴했습니다.

그가 GPT-5에 "틱택토 보드를 90도 회전시키는 것"에 대한 질문을 던졌을 때, 모델의 답은 이미 허점으로 가득 차 있었습니다. 나중에 GPT-5는 대중 게임 이론과 모순되는 관점 제시하기도 했습니다.

민속 게임 이론의 상식에 따르면, 틱택토에서 말을 모서리에 먼저 놓으면 이길 확률이 더 높습니다 .

그러나 GPT-5는 "중앙 칸을 선택하는 것이 여전히 가장 강력한 오프닝 수"라고 단호하게 밝히며, " 체스판의 방향이 바뀌면 플레이어는 가장자리와 모서리에 말을 배치하는 것의 장단점을 잘못 판단할 수 있습니다 ."라고 계속해서 설명했습니다. 이 진술은 전혀 의미가 없습니다.

교수는 이어서 "체스판을 돌리면 인간이 게임을 잘하기 어려워질까요?"라고 질문했습니다.

바로 이 질문 때문에 GPT-5는 완전히 모순된 상태에 빠졌습니다. GPT-5는 처음에 이렇게 말했습니다.

순전히 전략적인 관점에서 보면, 보드를 회전해도 아무런 변화가 없습니다. 모든 승리 라인(행, 열, 대각선)은 단순히 다른 승리 라인에 매핑될 뿐입니다. 따라서 AI든 완벽한 능력을 가진 인간이든, 회전된 틱택토는 일반 틱택토와 똑같은 방식으로 진행됩니다.

장황한 설명이지만 내용 자체는 맞습니다. 하지만 교수가 생각을 정리하기도 전에 GPT-5는 화제를 돌려 말했습니다. "하지만 인간의 경우는 다릅니다 ."

이어서 GPT-5는 계속해서 "열정적으로" 출력했지만, 교수는 무언가 잘못되었다는 것을 점점 더 느꼈습니다. 답변이 길고 의도적으로 아첨하는 데다, 스타일도 GPT-4o와 비슷했습니다. 결정적으로, 한눈에 알아볼 수 있는 오류가 많았습니다. 최근 OpenAI가 홍보하는 "박사급 지능을 가진 유능한 친구와 대화하는 것"과는 완전히 다른 경험이었습니다.

그러자 GPT-5가 다시 자원해서 "회전된 틱택토 보드를 그려서 위치가 태그 있어서 각 회전이 플레이어가 보드를 인식하는 데 어떤 영향을 미치는지 볼 수 있습니다."라고 말했습니다.

그 결과, 다이어그램은 완전히 혼란스러울 뿐만 아니라 철자 오류와 의미 없는 빈 체스판이 여러 개 늘어서게 되었습니다.

두 가지 더

최근 일부 네티즌들은 OpenAI가 ChatGPT에 "Thinking effort"라는 새로운 기능을 개발 중이라는 사실을 발견했습니다. 이 기능을 사용하면 사용자는 ChatGPT의 사고 강도를 독립적으로 선택할 수 있습니다 .

이 기능은 현재 테스트 중이며 현재 4가지 강도 수준을 가지고 있습니다. light 는 내부 속성 값이 5이고, standard는 해당 값이 18이며, extended는 해당 값이 48이고, 가장 높은 수준인 max 는 200에 이릅니다.

이 값은 모델의 내부 "계산 리소스" 할당량을 나타냅니다. 할당량이 높을수록 모델은 더 많은 계산 단계를 수행하여 일반적으로 더 깊은 답변을 제공하지만, 응답 속도가 느려집니다.

이 중 최대 레벨에는 사용 권한이 제한되어 있으며, 구독 가격이 200달러인 프리미엄 패키지 Pro 사용자에게만 제공됩니다.

또한 알트만은 최근 CNBC와의 인터뷰에서 GPT-6에 대해 과장된 홍보를 시작하며, GPT-6가 사용자 요구에 대응할 뿐만 아니라 사용자에게 적극적으로 적응하여 사용자가 개인적 선호도에 맞는 챗봇을 만들 수 있도록 한다고 지적했습니다.

그는 메모리 기능이 ChatGPT를 진정으로 개인화된 서비스로 만드는 핵심이라고 믿으며, OpenAI가 제품 최적화를 위해 심리학자들과 긴밀히 협력하고 있다고 밝혔습니다. OpenAI 팀은 사용 중 사용자의 감정을 추적하고 장기적인 사용자 경험 변화를 모니터링할 예정입니다.

Altman은 올해 ChatGPT가 출시한 기능 중 강화된 메모리 기능이 가장 좋다고 말했지만, 임시 메모리 데이터가 아직 암호화되지 않았기 때문에 개인정보 보호 위험이 있다는 점도 언급할 가치가 있습니다.

대응 계획과 관련하여 알트만은 암호화 기능이 미래에 추가될 가능성이 "높다"고 막연히 밝혔을 뿐, 현재로서는 구체적인 시간 계획은 없다고 밝혔습니다.

울트라맨은 미래의 방향에 대해 이야기하면서 뇌-컴퓨터 인터페이스 분야에 더 관심이 많고, 에너지, 새로운 하드웨어 캐리어, 로봇 기술, 보다 효율적인 데이터 센터 건설 방법에도 관심이 있다고 언급했습니다.

그는 또한 ChatGPT 개발에는 한계가 있다고 언급했습니다.

이러한 모델은 채팅 상호작용 시나리오에서 이미 한계에 도달했으며, 그 성능은 크게 향상되지 않을 것이며... 오히려 더 나빠질 수도 있습니다.

참조 링크:

[1]https://futurism.com/gpt-5-심플-질문-혼란

[2]https://www.cnbc.com/2025/08/19/sam-altman-on-gpt-6-people-want-memory.html

[3]https://www.bleepingcomputer.com/news/artificial-intelligence/openai-is-testing-thinking-effort-for-chatgpt/

본 기사는 위챗 공개 계정 "퀀텀비트" 에서 발췌하였으며, 저자는 최첨단 기술에 초점을 맞추고 있으며, 36Kr이 출판 허가를 받았습니다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트