카르파티가 영혼의 질문을 던지며 AI가 어떤 지표를 봐야 할지 평가했습니다. 그 답은 클래식 게임에 숨어 있을지도 모릅니다! 최근 UCSD Hao AI Lab은 슈퍼 마리오 등의 게임으로 AI 지능체를 평가했고, 클로드 3.7의 결과가 놀라웠습니다.
LLM 평가 기준의 '황금 표준'이 무너지고 있습니까?
아침 일찍 AI 대가 카르파티가 의문을 제기했습니다. "현재 평가 위기가 있어서 어떤 지표를 봐야 할지 모르겠습니다."
MMLU, SWE-Bench Verified, 챗봇 아레나 등의 기준은 각각의 장단점이 있습니다.
이것들로 부족하다면 게임은 어떨까요?
과거 알파고가 바둑계의 최고 AI였고, OpenAI도 게임 분야에서 두각을 나타냈습니다.
최근 클로드 3.7의 등장으로 '포켓몬'이 LLM 평가의 새로운 기준이 되었습니다.
UCSD Hao AI Lab이 다시 나섰습니다. 실시간으로 컴퓨터가 CUA를 사용해 퍼즐, 퍼즐 등의 게임을 플레이하는 새로운 '게임 지능체'를 오픈소스로 공개했습니다.
결과적으로 클로드 3.7 소네트는 슈퍼 마리오를 90초 동안 버텼고, OpenAI, 제미니, 자사 선배들을 압도했습니다. 반면 GPT-4o는 처음부터 죽었습니다.
구글의 제미니 1.5 Pro도 첫 게임에서 패배했고, 규칙적으로 두 걸음 한 번씩 점프했습니다. 제미니 2.0에서는 더 많이 걸었지만 결국 구덩이에 빠졌습니다.
GamingAgent 프로젝트 코드가 공개되어 AI 게임 대결을 관람할 수 있습니다.
GPT-4.5는 반응이 느리고, GPT-4o는 첫 번째 적에게 항상 죽습니다
GPT-4o는 항상 첫 번째 적에게 죽어, 게임 초보자처럼 보입니다.
20초 만에 게임이 끝났습니다.
반면 GPT-4.5의 성능은 더 나았습니다. 적어도 첫 번째 적에게 죽지는 않았습니다.
하지만 반응 속도가 느렸습니다. 거의 두 걸음 한 번씩 움직였습니다.
작은 파이프를 넘기 전에도 잠시 망설였는데, 게임 조작을 막 배운 것 같았습니다.
조금 더 높은 파이프를 7번 시도해 10초 만에 겨우 넘었습니다.
겨우 넘었지만 적에게 죽었습니다. 첫 번째 라운드가 이렇게 끝났습니다.
더 웃긴 건, 두 번째 라운드에서 GPT-4.5도 첫 번째 적에게 죽었다는 것입니다. OpenAI 가족이라 조작이 서툴다고 할 수 있겠네요.
세 번째 라운드에서도 그다지 좋지 않았습니다. 첫 번째 작은 파이프에서 거의 10초 동안 막혔다가 겨우 점프했습니다.
마지막에는 두 번째 파이프를 부드럽게 넘었지만 적에게 죽었습니다. 첫 번째 라운드보다 더 멀리 가지 못했습니다.
제미니 1.5는 두 걸음 한 번씩 점프하고, 2.0은 구덩이에 빠졌습니다
구글의 제미니 1.5 Pro도 첫 게임에서 첫 번째 적에게 죽었습니다.
두 번째 라운드에서 제미니 1.5는 첫 번째 적을 피했고 물음표 상자도 만났습니다.
재미있게도 제미니 1.5는 GPT-4.5와 달리 '두 걸음 한 번씩 점프'했습니다.
이렇게 짧은 거리를 가면서도 9번이나 점프했습니다. 바닥과 파이프 위에서 번갈아 점프했습니다.
결국 세 번째 파이프를 넘었고, 네 번째 파이프도 거의 넘었습니다. GPT-4.5보다 더 멀리 갔습니다.
업데이트된 제미니 2.0 Flash는 훨씬 나은 성능을 보였습니다.
먼저 더 과감하게 점프했고, 점프 동작도 더 부드러웠습니다.
이전에는 가보지 않았던 더 높은 플랫폼까지 10초 만에 쉽게 도달했습니다.
두 번째 라운드에서도 첫 번째 적에게 죽었지만,
OpenAI 가족과 제미니 1.5보다 더 멀리 갔습니다. 네 번째 파이프를 넘었지만, 넘지 못한 구덩이에 빠졌습니다.
클로드 3.7 소네트가 숨겨진 보상을 발견했습니다
이에 비해 Anthropic의 클로드는 훨씬 인상적이었습니다.
제미니의 두 걸음 한 번씩 점프와 달리, 클로드 3.7의 조작은 더 부드러웠고 훨씬 더 멀리 갔습니다.
특히 점프 타이밍이 더 체계적이었습니다. 파이프나 구덩이에 도달할 때만 점프했습니다.
此外,还会有意识地通过跳跃来躲避小怪。
跳过了제미니(Gemini) 2.0 Flash两回合都没跳过去的坑,Claude操作下的马里奥终于是吃到了金币;终于是碰到了除了哥布林(形似蘑菇)之外的小怪——库巴(形似乌龟);甚至还碰出了隐藏奖励——超级星星。
最后是掉到了阶梯平台之间的坑里,结束了游戏。
AI大战2048益智游戏,GPT-4o拿不出手
接下来,再看一个益智类的游戏2048。
可能很多人对这款游戏并不熟悉,规则是通过滑动进行拼图,玩家将带有相同数字的方块合并,达到可能最高的数值。
GPT-4o在挑战过程中,因为思考过久,陷入困境。
而Claude 3.7虽多走了几步,比GPT-4o强不少,但最终还是以失败告终。
俄罗斯方块,智商在线
那么Claude 3.7玩俄罗斯方块的表现,又如何呢?
Anthropic开发者关系负责人Alex Albert称赞道,「非常酷!我们需要把每一款电子游戏都变成一种评估工具」。
已经有网友在评论区许愿,让Grok 3加入战场。
看来,LLM评估即将开辟一条全新的路。
参考资料:
https://x.com/haoailab/status/1895557913621795076
https://x.com/haoailab/status/1895605453461340472
https://lmgame.org/#/aboutus
本文来自微信公众号"新智元",作者:新智元,36氪经授权发布。