인공지능에 대한 화제에도 불구하고, 가장 첨단의 비전-언어 모델인 GPT-4o, 클로드 소네트 3.7, 그리고 제미니 2.5 프로조차도 수십 년 된 도전 과제인 클래식 1인칭 슈팅 게임 둠을 플레이하는 데 어려움을 겪고 있습니다.
목요일, 새로운 연구 프로젝트가 비디오게임벤치를 소개했는데, 이는 최첨단 비전-언어 모델이 화면에서 보이는 것만으로 20개의 인기 비디오 게임을 플레이하고 이길 수 있는지 테스트하기 위해 설계된 AI 벤치마크입니다.
"우리의 경험에 따르면, 현재 최첨단 VLM은 높은 추론 대기 시간 때문에 비디오 게임을 플레이하는 데 상당한 어려움을 겪고 있습니다," 연구자들은 말했습니다. "에이전트가 스크린샷을 찍고 어떤 행동을 취해야 할지 VLM에 문의할 때, 응답이 돌아올 때쯤에는 게임 상태가 크게 변경되어 해당 행동이 더 이상 관련이 없어집니다."
연구자들은 텍스트 기반 게임보다 비전-언어 모델의 공간 추론 능력을 더 잘 테스트할 수 있는 단순한 시각과 마우스 및 키보드 또는 게임 컨트롤러와 같은 다양한 입력 스타일 때문에 클래식 게임보이와 MS-DOS 게임을 사용했다고 밝혔습니다.
비디오게임벤치는 컴퓨터 과학자이자 AI 연구원인 알렉스 장에 의해 개발되었습니다. 게임 모음에는 워크래프트 II, 에이지 오브 엠파이어, 페르시아의 왕자와 같은 클래식 게임들이 포함되어 있습니다.
연구자들에 따르면, 지연된 응답은 둠과 같은 1인칭 슈팅 게임에서 가장 심각한 문제입니다. 이러한 빠른 환경에서 스크린샷에 보이는 적은 모델이 행동할 때쯤에는 이미 움직였거나 심지어 플레이어에게 도달했을 수 있습니다.
소프트웨어 개발자들에게 둠은 오랫동안 게임 환경에서 기술적 능력의 시금석으로 여겨져 왔습니다. 잔디깎는 기계, 비트코인, 그리고 심지어 인간의 장내 세균까지 다양한 수준의 성공으로 지옥의 악마들과 맞서 왔습니다. 이제 AI의 차례입니다.
"90년대의 그늘에서 현대의 빛으로 둠을 끌어낸 것은 그 흥미로운 게임플레이가 아니라 오히려 그 매력적인 계산 설계입니다," MIT 생명공학 연구원 로렌 람란은 이전에 디크립트(Decrypt)에 말했습니다. "id Tech 1 엔진을 기반으로 한 이 게임은 가장 소박한 설정만으로도 플레이할 수 있도록 설계되었습니다."
게임 환경을 이해하는 데 어려움을 겪는 것 외에도, 모델들은 종종 기본적인 게임 내 행동을 수행하는 데 실패했습니다.
"에이전트가 오른쪽으로 이동하는 것과 같은 자신의 행동이 화면에서 어떻게 변환될지 이해하는 데 어려움을 겪는 경우를 자주 관찰했습니다," 연구자들은 말했습니다. "우리가 테스트한 모든 최첨단 모델에서 가장 일관된 실패는 문명과 워크래프트 II와 같이 정확하고 빈번한 마우스 움직임이 필수적인 게임에서 마우스를 안정적으로 제어하지 못하는 것이었습니다."
현재 AI 시스템의 한계를 더 잘 이해하기 위해, 비디오게임벤치는 동적이고 복잡한 환경에서 추론 능력을 평가하는 것의 중요성을 강조했습니다.
"해결되지 않은 수학 증명과 올림피아드 수준의 수학 문제와 같은 매우 복잡한 영역과 달리, 비디오 게임을 플레이하는 것은 초인적인 추론 작업이 아니지만, 모델들은 여전히 이를 해결하는 데 어려움을 겪고 있습니다," 그들은 말했습니다.
앤드류 헤이워드(Andrew Hayward)가 편집함




