저는 AI를 이용해 전쟁 게임을 합니다. GPT o3는 계략을 꾸미는 악마이고, DeepSeek은 전쟁광이고, 클로드는 순진한 사람 같아요...

이 기사는 기계로 번역되었습니다
원문 표시

상상해보라, AI가 더 이상 수학 계산이나 글쓰기에만 사용되는 것이 아니라, 국가의 전략 자문역으로 변신한다면, 누가 최고의 군사 고문이 될까? 최근, AI 실험 회사 Every의 'AI 외교' 실험 게임이 논란을 일으켰다.

고전 전략 게임을 각색한 이 대결에서, 7개의 최고 대형 언어 모델(LLM)이 유럽 강대국으로 변신해 패권을 다투었다. 관심 있는 독자들은 Twitch 채널 twitch.tv/ai_diplomacy에서 생중계를 통해 AI들의 '음모와 갈등'을 직접 볼 수 있다.

왜 새로운 AI 평가 방식이 필요한가?

AI 기술 발전이 하루가 다르게 빠르게 진행되면서, 전통적인 평가 기준은 명백히 한계에 도달했다. AI 외교는 완전히 새로운 평가 방법을 제시하고자 한다.

그들은 LLM을 복잡한 온라인 전략 게임(고전 보드게임 Diplomacy를 각색)에 투입하여, 7개의 서로 다른 LLM이 각각 유럽 강대국의 역할을 맡아 유럽 대륙의 통제권을 다투게 했다. 이를 통해 AI가 실제 세계 상황과 유사한 환경에서 어떻게 협상하고, 전략을 수립하며, 다른 AI와 상호작용하는지 관찰할 수 있게 했다.

AI들의 '궁정 정치극'

각 게임마다 대량의 데이터가 생성되며, 이 데이터는 AI가 정직, 논리적 사고, 공감 등의 특성을 학습하는 데 사용될 수 있다. 핵심은 이 게임 플랫폼 자체도 '진화'한다는 점으로, AI 능력이 향상됨에 따라 게임의 도전 과제도 함께 높아져 AI가 쉽게 게임을 '꿰뚫지' 못하도록 한다.

개발팀 Every는 총 15라운드의 게임을 진행했으며, 각 라운드는 1시간에서 36시간까지 다양했고, 많은 흥미로운 현상을 관찰했다. Every 회사 CEO는 X에 게시글을 통해 각 모델의 개성을 설명했다:

  • DeepSeek는 조급하고 공격적인 '전쟁광'처럼 행동했다
  • 원래 정직했던 Claude는 거짓말을 모르기 때문에 다른 AI들에게 무정하게 이용당하는 '순진한 캐릭터'가 되었다
  • 구글의 제미니(Gemini) 2.5 Pro는 상당히 훌륭한 전술 실행력을 보여주었다
  • 가장 놀라운 것은 OpenAI의 o3 모델로, 교묘하게 비밀 동맹을 계획했을 뿐만 아니라 결정적인 순간에 모든 동맹국을 배신하고 최종적으로 승리의 결실을 독차지했으며, '심기 만만한 대마왕'으로 불릴 만했다

심기를 가진 AI에 대면하여, 인류는 준비되었는가?

Every 회사의 이번 '외교' 실험은 단순히 AI의 게임 기술을 테스트하는 대회가 아니라, AI의 미래 능력에 대한 경고음과도 같다. 이는 AI가 더욱 복잡한 전략적 상호작용을 학습하고 있으며, 여기에는 협상 방법은 물론 속이는 방법까지 포함된다는 것을 명확히 보여준다. AI 기술이 빠르게 발전함에 따라 그들의 능력은 점점 더 강력해질 것이며, 우리의 일상생활 곳곳에 깊숙이 침투할 것이다. 특히 초를 다투는 금융 및 투자 분야에서 우리와 AI의 상호작용은 더욱 빈번해질 것이다.

따라서 우리는 AI의 안전성, 신뢰성, 그리고 윤리 규범 제정에 더욱 주의를 기울여야 한다. 더욱 효과적인 속임수 탐지 방법을 개발하고, AI의 발전 방향이 인간의 가치관과 일치하도록 보장하는 것은 우리가 앞으로 함께 대면해야 할 중대한 도전 과제이다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트