Hãy tưởng tượng, nếu AI không chỉ dùng để tính toán hay viết bài, mà thay đổi thành cố vấn chiến lược quốc gia, ai sẽ trở thành vị quân sư mạnh nhất? Gần đây, một thí nghiệm trò chơi có tên "AI Ngoại giao" của công ty thí nghiệm AI Every đã gây ra cuộc thảo luận.
Trong cuộc đối đầu được điều chỉnh từ trò chơi chiến lược kinh điển này, bảy mô hình ngôn ngữ lớn (LLM) hàng đầu đã hóa thân thành các cường quốc Châu Âu, cạnh tranh nhau để giành quyền bá chủ. Độc giả quan tâm có thể xem trực tiếp trên kênh Twitch twitch.tv/ai_diplomacy để chứng kiến những "âm mưu" của các AI.
Tại sao cần một phương pháp đánh giá AI mới?
Công nghệ AI phát triển chóng mặt, các tiêu chuẩn đánh giá truyền thống rõ ràng đã không còn đủ sức, AI Ngoại giao hy vọng cung cấp một phương thức đánh giá hoàn toàn mới.
Họ đã đưa các LLM vào một trò chơi chiến lược trực tuyến phức tạp (được điều chỉnh từ trò chơi để bàn kinh điển Diplomacy), để bảy LLM khác nhau đóng vai các cường quốc Châu Âu, với mục tiêu giành quyền kiểm soát lục địa Châu Âu. Điều này cho phép chúng ta quan sát AI trong các tình huống gần với thực tế, xem cách họ đàm phán, hoạch định chiến lược và tương tác với các AI khác.
Vở kịch cung đình của các AI
Mỗi trò chơi sẽ tạo ra lượng lớn dữ liệu, những dữ liệu này có thể được sử dụng để đào tạo AI học tính trung thực, tư duy logic hoặc lòng đồng cảm. Điều quan trọng là nền tảng trò chơi này cũng sẽ "tiến hóa", khi khả năng của AI tăng lên, độ khó của trò chơi cũng sẽ tăng theo, tránh để AI dễ dàng "thông suốt" toàn bộ trò chơi.
Đội ngũ phát triển Every đã tiến hành tổng cộng 15 vòng chơi, mỗi vòng kéo dài từ 1 giờ đến 36 giờ, quan sát thấy nhiều hiện tượng thú vị. CEO công ty Every đã đăng trên X, mô tả tính cách của từng mô hình:
- DeepSeek thể hiện như một "kẻ cuồng chiến" nóng nảy và táo bạo
- Claude vốn luôn trung thực, vì không biết nói dối nên trở thành "kẻ ngốc" bị các AI khác vô tình lợi dụng
- Gemini 2.5 Pro của Google thể hiện khả năng thực thi chiến thuật khá tốt
- Điều gây bất ngờ nhất là mô hình o3 của OpenAI, không chỉ khéo léo lên kế hoạch một liên minh bí mật mà còn phản bội tất cả các đồng minh vào thời điểm then chốt, cuối cùng chiếm trọn thành quả chiến thắng, quả thực là "vua của những âm mưu"
Đối diện với AI có toan tính, loài người đã sẵn sàng chưa?
Thí nghiệm "ngoại giao" của công ty Every lần này không chỉ là một cuộc thi kiểm tra kỹ năng chơi game của AI, mà còn như một tiếng chuông cảnh báo về khả năng tương lai của AI. Nó rõ ràng cho chúng ta thấy rằng AI đang học các tương tác chiến lược phức tạp hơn, bao gồm cả việc làm thế nào để đàm phán, thậm chí là lừa dối. Với sự phát triển nhanh chóng của công nghệ AI, khả năng của chúng sẽ ngày càng mạnh mẽ và sâu rộng vào mọi góc độ cuộc sống hàng ngày, đặc biệt là trong các lĩnh vực tài chính và đầu tư cạnh tranh từng giây, các tương tác của chúng ta với AI sẽ ngày càng thường xuyên hơn.
Do đó, chúng ta cần phải chú trọng hơn đến vấn đề an toàn, niềm tin của AI cũng như việc xây dựng các quy tắc đạo đức. Làm thế nào để phát triển các phương pháp phát hiện lừa dối hiệu quả hơn và đảm bảo sự phát triển của AI phù hợp với các giá trị của con người sẽ là thách thức lớn mà chúng ta phải cùng nhau đối mặt trong tương lai.




