Hãy thư giãn, bạn vẫn chơi 'Doom' giỏi hơn AI

avatar
Decrypt
04-20
Bài viết này được dịch máy
Xem bản gốc

Mặc dù có sự náo nhiệt xung quanh trí tuệ nhân tạo, thậm chí các mô hình ngôn ngữ-hình ảnh tiên tiến nhất—GPT-4o, Claude Sonnet 3.7 và Gemini 2.5 Pro—vẫn gặp khó khăn với một thách thức kéo dài hàng thập kỷ: chơi trò chơi bắn súng góc nhìn thứ nhất kinh điển Doom.

Vào thứ Năm, một dự án nghiên cứu mới đã giới thiệu VideoGameBench, một tiêu chuẩn AI được thiết kế để kiểm tra liệu các mô hình ngôn ngữ-hình ảnh tiên tiến nhất có thể chơi—và chiến thắng—một loạt 20 trò chơi video phổ biến, chỉ sử dụng những gì họ nhìn thấy trên màn hình.

"Theo kinh nghiệm của chúng tôi, các mô hình ngôn ngữ-hình ảnh hiện tại gặp khó khăn đáng kể trong việc chơi trò chơi video do độ trễ suy luận cao," các nhà nghiên cứu cho biết. "Khi một tác nhân chụp ảnh màn hình và truy vấn mô hình ngôn ngữ-hình ảnh về hành động cần thực hiện, khi câu trả lời quay lại, trạng thái trò chơi đã thay đổi đáng kể và hành động không còn phù hợp nữa."

Các nhà nghiên cứu cho biết họ đã sử dụng các trò chơi Game Boy và MS-DOS cổ điển do hình ảnh đơn giản và các kiểu đầu vào đa dạng, như chuột và bàn phím hoặc tay điều khiển trò chơi, để kiểm tra khả năng suy luận không gian của mô hình ngôn ngữ-hình ảnh tốt hơn các trò chơi dựa trên văn bản.

VideoGameBench được phát triển bởi nhà khoa học máy tính và nhà nghiên cứu AI Alex Zhang. Bộ trò chơi bao gồm các trò chơi kinh điển như Warcraft II, Age of Empires và Prince of Persia.

Theo các nhà nghiên cứu, các phản hồi chậm trễ gây khó khăn nhất trong các trò chơi bắn súng góc nhìn thứ nhất như Doom. Trong các môi trường nhanh nhẹn này, một kẻ thù hiện diện trong ảnh chụp màn hình có thể đã di chuyển—hoặc thậm chí đã đến gần người chơi—trước khi mô hình hành động.

Đối với các nhà phát triển phần mềm, Doom đã từ lâu được sử dụng như một bài kiểm tra năng lực công nghệ trong môi trường chơi game. Máy cắt cỏ, Bitcoin, và thậm chí vi khuẩn ruột người vi khuẩn đã đối mặt với những con quỷ từ địa ngục với các mức độ thành công khác nhau. Bây giờ đến lượt AI.

"Điều đã đưa Doom ra khỏi bóng tối của những năm 90 và đưa vào ánh sáng hiện đại không phải là lối chơi hấp dẫn, mà là thiết kế tính toán hấp dẫn của nó," nhà nghiên cứu công nghệ sinh học MIT Lauren Ramlan trước đây đã nói với Decrypt. "Được xây dựng trên động cơ id Tech 1, trò chơi được thiết kế để chỉ yêu cầu các cấu hình khiêm tốn nhất để có thể chơi được."

Ngoài việc gặp khó khăn trong việc hiểu môi trường trò chơi, các mô hình thường không thực hiện được các hành động trong trò chơi cơ bản.

"Chúng tôi đã quan sát thấy các trường hợp thường xuyên mà tác nhân gặp khó khăn trong việc hiểu làm thế nào các hành động của mình—chẳng hạn như di chuyển sang phải—sẽ được dịch trên màn hình," các nhà nghiên cứu cho biết. "Sự thất bại nhất quán nhất trên tất cả các mô hình tiên phong mà chúng tôi đã thử nghiệm là không thể kiểm soát chuột một cách đáng tin cậy trong các trò chơi như Civilization và Warcraft II, nơi các chuyển động chuột chính xác và thường xuyên là điều thiết yếu."

Để hiểu rõ hơn về các giới hạn của các hệ thống AI hiện tại, VideoGameBench nhấn mạnh tầm quan trọng của việc đánh giá khả năng suy luận của chúng trong các môi trường vừa năng động vừa phức tạp.

"Không giống như các lĩnh vực cực kỳ phức tạp như các bằng chứng toán học chưa được giải quyết và các bài toán toán học cấp Olympic, việc chơi trò chơi video không phải là một nhiệm vụ suy luận siêu con người, nhưng các mô hình vẫn gặp khó khăn để giải quyết chúng," họ nói.

Được chỉnh sửa bởi Andrew Hayward

Khu vực:
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
1
Thêm vào Yêu thích
1
Bình luận