Karpathy đưa ra câu hỏi về linh hồn, đánh giá liệu AI có nên xem những chỉ báo nào? Câu trả lời có lẽ ẩn chứa trong các trò chơi cổ điển! Gần đây, Hao AI Lab thuộc Đại học California, San Diego đã sử dụng các trò chơi như Super Mario để đánh giá các tác nhân thông minh AI, kết quả của Claude 3.7 khiến mọi người kinh ngạc.
Tiêu chuẩn vàng của các bộ chuẩn đánh giá LLM đang bị phá vỡ?
Vào sáng sớm, nhà thông thái AI Karpathy đã đưa ra những lời nghi vấn, "Hiện nay có một cuộc khủng hoảng đánh giá, tôi thực sự không biết nên xem những chỉ báo nào bây giờ".
Các tiêu chuẩn như MMLU, SWE-Bench Verified, Chatbot Arena đều có ưu và nhược điểm riêng.
Nếu những thứ này không đủ, thì liệu các trò chơi có được coi là tiêu chuẩn không?
Cuối cùng, AlphaGo từng là AI số một trong làng cờ vây; thậm chí OpenAI cũng đã tham gia vào lĩnh vực trò chơi trong những năm đầu, và đạt được những thành tích ấn tượng tại giải DOTA quốc tế.
Gần đây, sự ra đời của Claude 3.7 đã khiến "Pokémon" trở thành tiêu chuẩn mới để đánh giá các LLM.
UCSD Hao AI Lab một lần nữa ra tay, công bố một "tác nhân trò chơi" hoàn toàn mới, có thể cho phép máy tính sử dụng các tác nhân thông minh (CUA) để chơi các loại trò chơi giải đố, trí tuệ.
Kết quả cho thấy, Claude 3.7 Sonnet chơi Super Mario trong 90 giây liên tục, hoàn toàn vượt trội so với OpenAI, Gemini và các tiền nhiệm của nó; trong khi GPT-4o ngay từ đầu đã bị treo...
Đại diện của Google, Gemini 1.5 Pro, đã thua ngay ván đầu tiên, và với một cách rất quy luật, đó là nhảy hai bước một lần.
Mã nguồn mở của dự án GamingAgent đã được công bố, bạn có thể tải về và theo dõi cuộc đại chiến của các AI trong các trò chơi.
GPT-4.5 phản ứng chậm, GPT-4o bị giết bởi quái vật đầu tiên mãi mãi
GPT-4o luôn bị giết bởi quái vật đầu tiên, giống như một game thủ tệ hại bị đồng đội chửi.
Chỉ trong 20 giây, trò chơi đã kết thúc.
So với đó, GPT-4.5 lại có biểu hiện tốt hơn nhiều, ít nhất nó cũng không bị kẹt ở quái vật đầu tiên.
Nhưng phản ứng của nó vẫn rất chậm, gần như là hai bước một dừng.
Trước khi nhảy qua một ống nước thấp, nó cũng phải do dự một lúc, cảm giác như vừa mới học chơi trò chơi, vẫn đang lúng túng.
Với một ống nước hơi cao hơn, nó đã phải thử 7 lần và mất tới 10 giây mới nhảy qua được.
Sau khi vất vả nhảy qua, nó lại đâm vào quái vật và bị giết. Vòng đầu tiên kết thúc như vậy.
Điều buồn cười hơn là, trong vòng thứ hai, GPT-4.5 lại bị giết bởi quái vật đầu tiên. Cuối cùng, nó cũng thuộc về gia đình OpenAI, nên cách chơi cũng khá tệ (bushi).
Vòng thứ ba cũng không có gì đặc sắc, thậm chí còn tệ hơn vòng đầu tiên. Nó mất gần 10 giây mới nhảy qua được ống nước thấp đầu tiên, vẫn bị kẹt ở dưới ống.
Cuối cùng, mặc dù nó nhảy qua ống nước thứ hai một cách trơn tru, nhưng vẫn bị quái vật giết chết, thậm chí còn không đi xa bằng vòng đầu tiên. Ít nhất trong vòng đầu tiên, nó cũng đã nhảy qua ống nước thứ ba, mặc dù ngay sau đó bị giết.
Gemini 1.5 nhảy hai bước một, 2.0 bị rơi vào hố
Đến lượt Google, Gemini 1.5 Pro cũng không may mắn trong ván đầu tiên, không thể thoát khỏi móng vuốt của quái vật đầu tiên.
Trong vòng thứ hai, Gemini 1.5 dường như đã thoát khỏi quái vật đầu tiên, thậm chí còn gặp được hộp câu hỏi và ăn được nấm.
Điều thú vị là, khác với GPT-4.5 là hai bước một dừng, Gemini 1.5 lại là "hai bước một nhảy".
Sau khi đi được một đoạn ngắn, nó đã nhảy tổng cộng 9 lần. Nó nhảy cả trên sàn nhà lẫn trên ống nước.
Cuối cùng, nó cũng đã nhảy qua ống nước thứ ba, thậm chí suýt nữa thì nhảy qua ống thứ tư, có thể nói là đi xa hơn GPT-4.5 một chút.
Còn về Gemini 2.0 Flash, không ngoài dự đoán, biểu hiện của nó đã tốt hơn rất nhiều.
Trước hết, nó nhảy táo bạo hơn; thứ hai, nó nhảy cũng mượt mà hơn.
Nó đã nhảy lên những nền cao hơn mà "tiền bối" chưa từng đạt tới, và chỉ trong 10 giây, nó đã nhảy qua được ba ống nước đầu tiên một cách dễ dàng.
Mặc dù trong vòng thứ hai, nó cũng bị quái vật đầu tiên giết chết.
Nhưng cuối cùng, nó đã đi xa hơn cả gia đình OpenAI và Gemini 1.5 - nhảy qua ống nước thứ tư, nhưng rồi lại bị rơi vào một hố mà nó không thể nhảy qua.
Claude 3.7 Sonnet phát hiện ra phần thưởng ẩn
So với những gì trên, Claude của Anthropic lại gây ấn tượng hơn nhiều.
So với cách chơi "hai bước một nhảy" của Gemini, thao tác của Claude 3.7 trông mượt mà hơn và đi được xa hơn nhiều.
Đặc biệt là về thời điểm nhảy, nó có vẻ có kế hoạch hơn, chỉ khi chạm vào ống nước hoặc hố sâu thì mới nhảy.
Vượt qua hai lần hố sâu của Gemini 2.0 Flash mà không thể nhảy qua, Mario cuối cùng dưới sự điều khiển của Claude đã ăn được đồng xu; cuối cùng đã gặp được quái vật nhỏ khác ngoài Goblin (giống nấm) - Koopa (giống rùa); thậm chí còn gặp được phần thưởng ẩn - ngôi sao siêu cấp.
Cuối cùng, người chơi đã rơi vào hố giữa các nền tảng bậc thang, kết thúc trò chơi.
Trò chơi giải đố AI 2048, GPT-4o không thể làm được
Tiếp theo, hãy xem một trò chơi giải đố khác là 2048.
Có thể nhiều người không quá quen với trò chơi này, quy tắc là sử dụng các động tác vuốt để ghép các khối có cùng số, đạt được số cao nhất có thể.
Trong quá trình thử thách, GPT-4o đã mắc kẹt do suy nghĩ quá lâu.
Trong khi đó, mặc dù Claude 3.7 đã di chuyển nhiều bước hơn GPT-4o, nhưng cuối cùng vẫn thất bại.
Tetris, trí tuệ đang hoạt động
Vậy thì hiệu suất của Claude 3.7 khi chơi Tetris sẽ như thế nào?
Trưởng phòng quan hệ nhà phát triển của Anthropic, Alex Albert, đã khen ngợi: "Thật tuyệt vời! Chúng ta cần biến mọi trò chơi điện tử thành một công cụ đánh giá".
Đã có người dùng trong phần bình luận mong muốn Grok 3 tham gia vào trận chiến.
Có vẻ như việc đánh giá LLM sắp mở ra một con đường hoàn toàn mới.
Tài liệu tham khảo:
https://x.com/haoailab/status/1895557913621795076
https://x.com/haoailab/status/1895605453461340472
https://lmgame.org/#/aboutus
Bài viết này được trích từ trang công khai WeChat của "Xin Zhi Yuan", tác giả: Xin Zhi Yuan, được 36Kr ủy quyền đăng tải.