Giải thưởng ARC đã ra mắt chuẩn mực ARC-AGI-2 cốt lõi, kèm theo thông báo về cuộc thi năm 2025 với giải thưởng trị giá 1 triệu đô la.
Khi AI tiến triển từ việc thực hiện các nhiệm vụ hẹp sang thể hiện trí thông minh thích ứng chung, các thử thách ARC-AGI-2 nhằm mục đích phát hiện ra những khoảng cách về năng lực và chủ động hướng dẫn đổi mới.
“Các chuẩn AGI tốt đóng vai trò là các chỉ báo tiến trình hữu ích. Các chuẩn AGI tốt hơn phân biệt rõ ràng các khả năng. Các chuẩn AGI tốt nhất thực hiện tất cả những điều này và tích cực truyền cảm hứng cho nghiên cứu và hướng dẫn đổi mới”, nhóm Giải thưởng ARC tuyên bố.
ARC-AGI-2 đang đặt mục tiêu đạt được hạng mục “tốt nhất”.
Vượt ra ngoài sự ghi nhớ
Kể từ khi thành lập vào năm 2019, Giải thưởng ARC đã đóng vai trò như “Ngôi sao chỉ đường” cho các nhà nghiên cứu đang nỗ lực hướng tới AGI bằng cách tạo ra các chuẩn mực lâu dài.
Các chuẩn mực như ARC-AGI-1 tập trung vào việc đo lường trí thông minh lưu loát (tức là khả năng thích ứng việc học với các nhiệm vụ mới chưa từng thấy). Nó thể hiện sự thay đổi rõ ràng so với các tập dữ liệu chỉ thưởng cho việc ghi nhớ.
Sứ mệnh của ARC Prize cũng mang tính hướng tới tương lai, hướng tới mục tiêu đẩy nhanh tiến độ cho những đột phá khoa học. Các chuẩn mực của giải thưởng này được thiết kế không chỉ để đo lường tiến độ mà còn để truyền cảm hứng cho những ý tưởng mới.
Các nhà nghiên cứu đã quan sát thấy sự thay đổi quan trọng khi ra mắt o3 của OpenAI vào cuối năm 2024, được đánh giá bằng ARC-AGI-1. Kết hợp các mô hình ngôn ngữ lớn (LLM) dựa trên học sâu với các công cụ tổng hợp lý luận, o3 đã đánh dấu bước đột phá trong đó AI chuyển đổi vượt ra ngoài việc ghi nhớ máy móc.
Tuy nhiên, bất chấp sự tiến bộ, các hệ thống như o3 vẫn kém hiệu quả và đòi hỏi sự giám sát đáng kể của con người trong quá trình đào tạo. Để thách thức các hệ thống này về khả năng thích ứng và hiệu quả thực sự, ARC Prize đã giới thiệu ARC-AGI-2.
ARC-AGI-2: Thu hẹp khoảng cách giữa con người và máy móc
Tiêu chuẩn ARC-AGI-2 khó hơn đối với AI nhưng vẫn giữ được khả năng tiếp cận của con người. Trong khi các hệ thống lý luận AI biên giới tiếp tục đạt điểm ở mức phần trăm một chữ số trên ARC-AGI-2, con người có thể giải quyết mọi nhiệm vụ trong vòng chưa đầy hai lần thử.
Vậy, điều gì làm cho ARC-AGI trở nên khác biệt? Triết lý thiết kế của nó chọn những nhiệm vụ “tương đối dễ đối với con người, nhưng lại khó hoặc không thể đối với AI”.
Tiêu chuẩn này bao gồm các tập dữ liệu có khả năng hiển thị khác nhau và các đặc điểm sau:
- Diễn giải theo biểu tượng: AI gặp khó khăn trong việc gán ý nghĩa ngữ nghĩa cho các biểu tượng, thay vào đó tập trung vào các so sánh hời hợt như kiểm tra tính đối xứng.
- Lý luận về thành phần: AI sẽ gặp khó khăn khi phải áp dụng nhiều quy tắc tương tác cùng lúc.
- Áp dụng quy tắc theo ngữ cảnh: Hệ thống không áp dụng được các quy tắc khác nhau dựa trên các ngữ cảnh phức tạp, thường tập trung vào các mô hình bề mặt.
Hầu hết các chuẩn mực hiện tại đều tập trung vào khả năng siêu phàm, kiểm tra các kỹ năng chuyên biệt, tiên tiến ở quy mô mà hầu hết cá nhân không thể đạt được.
ARC-AGI đảo ngược Script và làm nổi bật những gì AI chưa thể làm được; cụ thể là khả năng thích ứng định nghĩa trí thông minh của con người. Khi khoảng cách giữa các nhiệm vụ dễ dàng đối với con người nhưng khó khăn đối với AI cuối cùng đạt đến con số không, AGI có thể được tuyên bố là đã đạt được.
Tuy nhiên, việc đạt được AGI không chỉ giới hạn ở khả năng giải quyết nhiệm vụ; hiệu quả - chi phí và nguồn lực cần thiết để tìm ra giải pháp - đang nổi lên như một yếu tố quyết định quan trọng.
Vai trò của hiệu quả
Đo lường hiệu suất theo chi phí cho mỗi nhiệm vụ là điều cần thiết để đánh giá trí thông minh không chỉ là khả năng giải quyết vấn đề mà còn là khả năng thực hiện hiệu quả.
Các ví dụ thực tế đã cho thấy khoảng cách hiệu quả giữa con người và các hệ thống AI tiên tiến:
- Hiệu quả của bảng điều khiển con người: Đạt nhiệm vụ ARC-AGI-2 với độ chính xác 100% ở mức 17 đô la/nhiệm vụ.
- OpenAI o3: Ước tính ban đầu cho thấy tỷ lệ thành công là 4% với mức giá cao ngất ngưởng là 200 đô la cho mỗi nhiệm vụ.
Các số liệu này nhấn mạnh sự khác biệt về khả năng thích ứng và mức tiêu thụ tài nguyên giữa con người và AI. Giải thưởng ARC cam kết báo cáo về hiệu quả cùng với điểm số trên các bảng xếp hạng trong tương lai.
Việc tập trung vào hiệu quả ngăn cản các giải pháp dùng vũ lực được coi là “trí thông minh thực sự”.
Theo Giải thưởng ARC, trí thông minh bao gồm việc tìm ra các giải pháp với nguồn lực tối thiểu - một phẩm chất đặc trưng của con người nhưng vẫn khó nắm bắt đối với AI.
Giải thưởng ARC 2025
Giải thưởng ARC Prize 2025 ra mắt trên Kaggle tuần này, hứa hẹn tổng giải thưởng lên tới 1 triệu đô la và giới thiệu bảng xếp hạng trực tiếp cho các đột phá nguồn mở. Cuộc thi nhằm mục đích thúc đẩy tiến trình hướng tới các hệ thống có thể giải quyết hiệu quả các thách thức của ARC-AGI-2.
Trong số các hạng mục giải thưởng tăng so với tổng số năm 2024, có:
- Giải thưởng lớn: 700.000 đô la khi đạt được tỷ lệ thành công 85% trong giới hạn hiệu quả của Kaggle.
- Giải thưởng cho điểm cao nhất: 75.000 đô la cho bài dự thi có điểm cao nhất.
- Giải thưởng báo cáo: 50.000 đô la cho những ý tưởng mang tính đột phá góp phần giải quyết các nhiệm vụ ARC-AGI.
- Giải thưởng bổ sung: 175.000 đô la, thông tin chi tiết sẽ được công bố trong cuộc thi.
Những ưu đãi này đảm bảo tiến độ công bằng và có ý nghĩa, đồng thời thúc đẩy sự hợp tác giữa các nhà nghiên cứu, phòng thí nghiệm và nhóm độc lập.
Năm ngoái, Giải thưởng ARC 2024 đã chứng kiến 1.500 đội thi đấu, tạo ra 40 bài báo có ảnh hưởng trong ngành được hoan nghênh. Mức cược tăng thêm của năm nay nhằm nuôi dưỡng thành công lớn hơn nữa.
Giải thưởng ARC tin rằng sự tiến bộ phụ thuộc vào những ý tưởng mới lạ hơn là chỉ mở rộng quy mô các hệ thống hiện có. Bước đột phá tiếp theo trong các hệ thống chung hiệu quả có thể không bắt nguồn từ những gã khổng lồ công nghệ hiện tại mà từ các nhà nghiên cứu táo bạo, sáng tạo, chấp nhận sự phức tạp và thử nghiệm tò mò.
(Nguồn hình ảnh: Giải thưởng ARC)
Xem thêm: DeepSeek V3-0324 đứng đầu các mô hình AI không có lý luận trong mã nguồn mở đầu tiên

Bạn muốn tìm hiểu thêm về AI và dữ liệu lớn từ những người dẫn đầu ngành? Hãy xem Triển lãm AI & Big Data diễn ra tại Amsterdam, California và London. Sự kiện toàn diện này được tổ chức cùng với các sự kiện hàng đầu khác bao gồm Hội nghị tự động hóa thông minh , BlockX , Tuần lễ chuyển đổi số và Triển lãm an ninh mạng & đám mây .
Khám phá các sự kiện công nghệ doanh nghiệp sắp tới và hội thảo trực tuyến do TechForge hỗ trợ tại đây .
Bài đăng ARC Prize ra mắt chuẩn mực AI khó khăn nhất từ trước đến nay: ARC-AGI-2 xuất hiện đầu tiên trên AI News .