ARC-AGI-3 công bố cuộc thử nghiệm quy mô lớn nhất từ trước đến nay trên con người: tất cả các cấp độ đều được con người chinh phục, làm nổi bật khoảng cách về khả năng của trí tuệ nhân tạo.
Bài viết này được dịch máy
Xem bản gốc
Theo ME News, vào ngày 15 tháng 4 (UTC+8), như Beating đã theo dõi, Quỹ Giải thưởng ARC đã công bố dữ liệu hiệu suất của con người cho ARC-AGI-3. Đây là nghiên cứu thử nghiệm trên người lớn nhất trong sê-ri ARC-AGI cho đến nay, với sự tham gia của 458 người. Dữ liệu chứa 342 bản ghi lại hoạt động hoàn chỉnh của con người, bao gồm 25 hoàn cảnh công khai, và hoàn toàn là mã nguồn mở. ARC-AGI-3 bao gồm 135 hoàn cảnh suy luận trừu tượng. Người thử nghiệm không nhận được hướng dẫn nào và phải tự khám phá, suy đoán các quy tắc và phát triển chiến lược một cách độc lập. Các bài kiểm tra được tiến hành tại một trung tâm thử nghiệm ngoại tuyến ở San Francisco, mỗi phiên kéo dài 90 phút. Người tham gia nhận được mức lương cơ bản khoảng 130 đô la cộng với khoản thưởng 5 đô la cho mỗi hoàn cảnh được hoàn thành thành công. Tất cả các bài kiểm tra đều là "hoàn thành lần đầu tiên", nghĩa là mỗi người chỉ nhìn thấy và thử một lần, đo lường khả năng học hỏi và thích ứng khi đối diện các vấn đề hoàn toàn mới. Con người và AI nhận được chính xác cùng một thông tin, không có khoảng cách thông tin. Kết luận chính: Tất cả hoàn cảnh trong ARC-AGI-3 đều được con người hoàn thành, mỗi hoàn cảnh được ít nhất hai người tham gia độc lập hoàn thành, và hầu hết hoàn cảnh được năm người tham gia trở lên hoàn thành. Quỹ Giải thưởng ARC tuyên bố: "Chúng ta vẫn chưa đạt được Trí tuệ Nhân tạo Tổng quát (AGI), và dữ liệu này là bằng chứng." Kể từ khi ARC-AGI-3 được công bố, gần một triệu bài đánh giá AI đã được gửi đến hoàn cảnh công khai. Dựa trên dữ liệu này, quỹ cũng đã công bố hai điều chỉnh đối với quy tắc tính điểm: thứ nhất, thay đổi chuẩn mực của con người cho mỗi cấp độ từ "người chơi giỏi thứ hai" thành "người chơi số trung vị", giảm thiểu ảnh hưởng của yếu tố may rủi đến điểm số; thứ hai, tăng điểm tối đa cho một cấp độ từ 100% lên 115%, ngăn chặn việc hiệu suất kém ở một cấp độ làm giảm điểm tổng thể. Hiệu quả ròng của hai điều chỉnh này là tăng nhẹ khoảng 0,5 điểm phần trăm trong cả điểm số của con người và AI. (Nguồn: ME)
Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan





