METR cập nhật các tiêu chuẩn về khả năng của tác nhân AI; Gemini 3.1 Pro vượt qua tất cả các mô hình tiên tiến về độ tin cậy, chiếm vị trí dẫn đầu.

Bài viết này được dịch máy

Xem bản gốc

Theo ME News, vào ngày 16 tháng 4 (UTC+8), Beating, một tổ chức đánh giá an toàn AI, đã cập nhật chuẩn "Time Horizon" của mình, bổ sung dữ liệu thử nghiệm cho Google Gemini 3.1 Pro. Chuẩn này theo dõi giới hạn trên về khả năng hoàn thành độc lập nhiệm vụ lập trình AI Agent tiên tiến và đã trở thành một tham khảo quan trọng để đo lường tăng trưởng AI Agent kể từ khi ra mắt vào tháng 2 năm nay. Phương pháp đo lường bao gồm việc cho các chuyên gia kỹ thuật phần mềm (trung bình khoảng 5 năm kinh nghiệm) và AI Agent hoàn thành cùng một bộ hơn 100 nhiệm vụ phần mềm, sử dụng thời gian của con người để đo độ khó nhiệm vụ. Có hai chỉ báo cốt lõi: 50% Time Horizon (tác vụ nhiệm vụ cao nhất mà AI có 50% xác suất hoàn thành) và 80% Time Horizon (tác vụ nhiệm vụ cao nhất mà AI có 80% xác suất hoàn thành). Thứ hạng của Gemini 3.1 Pro trên cả hai chỉ báo đều đã đảo ngược. Trong khung thời gian 50%, nó xếp thứ hai, lần Claude Opus 4.6 vượt trội hơn hẳn: 1. Claude Opus 4.6: khoảng 12,0 giờ 2. Gemini 3.1 Pro: khoảng 6,4 giờ 3. GPT-5.2: khoảng 5,9 giờ 4. GPT-5.4: khoảng 5,7 giờ Tuy nhiên, trong khung thời gian khắt khe hơn 80%, Gemini 3.1 Pro vượt trội hơn để chiếm vị trí đầu bảng: 1. Gemini 3.1 Pro: khoảng 1,5 giờ 2. Claude Opus 4.6: khoảng 1,2 giờ 3. GPT-5.2: khoảng 1,1 giờ Claude Opus 4.6 có thể xử lý nhiệm vụ khó hơn nhưng tỷ lệ thành công của nó dao động rất lớn, trong khi Gemini 3.1 Pro có giới hạn thấp hơn nhưng ổn định hơn trong khả năng của nó. Đối với các kịch bản sản xuất yêu cầu kết quả có thể dự đoán được, thiết bị sau có thể thực tế hơn. So với phiên bản tiền nhiệm, Gemini 3 Pro (thời gian thực hiện 50% xấp xỉ 3,7 giờ), Gemini 3.1 Pro thể hiện sự cải tiến khoảng 71%. Nhìn vào khung thời gian dài hơn, dữ liệu của METR cho thấy thời gian thực hiện của các mô hình tiên tiến tăng trưởng từ vài giây trong GPT-2 năm 2019 lên hơn mười giờ hiện nay, tăng gấp đôi sau mỗi 4,3 tháng. METR tuyên bố rằng họ "không thấy dấu hiệu nào cho thấy tăng trưởng theo cấp số nhân sẽ chậm lại". Điều quan trọng cần lưu ý là nhiệm vụ của METR bao gồm kỹ thuật phần mềm, học máy và an ninh mạng, tất cả đều là nhiệm vụ độc lập, được xác định rõ ràng và chấm điểm tự động. Nghiên cứu tiếp theo của METR cho thấy hiệu suất của AI giảm đáng kể khi phương pháp chấm điểm chuyển từ đánh giá thuật toán sang đánh giá tổng thể của con người. Thời gian thực hiện 12 giờ không có nghĩa là AI có thể thay thế nửa ngày làm việc của con người. (Nguồn: ME)

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan