OpenAI ra mắt chuẩn mực PaperBench để đánh giá khả năng sao chép nghiên cứu của AI

Bài viết này được dịch máy
Xem bản gốc

Theo tin từ Foresight News, OpenAI đã giới thiệu bài kiểm tra PaperBench để đánh giá khả năng sao chép nghiên cứu của AI Agent. AI cần sao chép 20 bài báo hàng đầu của ICML 2024, bao gồm việc hiểu bài báo, viết mã và thực hiện thí nghiệm. Bài kiểm tra được thực hiện thông qua các tiêu chí đánh giá chi tiết do các tác giả gốc phát triển, bao gồm 8316 yêu cầu cụ thể, được LLM đánh giá. Kết quả cho thấy, Claude 3.5 Sonnet (New) kết hợp với khung mã nguồn mở có hiệu suất tốt nhất, với điểm sao chép trung bình là 21.0%, nhưng vẫn chưa vượt qua mức cơ sở của con người.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Followin logo