
Ngày 27 tháng 2, PANews đưa tin, dẫn nguồn từ Cointelegraph, mã nguồn mở Sentient đã công bố ra mắt Arena, một hoàn cảnh thử nghiệm cấp độ sản xuất để đánh giá hiệu suất của các tác nhân AI trong quy trình làm việc của doanh nghiệp. Pantera Capital và bộ phận tài sản kỹ thuật số của Franklin Templeton đã tham gia nhóm thử nghiệm ban đầu của Arena.
Sentient cho biết Arena không phải là một bài kiểm tra mô hình tĩnh, mà là một bài kiểm tra nhiệm vụ tiêu chuẩn hóa của tác nhân AI bằng cách mô phỏng các điều kiện doanh nghiệp bao gồm tài liệu dài, thông tin không đầy đủ và các nguồn xung đột. Nền tảng này theo dõi các loại lỗi như ảo giác, thiếu bằng chứng, lỗi trích dẫn và lỗi suy luận để giúp các nhà phát triển chẩn đoán vấn đề. Arena dự định công bố chỉ báo hiệu suất so sánh thông qua bảng xếp hạng công khai và phát hành báo cáo thử nghiệm tóm tắt các chế độ lỗi phổ biến và giải pháp.






