Bài viết này được dịch máy
Xem bản gốc
Thế hệ tiếp theo của các bài kiểm tra hiệu năng LLM không nên được thực hiện trên swe-bench lite/verified/pro/ultra nữa.
Mỗi tháng, một nhóm kín gồm 5000 vấn đề được chọn ngẫu nhiên trên GitHub sẽ được chạy bằng cùng một bộ công cụ kiểm thử trên tất cả các mô hình, và một người đóng vai trò trọng tài sẽ viết các trường hợp kiểm thử để xác định sự thành công.
Vì các vấn đề được chọn ngẫu nhiên, nên không cần phải lo lắng về số lượng và tỷ lệ phần trăm các vấn đề đã được giải quyết; chỉ cần nhìn vào thứ hạng tương đối là được.
Điều này loại bỏ những lo ngại về việc sử dụng swe-bench để tinh chỉnh hoặc thậm chí gian lận, đồng thời loại bỏ những lo lắng về các yếu tố không thể kiểm soát như khả năng của nhà cung cấp A trong việc tái tạo kết quả trong khi nhà cung cấp B thì không, hoặc nhà cung cấp C chọn lọc kết quả tốt nhất.
Bạn chỉ cần kiểm tra bảng xếp hạng chính chính thức mới nhất của tháng này.
Phương pháp này tốt hơn nhiều so với phương pháp trước đây là chạy đồng thời hai mô hình và để người dùng tự bỏ phiếu xem mô hình bên trái hay bên phải tốt hơn.
Cần lưu ý rằng bảng xếp hạng này không có tham khảo chiều dọc. Có lẽ mô hình A, xếp hạng nhất vào tháng 3, đã giải quyết được 60% vấn đề, trong khi mô hình B, xếp hạng nhất vào tháng 4, chỉ giải quyết được 40% vấn đề. Điều này là do các vấn đề trong tháng 3 và tháng 4 hoàn toàn khác nhau, nên không cần thiết phải so sánh theo chiều dọc.
Bạn chỉ cần nhìn vào thứ hạng tương đối của tháng này là đủ hiểu.
Đây mới chính là trận đấu cricket ảo thực sự.
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan




