750.000 vòng đấu một chọi một giữa các mẫu xe cỡ lớn, GPT-4 đoạt chức vô địch, Llama 3 xếp thứ năm

avatar
36kr
04-23
Bài viết này được dịch máy
Xem bản gốc

Về Llama 3, một kết quả thử nghiệm khác đã được công bố——

Cộng đồng đánh giá mô hình lớn LMSYS đã công bố danh sách xếp hạng mô hình lớn Llama 3 xếp thứ năm và đồng hạng nhất với GPT-4 ở hạng mục tiếng Anh.

Khác với các điểm chuẩn khác, danh sách này dựa trên các trận chiến mô hình một chọi một, với những người đánh giá từ khắp mạng lưới đưa ra đề xuất và cho điểm của riêng họ.

Cuối cùng, Llama 3 đứng thứ năm trong danh sách, tiếp theo là ba phiên bản khác nhau của GPT-4 và Claude 3 Super Cup Opus.

Ở danh sách đơn tiếng Anh, Llama 3 đã vượt qua Claude và hòa với GPT-4.

LeCun, nhà khoa học trưởng của Meta, rất vui mừng về kết quả này và đã tweet lại nó và để lại tin nhắn "Tốt".

Soumith Chintala, cha đẻ của PyTorch, cũng hào hứng cho biết những kết quả như vậy thật đáng kinh ngạc và ông tự hào về Meta.

Phiên bản 400B của Llama 3 vẫn chưa ra mắt và nó chỉ xếp thứ năm chỉ dựa trên thông số 70B... Tôi vẫn nhớ rằng khi GPT-4 được phát hành vào tháng 3 năm ngoái, gần như không thể đạt được hiệu suất tương tự. …Quá trình dân chủ hóa AI hiện nay thực sự đáng kinh ngạc và tôi rất tự hào về các đồng nghiệp của mình tại Meta AI vì đã đạt được thành công như vậy.

Vậy danh sách này cho thấy kết quả cụ thể gì?

Gần 90 người mẫu tranh tài 750.000 vòng

Tính đến thời điểm công bố danh sách mới nhất, LMSYS đã thu thập được gần lần kết quả trận solo mô hình lớn, bao gồm 89 mô hình.

Trong đó, Llama 3 đã tham gia 12.700 lần và GPT-4 có nhiều phiên bản khác nhau, trong đó có nhiều phiên bản tham gia nhất là 68.000 lần.

Hình dưới đây thể hiện số lượng thi đấu và tỷ lệ trúng thưởng của một số mẫu xe phổ biến. Cả hai chỉ báo trong hình đều không tính số lần rút thăm.

Xét về danh sách, LMSYS được chia thành danh sách chung và nhiều danh sách phụ xếp hạng đầu tiên, gắn liền với phiên bản 1106 trước đó và Claude 3 Super Large Cup Opus.

Một phiên bản khác (0125) của GPT-4 xếp thứ hai, theo sát là Llama 3.

Nhưng điều thú vị hơn là 0125 mới hơn không hoạt động tốt như phiên bản 1106 cũ hơn.

Ở bảng xếp hạng đĩa đơn tiếng Anh, thành tích của Llama 3 ngang bằng trực tiếp với hai chiếc GPT-4, thậm chí còn vượt qua cả phiên bản 0125.

Vị trí đầu tiên trong bảng xếp hạng trình độ tiếng Trung được chia sẻ bởi Claude 3 Opus và GPT-4-1106, trong khi Llama 3 đã bị xếp ngoài vị trí thứ 20.

Ngoài khả năng ngôn ngữ, danh sách này còn xếp hạng cho khả năng viết văn bản và mã hóa dài, và Llama 3 cũng được xếp vào hàng tốt nhất.

Tuy nhiên, “luật chơi” cụ thể của LMSYS là gì?

Đánh giá mô hình lớn mà mọi người đều có thể tham gia

Đây là bài kiểm tra mô hình quy mô lớn mà mọi người đều có thể tham gia. Các câu hỏi và tiêu chí đánh giá đều do người tham gia tự quyết định.

Quá trình "cạnh tranh" cụ thể được chia thành hai chế độ: chiến đấu và sát cánh.

Ở chế độ chiến đấu, sau khi nhập câu hỏi trên giao diện kiểm tra, hệ thống sẽ gọi ngẫu nhiên hai mô hình trong thư viện, nhưng người kiểm tra không biết hệ thống đã chọn ai. Trên giao diện chỉ hiển thị "Mẫu A" và "Mẫu B". .

Sau khi mô hình đưa ra câu trả lời, người đánh giá cần lựa chọn cái nào tốt hơn hoặc ngang bằng. Tất nhiên, nếu hiệu suất của mô hình không đạt như mong đợi thì sẽ có những phương án tương ứng.

Chỉ sau khi lựa chọn được thực hiện, danh tính của người mẫu mới được tiết lộ.

Side-by-side là nơi người dùng chọn mô hình được chỉ định cho PK. Phần còn lại của quá trình thử nghiệm cũng giống như chế độ chiến đấu.

Tuy nhiên, chỉ kết quả bình chọn ở chế độ nặc danh của trận chiến mới được tính và nếu mô hình vô tình để lộ danh tính trong quá trình trò chuyện thì kết quả sẽ không hợp lệ.

Theo Tỷ lệ thắng của từng mô hình so với các mô hình khác, có thể vẽ ra một hình ảnh như thế này:

Thứ hạng cuối cùng có được bằng cách sử dụng dữ liệu Tỷ lệ thắng và chuyển đổi thành điểm thông qua hệ thống đánh giá Elo.

Hệ thống xếp hạng Elo là một phương pháp tính toán trình độ kỹ năng tương đối của người chơi, được thiết kế bởi giáo sư vật lý người Mỹ Arpad Elo.

Cụ thể đối với LMSYS, trong các điều kiện ban đầu, xếp hạng (R) của tất cả các mô hình được đặt thành 1000 và sau đó tỷ lệ chiến thắng dự kiến ​​(E) được tính dựa trên công thức như vậy.

Khi bài thi tiếp tục, điểm sẽ được điều chỉnh dựa trên điểm thực tế (S).

Thuật toán hiệu chỉnh được thể hiện trong công thức sau, trong đó K là Hệ số, người kiểm tra cần điều chỉnh theo tình hình thực tế.

Sau khi tất cả dữ liệu hợp lệ cuối cùng được đưa vào tính toán, sẽ thu được điểm Elo của mô hình.

Tuy nhiên, trong quá trình vận hành thực tế, đội ngũ LMSYS nhận thấy độ ổn định của thuật toán này chưa đủ nên đã sử dụng phương pháp thống kê để khắc phục.

Họ đã sử dụng phương pháp Bootstrap để lấy mẫu lặp lại, thu được kết quả ổn định hơn và ước tính khoảng tin cậy.

Điểm Elo sửa đổi cuối cùng trở thành cơ sở để xếp hạng trong danh sách.

Một điều nữa

Llama 3 đã có thể chạy trên nền tảng suy luận mô hình lớn Groq (không phải Grok của Musk).

Điểm nổi bật lớn nhất của nền tảng này là "độ bền" của nó. Trước đây, mô hình Mixtral được sử dụng để đạt tốc độ gần 500 token mỗi giây.

Khi chạy Llama 3 cũng khá nhanh. Theo thử nghiệm thực tế, phiên bản 70B có thể chạy khoảng 300 token mỗi giây, còn phiên bản 8B là gần 800.

Liên kết tham khảo:

[1]https://lmsys.org/blog/2023-05-03-arena/

[2]https://chat.lmsys.org/?leaderboard

[3]https://twitter.com/lmsysorg/status/1782483699449332144

Bài viết này xuất phát từ tài khoản công khai WeChat "Qubit" (ID: QbitAI) , tác giả: Cressy và 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận