Ông vua mới của AI mã nguồn mở tuyên bố đánh bại GPT-4o bị tố lừa đảo Đừng mê tín về danh sách các mô hình lớn

avatar
36kr
09-11
Bài viết này được dịch máy
Xem bản gốc

Bạn đã bao giờ nghĩ tới câu hỏi: Mô hình AI xếp hạng dựa trên thâm niên như thế nào?

Giống như kỳ thi tuyển sinh đại học của con người, họ cũng có kỳ thi riêng - Benchmark.

Tuy nhiên, kỳ thi tuyển sinh đại học chỉ có một số môn và có nhiều bài kiểm tra điểm chuẩn khác nhau. Một số kiểm tra kiến ​​thức tổng quát và một số chuyên về một khả năng nhất định, bao gồm toán học, viết mã và đọc hiểu.

Benchmark thứ hạng khi Google ra mắt Gemini

Ưu điểm của việc kiểm tra điểm chuẩn là mang tính trực quan. Bằng cách kéo lên danh sách, điểm số được hiển thị rõ ràng trong nháy mắt, điều này thu hút người dùng hiệu quả hơn so với những đoạn văn bản dài dòng.

Tuy nhiên, không chắc chắn liệu bài kiểm tra có chính xác hay không. Do một vụ việc bị nghi ngờ là gian lận gần đây, độ tin cậy của việc kiểm tra điểm chuẩn đã giảm một mức khác.

Ông vua mới của các mô hình mã nguồn mở bị “bẻ khóa” trong chớp mắt

Vào ngày 6/9, sự xuất hiện của Reflection 70B dường như là một điều kỳ diệu. Nó đến từ công ty khởi nghiệp HyperWrite ít được biết đến ở New York, nhưng nó tự gọi mình là "mô hình mã nguồn mở hàng đầu thế giới".

Nhà phát triển Matt Shumer chứng minh điều này như thế nào? Sử dụng dữ liệu.

Trong nhiều bài kiểm tra điểm chuẩn, chỉ với thông số 70B, nó đã đánh bại GPT-4o, Claude 3.5 Sonnet, Llama 3.1 405B và các ông lớn khác. Nó tiết kiệm chi phí hơn so với các mô hình nguồn đóng hàng đầu và ngay lập tức khiến mọi người kinh ngạc.

Reflection 70B không xuất phát từ đá. Nó tự gọi mình là Llama 3.1 70B dựa trên Meta. Phải mất 3 tuần để đào tạo và sử dụng công nghệ mới Reflection-Tune, cho phép AI phát hiện lỗi trong suy luận của chính nó và sửa nó. trước khi trả lời.

Sử dụng phép so sánh trong suy nghĩ của con người, điều này hơi giống quá trình chuyển đổi từ Hệ thống 1 sang Hệ thống 2 trong “Tư duy, nhanh và chậm”, nhắc nhở AI hãy thực hiện dễ dàng và không buột miệng mà phải làm chậm tốc độ suy luận. , giảm ảo giác và đưa ra câu trả lời hợp lý hơn.

Tuy nhiên, những nghi ngờ đã sớm xuất hiện.

Vào ngày 8 tháng 9, cơ quan đánh giá bên thứ ba Artificial Analysis tuyên bố rằng họ không thể tái tạo kết quả của bài kiểm tra điểm chuẩn.

Ví dụ: điểm MMLU của một trong đó các điểm chuẩn, Reflection 70B, bằng với Llama 3 70B, nhưng thấp hơn đáng kể so với Llama 3.1 70B, chưa nói đến GPT-4o.

Matt Shumer trả lời câu hỏi, giải thích rằng kết quả của bên thứ ba tệ hơn là do có vấn đề về tỷ trọng của Reflection 70B khi tải lên Hugging Face, dẫn đến hiệu suất của mô hình không tốt bằng phiên bản API nội bộ.

Lý do hơi khập khiễng và giữa hai người đã qua lại. Sau đó, Phân tích nhân tạo cho biết họ đã nhận được sự cho phép của API sở hữu tư nhân và hiệu suất thực sự tốt, nhưng nó vẫn chưa đạt được mức như công bố ban đầu. quan chức.

Ngay sau đó, cư dân mạng X và Reddit cũng tham gia vào nhóm "chống hàng giả", đặt câu hỏi rằng Reflection 70B được LoRA đào tạo trực tiếp trên bộ thử nghiệm cơ bản nên có thể ghi điểm trong danh sách, nhưng thực tế thì không. nó không có khả năng.

Thậm chí, có người còn tố Reflection 70B là bẫy của Claude và là sự dối trá từ đầu đến cuối.

Ngày 11/9, đối diện phản đối của dư luận, đội ngũ của Matt Shumer đã đưa ra tuyên bố phủ nhận việc Claude bị pháo kích. Không rõ vì sao điểm benchmark không thể sao chép được.

Điểm số cao giả, có thể do sai sót ngay từ đầu, ô nhiễm dữ liệu hoặc lỗi cấu hình. Vui lòng cho họ thêm thời gian.

Vẫn chưa có kết luận cuối cùng về vụ việc nhưng ít nhất nó cũng minh họa được một vấn đề về độ tin cậy của bảng xếp hạng AI cần phải đặt dấu hỏi. Việc tự tiếp thị với điểm số cao trên bảng xếp hạng rất dễ gây nhầm lẫn cho những người không biết. sự thật.

Nhiều kỳ thi mô hình lớn, lo lắng xếp hạng con người

Hãy quay lại câu hỏi cơ bản nhất: Làm thế nào để đánh giá hiệu suất của một mô hình lớn?

Một cách tương đối đơn giản và sơ bộ là xem xét số lượng tham số. Ví dụ: Llama 3.1 có nhiều phiên bản, 8B phù hợp để triển khai và phát triển trên GPU cấp độ người tiêu dùng và 70B phù hợp cho các ứng dụng gốc AI quy mô lớn.

Nếu số lượng tham số là "cài đặt gốc", đại diện cho giới hạn trên về khả năng của mô hình, thì bài kiểm tra điểm chuẩn là phải vượt qua "bài kiểm tra"đánh giá hiệu suất thực tế của mô hình trong nhiệm vụ cụ thể. chúng, với những điểm nhấn khác nhau và các điểm số không thể tương tác với nhau.

MMLU hay còn gọi là hiểu ngôn ngữ đa nhiệm vụ quy mô lớn, được phát hành vào năm 2020, hiện là bộ dữ liệu đánh giá tiếng Anh phổ biến nhất.

Nó chứa khoảng 16.000 câu hỏi trắc nghiệm bao gồm 57 môn học như toán học, vật lý, lịch sử, luật và y học. Độ khó từ trung học đến chuyên gia. Đây là một bài kiểm tra trí thông minh tổng quát. Mô hình trả lời đúng càng nhiều câu hỏi thì cấp độ càng cao.

Vào tháng 12 năm ngoái, Google cho biết Gemini Ultra đạt điểm cao tới 90,0% trong MMLU, cao hơn GPT-4.

Tuy nhiên, họ không giấu giếm, cho rằng phương pháp của Gemini và GPT-4 khác nhau. Cái trước là CoT (lý luận từng bước) và cái sau là 5 phát, nên điểm số này có thể chưa đủ khách quan.

Tất nhiên, cũng có những bài kiểm tra điểm chuẩn kiểm tra khả năng phân chia của các mô hình lớn và có quá nhiều thứ để liệt kê.

GSM8K chủ yếu kiểm tra toán tiểu học, MATH cũng kiểm tra toán, nhưng có tính cạnh tranh cao hơn, bao gồm đại số, hình học và giải tích, còn HumanEval kiểm tra lập trình Python.

Ngoài toán học và vật lý, AI còn thực hiện "đọc hiểu". DROP cho phép mô hình thực hiện các lý luận phức tạp bằng cách đọc các đoạn văn và trong đó thông tin. Ngược lại, HellaSwag tập trung vào lý luận thông thường và kết hợp nó với các tình huống cuộc sống.

Câu hỏi kiểm tra điểm chuẩn HellaSwag

Mặc dù hầu hết đều bằng tiếng Anh, nhưng các mô hình lớn của Trung Quốc cũng có bài kiểm tra điểm chuẩn riêng, chẳng hạn như C-Eval, được hoàn thành bởi Đại học Giao thông Thượng Hải, Đại học Thanh Hoa và Đại học Edinburgh, bao gồm gần 14.000 câu hỏi trong 52 chuyên ngành. chẳng hạn như phép tính.

Bài kiểm tra điểm chuẩn của Trung Quốc SuperCLUE kiểm tra logic và lý luận

Vậy “người đánh giá” là ai? Có khoảng ba loại. Một là các quy trình tự động, chẳng hạn như điểm chuẩn lập trình. Mã do mô hình tạo ra sẽ được thực thi tự động để xác minh xem nó có đúng hay không. Loại còn lại là sử dụng các mô hình mạnh hơn như GPT-4 làm trọng tài. Thứ ba là thủ công.

Quyền anh hỗn hợp toàn diện hơn nhiều so với Tứ Thư, Ngũ Kinh và Lục Nghệ. Nhưng điểm chuẩn cũng có những cạm bẫy nghiêm trọng. Công ty đứng đằng sau nó “đóng vai trò vừa là trọng tài, vừa là vận động viên”, rất giống tình trạng giáo viên sợ học sinh gian lận.

Một mối nguy tiềm ẩn là dễ rò rỉ câu hỏi, khiến người mẫu “sao chép đáp án”.

Nếu tập kiểm tra của benchmark được công khai, mô hình có thể đã “nhìn thấy” những câu hỏi hoặc câu trả lời này trong quá trình huấn luyện, khiến kết quả thực hiện của mô hình không thực tế, vì mô hình có thể không trả lời các câu hỏi thông qua lý luận mà ghi nhớ câu trả lời. .

Điều này liên quan đến vấn đề rò rỉ dữ liệu và trang bị quá mức, dẫn đến việc đánh giá quá cao khả năng của mô hình.

Nghiên cứu từ các trường đại học như Đại học Nhân dân chỉ ra rằng dữ liệu liên quan đến bộ đánh giá đôi khi được sử dụng để đào tạo mô hình

Một mối nguy hiểm tiềm ẩn khác là gian lận, nơi có rất nhiều cơ hội để con người thao túng.

Phản ánh 70B Khi X đang được thảo luận sôi nổi, nhà khoa học nghiên cứu cấp cao của NVIDIA, Jim Fan đã đăng: Việc thao túng điểm chuẩn không khó.

Ví dụ: bắt đầu từ "ngân hàng câu hỏi" và huấn luyện mô hình dựa trên các ví dụ được viết lại của bộ bài kiểm tra. Việc viết lại các câu hỏi trong bộ bài kiểm tra ở các định dạng, cách diễn đạt và ngôn ngữ khác nhau có thể cho phép mô hình 13B đánh bại GPT-4 trong các bài kiểm tra điểm chuẩn như MMLU, GSM8K và HumanEval, sụp đổ Tiangang.

Đồng thời, bạn cũng có thể thay đổi “phương pháp giải câu hỏi” để tăng tỷ lệ băm của lý luận thông qua việc tự phản ánh, cây tư duy…, mô hình có thể làm chậm quá trình suy luận và đưa ra lần suy luận, từ đó nâng cao độ chính xác. .

Thái độ của Jim Fan rất rõ ràng:

Điều đáng kinh ngạc là vào tháng 9 năm 2024, mọi người vẫn hào hứng với điểm số MMLU hoặc HumanEval. Những tiêu chuẩn này bị phá vỡ đến mức việc thao túng chúng có thể trở thành một bài tập ở bậc đại học.

Ngoài ra, độ khó của các bài kiểm tra điểm chuẩn có thể không nhất thiết theo kịp tốc độ phát triển của AI, bởi vì chúng thường tĩnh và đơn lẻ, nhưng AI đang hoạt động rất điên cuồng.

Dan Hendrycks, một nhà nghiên cứu bảo mật AI tham gia phát triển MMLU, nói với Nytimes vào tháng 4 năm nay rằng MMLU có thể có thời hạn sử dụng một hoặc hai năm và sẽ sớm được thay thế bằng các thử nghiệm khác, khó hơn.

Trong cuộc chiến của hàng trăm mô hình, nỗi lo về xếp hạng của xã hội loài người đã được truyền sang AI. Dưới nhiều hoạt động hậu trường khác nhau, bảng xếp hạng AI đã trở thành một công cụ tiếp thị, nhưng chúng rất hỗn tạp và không đáng tin cậy lắm.

Mô hình AI nào mạnh hơn, người dùng sẽ bình chọn

Nhưng nhiều khi, mọi việc sẽ dễ xử lý hơn nếu có dữ liệu và tiêu chuẩn.

Đo điểm chuẩn là một khung tính điểm có cấu trúc có thể được sử dụng như một yếu tố trong việc người dùng lựa chọn mô hình và cũng có thể giúp cải thiện mô hình. C-Eval, công ty thực hiện kiểm tra điểm chuẩn của Trung Quốc, thậm chí còn nói thẳng: “Mục tiêu quan trọng nhất của chúng tôi là hỗ trợ phát triển mô hình”.

Kiểm tra điểm chuẩn có giá trị riêng của nó, điều quan trọng là làm thế nào để trở nên có thẩm quyền và đáng tin cậy hơn.

Chúng tôi đã biết rằng nếu bộ kiểm tra được sử dụng để đào tạo mô hình, nó có thể khiến mô hình "gian lận" trong bài kiểm tra điểm chuẩn. Một số đánh giá của bên thứ ba bắt đầu từ khoảng trống này.

Phòng thí nghiệm nghiên cứu SEAL của công ty chú thích dữ liệu Scal AI nhấn mạnh đến quyền riêng tư của các bộ dữ liệu của chính họ. Thật dễ hiểu, chỉ qua “khép sách kiểm tra” mới có thể thấy được chương thật.

Hiện tại, SEAL có thể kiểm tra khả năng mã hóa, theo dõi hướng dẫn, toán học và đa ngôn ngữ của mô hình và nhiều khía cạnh đánh giá khác sẽ được bổ sung trong tương lai.

Bảng xếp hạng khả năng mã hóa của SEAL tháng 8 năm nay

Ngoài chế độ đặt câu hỏi và tính điểm, còn có một bài kiểm tra điểm chuẩn thực tế hơn: Arena.

Đại diện trong đó là Chatbot Arena, được thành lập bởi LMSYS, một tổ chức phi lợi nhuận gồm các nhà nghiên cứu đến từ Đại học Carnegie Mellon, Đại học California, Berkeley và các tổ chức khác.

Nó đặt các mô hình AI nặc danh nhiên, ẩn danh với nhau, trong đó người dùng bỏ phiếu cho mô hình tốt nhất, sau đó được xếp hạng bằng hệ thống tính điểm Elo thường được sử dụng trong các trò chơi cạnh tranh như cờ vua.

Cụ thể, chúng ta có thể hỏi trực tuyến hai mô hình nặc danh A và B được chọn ngẫu nhiên, sau đó bỏ phiếu cho hai câu trả lời, xem chúng ta thích A, thích B, hòa hay không. Chỉ khi đó chúng ta mới có thể nhìn thấy màu sắc thực sự của mô hình A và B. .

Câu hỏi tôi đặt ra là "9,9 hay 9,11 lớn hơn" đã khiến nhiều AI bối rối trước đây? Cả hai mẫu đều trả lời sai. Tôi nhấp vào và thấy rằng một trong những người chiến thắng may mắn là GPT-4o và mẫu còn lại là Mixtral của Pháp.

Ưu điểm của Chatbot Arena là rõ ràng. Các câu hỏi được số lượng lớn người dùng đưa ra chắc chắn phức tạp và linh hoạt hơn nhiều so với các bộ thử nghiệm được tạo trong phòng thí nghiệm. Khi mọi người đều có thể nhìn, chạm và sử dụng nó, thứ hạng sẽ gần hơn với nhu cầu của thế giới thực.

Không giống như một số bài kiểm tra điểm chuẩn, kiểm tra toán học nâng cao và kiểm tra xem đầu ra có an toàn hay không, nó thực sự gần với nghiên cứu hơn và khác xa với nhu cầu của hầu hết người dùng.

Hiện tại, Chatbot Arena đã thu về hơn 1 triệu lượt bình chọn. XAI của Musk cũng đã sử dụng chứng thực xếp hạng của Chatbot Arena.

Tuy nhiên, một số người phản đối và cho rằng Chatbot Arena sẽ bị ảnh hưởng bởi thành kiến ​​của một số ít người dùng. Mọi người đều có sở thích riêng. Một số người dùng có thể thích câu trả lời dài hơn, trong khi những người khác đánh giá cao câu trả lời ngắn gọn và toàn diện.

Vì vậy, Chatbot Arena mới đây đã có sự điều chỉnh để phân biệt giữa hai chỉ báo“phong cách” và “nội dung”. “Nội dung” nghĩa là gì và “phong cách” có nghĩa như thế nào. Thứ hạng đã được thay đổi bằng cách kiểm soát ảnh hưởng của thời lượng và hình thức hội thoại.

Tóm lại, dù bạn đo lường như thế nào, các bài kiểm tra điểm chuẩn cũng không thể đảm bảo, cũng không thể mê tín. Chúng chỉ tham khảo, giống như kỳ thi tuyển sinh đại học chỉ có thể phản ánh một phần năng lực của học sinh.

Tất nhiên, hành vi không hài lòng nhất là xếp hạng một cách chủ quan trong các bài kiểm tra điểm chuẩn, chứng thực bản thân và đơn giản theo đuổi thứ hạng hào nhoáng.

Quay trở lại mục đích ban đầu, tất cả chúng ta đều muốn sử dụng AI để giải quyết các vấn đề trong thế giới thực, phát triển sản phẩm, viết mã, tạo ra hình ảnh và đạt được giá trị tâm lý nào đó thông qua tư vấn tâm lý... Các bài kiểm tra điểm chuẩn không thể giúp bạn trả lời AI nào nói tốt hơn. .

Điều gì là giả không thể là sự thật. Bầu cử bằng đôi chân của bạn là sự thật đơn giản nhất. Những cảm giác và trải nghiệm chủ quan và cá nhân hơn đó vẫn phải được trao đổi để thực hành.

Bài viết này xuất phát từ tài khoản công khai WeChat "APPSO" , tác giả: APPSO, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận