GPT-4V chỉ đạt Cấp độ 2? Danh sách xếp hạng tổng quát đa phương thức đầu tiên trên thế giới được công bố, General-Level tạo ra một mô hình mới cho đánh giá AI tổng quát đa phương thức

avatar
36kr
05-16
Bài viết này được dịch máy
Xem bản gốc

Các Mô hình ngôn ngữ lớn đa phương thức (MLLM) đang nổi lên nhanh chóng, từ việc chỉ có thể hiểu một phương thức duy nhất đến khả năng hiểu và tạo ra nhiều phương thức như hình ảnh, văn bản, âm thanh và thậm chí cả video cùng lúc.

Để trả lời câu hỏi " làm thế nào để đánh giá toàn diện và khách quan các mô hình đa phương thức lớn ", phương pháp đánh giá thường được sử dụng cho các mô hình đa phương thức lớn trước đây là xếp chồng kết quả của nhiều nhiệm vụ. Tuy nhiên, việc chỉ đo lường sức mạnh của một mô hình bằng “điểm số cao hơn trong nhiều nhiệm vụ hơn” là không đáng tin cậy và hiệu suất vượt trội của một mô hình trong một số nhiệm vụ nhất định không nhất thiết có nghĩa là nó gần hơn với trình độ thông minh của con người trong mọi lĩnh vực.

Vì lý do này, khi cuộc cạnh tranh về AI bước vào "nửa sau" (một quan điểm đồng thuận gần đây được nhà nghiên cứu Yao Shunyu của OpenAI đưa ra), việc thiết kế một cơ chế đánh giá khoa học đã trở thành chìa khóa để quyết định thắng bại .

Bài báo "Trên con đường trở thành chuyên gia đa phương thức: Cấp độ chung và Cấp độ chung" gần đây được chấp nhận cho ICML'25 (Spotlight) đã đề xuất một khuôn khổ đánh giá mới Cấp độ chungmột dữ liệu phù hợp là Cấp độ chung , cung cấp câu trả lời cơ bản và đột phá cho vấn đề này.

Khung đánh giá đã được triển khai trong cộng đồng: đội ngũ dự án của bài báo trên đã xây dựng một chuẩn mực đánh giá quy mô cực lớn bao gồm hơn 700 nhiệm vụ, 5 phương thức chung, 29 lĩnh vực và hơn 320.000 dữ liệu thử nghiệm, cũng như Bảng xếp hạng mô hình tổng quát đa phương thức hoàn thiện nhất trong ngành, cung cấp cơ sở hạ tầng để so sánh công bằng, chính trực và toàn diện các mô hình tổng quát đa phương thức lớn khác nhau.

Thuật toán đánh giá cấp độ chung: Hệ thống xếp hạng năm cấp độ và sự tương tác

Khung đánh giá cấp độ chung giới thiệu hệ thống xếp hạng năm cấp độ , tương tự như phương pháp “thăng hạng” để đo lường năng lực chung của các mô hình đa phương thức.

Cốt lõi của đánh giá cấp độ chung nằm ở hiệu ứng tổng quát hiệp đồng (Synergy) , đề cập đến khả năng của mô hình trong việc chuyển giao kiến ​​thức học được từ một phương thức hoặc nhiệm vụ sang một phương thức hoặc nhiệm vụ khác. Nói một cách đơn giản, đó là hiệu ứng của 1+1 > 2.

Các cấp độ của mô hình được sắp xếp từ thấp đến cao: Cấp độ 1 là chuyên gia bậc thầy, Cấp độ 2 là tân binh (không có sự hợp tác), Cấp độ 3 là hợp tác nhiệm vụ, Cấp độ 4 là hợp tác mô hình và Cấp độ 5 là hợp tác toàn phương thức. Cấp độ càng cao thì "trí thông minh chung" mà mô hình thể hiện càng mạnh và mức độ hiệp lực đạt được càng cao.

Cấp độ chung xác định mức độ của mô hình bằng cách kiểm tra các hiệu ứng hiệp lực ở các cấp độ khác nhau:

  • Chuyên gia cấp độ 1

Cấp độ này bao gồm các mô hình chuyên biệt cho nhiệm vụ đơn lẻ hiện tại, thường là các mô hình SOTA được tinh chỉnh đến mức tối đa cho một dữ liệu hoặc nhiệm vụ nhất định.

  • Chuyên gia cấp độ 2 (không cộng tác)

Đạt đến Cấp độ 2 có nghĩa là mô hình bắt đầu có khả năng “chuyên môn hóa trong một lĩnh vực nhưng có thể hỗ trợ nhiều lĩnh vực khác” và có thể hỗ trợ nhiều phương thức và nhiệm vụ, nhưng vẫn chưa cho thấy bất kỳ hiệu ứng tăng cường nào.

  • Nhiệm vụ cấp độ 3 - Hiệu ứng hiệp lực

Để tiến tới Cấp độ 3 đòi hỏi sự cải tiến mang tính hợp tác trong mô hình ở cấp độ nhiệm vụ . Điều này có nghĩa là mô hình vượt qua SOTA của nhiệm vụ chuyên biệt cho một số nhiệm vụ nhất định thông qua việc học kết hợp nhiều nhiệm vụ .

  • Mức độ 4 của sự tương tác cấp độ mô hình

Để đạt đến Cấp độ 4, mô hình phải chứng minh được sự hiệp lực giữa các mô hình , tức là tạo ra sự hiệp lực giữa hai mô hình nhiệm vụ chính là "hiểu và tạo ra". Mức độ này có nghĩa là mô hình đã bắt đầu có khả năng lý luận "tích hợp thế hệ-hiểu biết" và có thể truyền tải kiến ​​thức qua các định dạng nhiệm vụ khác nhau.

  • Cấp độ 5 Tổng hợp liên phương thức

Đây là mức đánh giá cao nhất ở Cấp độ Tổng quát, cho thấy mô hình đã đạt được sự phối hợp toàn diện giữa các phương thức và nhiệm vụ , đồng thời cũng là trạng thái AGI lý tưởng.

Tuy nhiên, tính đến hiện tại, chưa có mô hình nào đạt đến Cấp độ 5.

Cấp độ 5 đại diện cho mục tiêu cuối cùng hướng tới AGI. Khi một mô hình đạt đến cấp độ này, nó có thể chỉ ra rằng AI tổng quát đã có bước tiến quan trọng hướng tới "trí tuệ nhân tạo tổng quát".

Nhìn chung, General-Level sử dụng hệ thống xếp hạng năm cấp độ này để cải thiện quan điểm đánh giá từ việc chỉ xếp chồng điểm nhiệm vụ sang việc kiểm tra khả năng chuyển giao và tích hợp kiến ​​thức trong mô hình .

Trong khi đảm bảo định lượng khách quan, hệ thống xếp hạng này cũng vạch ra lộ trình phát triển cho ngành từ chuyên gia đến người làm tổng quát và sau đó là "người làm toàn diện".

General-Bench Benchmark: Một bài thi tuyệt vời dành cho những người làm việc đa phương thức

General-Bench được biết đến là chuẩn mực đánh giá AI tổng quát đa phương thức hiện tại với quy mô lớn nhất, phạm vi rộng nhất và các loại nhiệm vụ toàn diện nhất.

Đây không chỉ là "đề thi tuyển sinh đại học" đánh giá năng lực AI đa phương thức mà còn là hệ thống đánh giá toàn diện tích hợp chiều rộng, độ sâu và độ phức tạp.

Về mặt phạm vi, General-Bench bao gồm năm phương thức cốt lõi - hình ảnh, video, âm thanh, 3D và ngôn ngữ, thực sự đạt được phạm vi bao phủ phương thức Chuỗi đầy đủ từ nhận thức đến hiểu biết và sau đó là tạo ra.

Ở chiều độ sâu, General-Bench không chỉ bao gồm lượng lớn nhiệm vụ hiểu biết truyền thống (như phân loại, phát hiện, hỏi và trả lời, v.v.) mà còn bao gồm rất nhiều nhiệm vụ tạo ra (như tạo hình ảnh, tạo video, tạo âm thanh, tạo mô tả, v.v.).

Điều đáng chú ý hơn là tất cả nhiệm vụ đều hỗ trợ câu trả lời dạng tự do. Chúng không chỉ giới hạn ở các câu hỏi trắc nghiệm hoặc câu hỏi đúng hoặc sai. Thay vào đó, chúng được đánh giá khách quan dựa trên chỉ báo mở bản địa của nhiệm vụ , lấp đầy điểm mù lâu đời trong đánh giá trong ngành.

Xét về quy mô dữ liệu, General-Bench tập hợp hơn 700 nhiệm vụ , hơn 325.000 mẫu và được chia thành 145 kỹ năng cụ thể, bao gồm toàn diện các khả năng cốt lõi về thị giác, thính giác, ngôn ngữ và các phương thức khác.

Đằng sau những kỹ năng này, General-Bench bao gồm 29 lĩnh vực kiến ​​thức liên ngành, bao gồm khoa học tự nhiên, kỹ thuật, y học, khoa học xã hội, nhân văn, v.v., từ nhận dạng hình ảnh đến lý luận đa phương thức, từ nhận dạng giọng nói đến tạo ra âm nhạc, từ mô hình 3D đến hiểu và tạo ra video.

Ngoài ra, General-Bench còn đặc biệt chú trọng đến hiệu suất của mô hình ở các khả năng cấp cao như nhận dạng nội dung, suy luận theo lẽ thường, phán đoán nhân quả, phân tích tình cảm, sáng tạo và đổi mới, cung cấp không gian đánh giá đa chiều và ba chiều cho các mô hình AI nói chung.

Có thể nói rằng General-Bench là một bài kiểm tra toàn diện đa phương thức có tính thách thức chưa từng có, kiểm tra toàn diện về chiều rộng, độ sâu và khả năng suy luận toàn diện của các mô hình AI từ các chiều mô thức đến các mô hình nhiệm vụ và sau đó là các lĩnh vực kiến ​​thức.

Hiện tại, tổng số mẫu nhiệm vụ của General-Bench đã đạt 325.876 và sẽ tiếp tục tăng trưởng mạnh mẽ. Sự cởi mở và cập nhật bền vững này đảm bảo rằng General-Bench có sức sống lâu dài và có thể tiếp tục hỗ trợ nghiên cứu, phát triển và tiến hóa của AI tổng quát đa phương thức.

Thiết kế bảng xếp hạng đa phạm vi: Từ chuyên gia toàn phương thức đến chuyên gia phụ kỹ năng

Với các tiêu chí đánh giá và bộ dữ liệu ở cấp độ chung, chúng ta cũng cần có danh sách xếp hạng công khai và minh bạch để trình bày kết quả đánh giá và thứ hạng của từng mô hình. Đây chính xác là hệ thống bảng xếp hạng của dự án.

Để đạt được sự cân bằng giữa tính toàn diện của đánh giá và ngưỡng tham gia, Leaderboard đã thiết kế một cơ chế phân cấp phạm vi danh sách nhiều cấp (Phạm vi-A/B/C/D) .

Các phạm vi khác nhau tương đương với các bảng xếp hạng phụ có phạm vi và độ khó khác nhau, cho phép các mô hình có nhiều khả năng khác nhau thể hiện thế mạnh của mình, từ "Giải vô địch toàn năng" đến "Cuộc thi năng lực đơn". Điều này không chỉ đảm bảo rằng các người mẫu chuyên nghiệp hàng đầu có cơ hội cạnh tranh để giành vương miện toàn năng mà còn cho phép những người mẫu bình thường có thể chọn phạm vi phù hợp để tham gia so sánh, do đó hạ thấp ngưỡng tham gia của cộng đồng.

Phạm vi A: Danh sách anh hùng toàn diện : Cuộc chiến giành quyền tối cao giữa những “người thông thạo mọi phương thức”.

Đây là danh sách chính khó nhất và toàn diện nhất: các mô hình tham gia phải được thử nghiệm trên toàn bộ bộ General-Bench, đây là một đánh giá hoàn chỉnh bao gồm tất cả các phương thức được hỗ trợ và tất cả các loại nhiệm vụ .

Mục tiêu của Scope-A là lựa chọn các mô hình cơ bản đa phương thức thực sự linh hoạt và kiểm tra sức mạnh toàn diện của chúng trong các tình huống phức tạp và toàn diện.

Phạm vi B: Danh sách anh hùng hợp nhất phương thức : Cuộc thi "Người giỏi nhất phương thức đơn lẻ".

Phạm vi B bao gồm một số danh sách phụ, mỗi danh sách nhắm tới một phương thức cụ thể hoặc một sự kết hợp hạn chế các phương thức.

Cụ thể, Scope-B được chia thành 7 danh sách song song: trong đó danh sách là danh sách phương thức đơn lẻ (như hình ảnh thuần túy, giọng nói thuần túy, video thuần túy, 3D thuần túy) và 3 danh sách còn lại là danh sách kết hợp phương thức (như hình ảnh + văn bản, video + văn bản và các kết hợp đa phương thức khác).

Các mô hình tham gia chỉ cần hoàn thành đánh giá đa nhiệm vụtrong phương thức đã chọn dữ liệu từ các phương thức khác sẽ không được sử dụng.

Phạm vi C: Danh sách anh hùng thế hệ/Hiểu biết : Cuộc thi nhóm "Khả năng mô hình".

Scope-C chia quá trình đánh giá thành hai mô hình chính: hiểu nhiệm vụtạo nhiệm vụ , đồng thời thiết lập thứ hạng cho từng chế độ. Cụ thể, trong các phương thức hình ảnh, video, âm thanh và văn bản, có hai danh sách là "Danh sách khả năng hiểu biết" và "Danh sách khả năng thế hệ", tổng cộng là 8 danh sách.

Đánh giá Scope-C nhấn mạnh khả năng chuyển đổi giữa các mô hình nhiệm vụ trong cùng một phương thức : ví dụ, nếu một mô hình hoạt động tốt trong danh sách hiểu biết trực quan, điều đó có nghĩa là nó có khả năng chia sẻ kiến ​​thức giữa nhiều nhiệm vụ hiểu biết như phân loại và phát hiện trực quan; Điểm cao trong danh sách tạo hình ảnh có nghĩa là nó có khả năng chung trong nhiệm vụ tạo hình khác nhau (mô tả, vẽ).

Do phạm vi hạn chế của mô hình nhiệm vụ, Scope-C có yêu cầu về tài nguyên thấp hơn (mức độ khó ba sao) và rất phù hợp với các mô hình nhẹ hoặc đội ngũ có tài nguyên hạn chế.

Phạm vi D: Xếp hạng chuyên môn kỹ năng : Đấu trường “Kỹ năng chuyên biệt”.

Đây là loại danh sách có ngưỡng tham gia thấp nhất và chi tiết nhất. Scope-D phân nhóm nhiệm vụ trong General-Bench theo các kỹ năng hoặc loại nhiệm vụ cụ thể và mỗi tiểu thể loại được liệt kê riêng.

Ví dụ: "Danh sách trả lời câu hỏi trực quan (VQA)", "Danh sách tạo chú thích hình ảnh", "Danh sách nhận dạng giọng nói", "Danh sách phát hiện đối tượng 3D", v.v. Mỗi danh sách bao gồm một tập hợp nhiệm vụ có liên quan chặt chẽ.

Các mô hình tham gia chỉ có thể gửi kết quả cho một loại kỹ năng nhất định , qua đó so sánh với các mô hình khác trong lĩnh vực hẹp mà họ giỏi nhất.

Cơ chế danh sách kỹ năng này khuyến khích mô hình phát triển từng bước: đầu tiên đạt đến đỉnh cao của một kỹ năng duy nhất, sau đó dần dần thử thách nhiều loại đánh giá đa nhiệm vụ và đa phương thức hơn.

Bạn có thể tìm thấy liên kết Bảng xếp hạng ở cuối bài viết.

Hướng dẫn tham gia bảng xếp hạng: Quy trình nộp bài và cơ chế đánh giá công bằng

Để thúc đẩy sự tham gia của cộng đồng, dự án Cấp độ chung cung cấp quy trình tham gia Bảng xếp hạng rõ ràng và cơ chế đảm bảo tính công bằng nghiêm ngặt.

Cho dù bạn là đội ngũ nghiên cứu học thuật hay phòng thí nghiệm công nghiệp, bạn đều có thể gửi mô hình đa phương thức của mình tới Leaderboard bằng cách làm theo các bước dưới đây:

1. Chọn danh sách và tải xuống dữ liệu đánh giá

Đầu tiên, hãy chọn phạm vi Bảng xếp hạng phù hợp và ID danh sách cụ thể dựa trên khả năng của mô hình.

Sau khi chọn danh sách, hãy tải xuống dữ liệu tập đóng tương ứng với danh sách đó từ liên kết chính thức.

Đây là dữ liệu thử nghiệm chỉ chứa dữ liệu đầu vào, không có câu trả lời chuẩn công khai và được sử dụng để đánh giá chính thức.

Chính thức cũng cung cấp dữ liệu mở để gỡ lỗi và phát triển, có thể được sử dụng để kiểm tra cục bộ định dạng đầu ra của mô hình trước khi xếp hạng.

2. Chạy suy luận mô hình cục bộ

Sau khi có được tập kiểm tra đóng, hãy sử dụng mô hình để thực hiện suy luận cục bộ nhằm tạo ra kết quả đầu ra tương ứng.

Cần lưu ý rằng mỗi danh sách có thể chứa nhiều loại nhiệm vụ và các tệp kết quả được gửi phải tuân thủ nghiêm ngặt định dạng và cấu trúc mục lục chính thức . Vui lòng tham khảo tài liệu nộp hồ sơ chi tiết chính thức để xác nhận các yêu cầu về định dạng trước khi nộp.

Sau khi sắp xếp xong đầu ra, hãy đặt tên là "[Tên mô hình]-[ID danh sách].zip" để tải lên.

3. Nộp kết quả và điền thông tin

Tải tệp ZIP kết quả ở trên lên cổng thông tin gửi bài của trang web Bảng xếp hạng. Đồng thời, bạn cần điền một số thông tin cần thiết về model (như tên model, thang đo tham số, giới thiệu, v.v.) và địa chỉ email liên hệ để ban tổ chức có thể xử lý chính xác kết quả ở chế độ nền.

Nếu đội ngũ muốn mô hình của mình được biết đến nhiều hơn, họ cũng có thể chọn công bố mô tả chi tiết hoặc báo cáo kỹ thuật về mô hình sau khi gửi kết quả để cộng đồng có thể hiểu được những điểm nổi bật của mô hình.

4. Chờ đánh giá và kiểm tra thứ hạng

Sau khi gửi kết quả, hệ thống sẽ chấm điểm đầu ra của mô hình ở chế độ nền, bao gồm tính toán chỉ báo từng nhiệm vụ và tóm tắt chúng thành điểm ở Cấp độ chung.

Vì các câu trả lời và mã chấm điểm cho bộ bài kiểm tra đóng được chạy bí mật ở chế độ nền nên người nộp bài không thể biết trực tiếp câu trả lời cho dữ liệu chưa được công bố, do đó đảm bảo tính công bằng của việc đánh giá.

Sau khi quá trình đánh giá hoàn tất, trang Bảng xếp hạng sẽ được cập nhật theo thời gian thực: mô hình mới sẽ xuất hiện trên danh sách tương ứng, hiển thị thông tin như tên mô hình, danh mục mô hình mà mô hình đó thuộc về, điểm số ở mỗi mô hình, tổng điểm, thứ hạng và ngày nộp bài. Bằng cách này, người gửi và công chúng có thể nhìn lên ngay thứ hạng của mô hình và thứ hạng trên bảng xếp hạng.

Danh sách xếp hạng hỗ trợ sắp xếp theo thứ hạng hoặc điểm số, chỉ rõ mô hình nào đã đạt đến Cấp độ 3, Cấp độ 4 và các cấp độ cộng tác khác.

Để đảm bảo tính công bằng và thẩm quyền của việc đánh giá Bảng xếp hạng, nhóm dự án cũng đã xây dựng sê-ri các quy tắc và hạn chế:

Kiểm tra đóng : Tất cả bảng xếp hạng đều sử dụng dữ liệu đóng. Các mô hình không được phép sử dụng dữ liệu thử nghiệm này để đào tạo hoặc điều chỉnh . Điều này được thực hiện nghiêm ngặt thông qua các ràng buộc về giao thức và giám sát dữ liệu.

Đồng thời, vì đây là đánh giá đóng nên người phát triển mô hình không thể biết câu trả lời đúng trước khi gửi kết quả, về cơ bản đảm bảo độ tin cậy của kết quả.

Tần suất gửi bài có giới hạn : Mỗi người dùng có thể gửi tối đa 2 lần trong vòng 24 giờ và tối đa 4 lần trong vòng 7 ngày. Ngoài ra, không được phép nộp bài mới khi bài nộp trước đó chưa hoàn tất.

Các biện pháp này loại bỏ hiệu quả khả năng sử dụng các cơ hội gửi để suy ra các câu trả lời chuẩn hoặc quá khớp các tập hợp đóng, tránh việc suy đoán thử và sai nhiều lần và duy trì tính nghiêm túc của bảng xếp hạng.

Hoàn cảnh đánh giá thống nhất : Tất cả các mô hình nộp đều được chấm điểm trong hoàn cảnh đánh giá thống nhất của nhà tổ chức để đảm bảo việc so sánh các mô hình khác nhau được thực hiện theo cùng một tiêu chuẩn .

Bất kể mô hình sử dụng khuôn khổ hay phương pháp tăng tốc lý luận nào, điểm số cuối cùng đều được đo bằng cùng một hệ thống chỉ báo và được chuyển đổi thành điểm số phân khúc dựa trên thuật toán Cấp độ chung, cho phép so sánh theo chiều ngang trực tiếp.

Thông qua các quy trình và cơ chế trên, Bảng xếp hạng cấp chung tạo ra sân chơi công bằng và cởi mở cho các nhà nghiên cứu.

Tại đây, các thuật toán mô hình mới có thể được thử nghiệm một cách khách quan và cạnh tranh với phương pháp hiện có trong ngành; Đồng thời, đánh giá khép kín cũng đảm bảo độ tin cậy của kết quả, khiến bảng xếp hạng trở thành điểm dữ liệucó thẩm quyền được công nhận .

Trạng thái hiện tại của bảng xếp hạng: mô hình đại diện phân phối thứ hạng và phản hồi của cộng đồng

Tính đến đến nay, bảng xếp hạng bao gồm kết quả của hơn 100 mô hình đa phương thức và công bố thứ hạng của chúng theo năng lực chung theo tiêu chuẩn Cấp độ chung.

Trong đợt đầu tiên của danh sách đánh giá tập đóng được công bố, hiệu suất chung của mỗi mô hình thay đổi rất nhiều, thậm chí Sự lật đổ nhận thức của mọi người về thứ hạng khả năng của các mô hình lớn đa phương thức thông thường .

Khi xem xét bảng xếp hạng, các cấp độ và bậc học khác nhau đã bắt đầu cho thấy sự phân bổ theo từng bậc.

Cấp độ 2 (Không có sự phối hợp)

Các mô hình Cấp độ 2 chiếm chiếm tỷ lệ lớn nhất trong bảng xếp hạng, trong đó các mô hình nguồn đóng có trọng số lớn như GPT4-V và lượng lớn các mô hình mã nguồn mở thường được sử dụng khác cũng trong đó.

Ưu điểm của các mô hình này là chúng hỗ trợ nhiều nhiệm vụ khác nhau, bao gồm hầu hết nhiệm vụ đánh giá, nhưng chúng hiếm khi vượt qua một SOTA duy nhất trên bất kỳ nhiệm vụ nào . Do đó, họ được xếp vào trình độ chung cấp độ 2 của trình độ Đại cương, tức là chỉ có thể coi là trình độ "đạt tất cả các môn".

Điều đáng chú ý là mặc dù GPT4-V và các mô hình khác là những mô hình thương mại hàng đầu, nhưng chúng không được tối ưu hóa đặc biệt cho nhiệm vụ đánh giá, không phản ánh được lợi ích hiệp đồng và điểm số của chúng không nổi bật.

Ngược lại, một số mô hình mã nguồn mở đã phát triển mạnh mẽ thông qua đào tạo đa nhiệm vụ và cũng đã đạt đến cấp độ 2, chẳng hạn như Seed-LLaMA, Unified-IO, v.v. Các khả năng chính của cấp độ mô hình này được phân bổ trong phương thức hình ảnh và phạm vi điểm trung bình của một phương thức duy nhất là khoảng 10-20 điểm và vẫn còn rất nhiều chỗ để cải thiện.

Nhà vô địch, á quân và giải ba hiện tại của Cấp độ 2 là: Unified-io-2-XXL, AnyGPT và NExT-GPT-V1.5.

Cấp độ 3 (Phối hợp nhiệm vụ)

Số lượng mô hình đa phương thức lớn được thu thập ở cấp độ này nhỏ hơn nhiều so với cấp độ 2. Họ đánh bại các người mẫu chuyên nghiệp trong một số nhiệm vụ , chứng minh hiệu suất vượt trội do học tập cộng tác mang lại.

Nhiều mẫu mới sau năm 2024 đã được đưa vào danh sách này, bao gồm dòng Sa2VA-26B, LLaVA-One-Vision-72B và Qwen2-VL-72B sê-ri mã nguồn mở . Các mô hình này thường có hàng chục tỷ tham số và trải qua quá trình đào tạo đa phương thức và đa nhiệm vụ, do đó vượt qua kết quả SOTA nhiệm vụ đơn truyền thống trên một số điểm chuẩn.

Điều này chứng minh giá trị của sự hiệp lực: đào tạo đa nhiệm vụ thống nhất cho phép các mô hình học được nhiều biểu diễn tổng quát hơn và thúc đẩy hiệu suất của nhau trong nhiệm vụ liên quan.

Ngược lại, một số mô hình nguồn đóng lớn như GPT4-o, GPT4-V của OpenAI và Claude-3.5 của Anthropic không hoạt động tốt ở Cấp độ 3.

Phạm vi điểm trung bình chung của mô hình Cấp độ 3 tiếp tục giảm so với Cấp độ 2, điều này cho thấy tình hình chấm điểm ở cấp độ này khó khăn hơn.

Cấp độ 4 (Hợp tác mô hình)

Những mô hình đạt tới trình độ này vẫn còn hiếm.

Theo Leaderboard (tính đến ngày 24 tháng 12, ngày đánh giá), chỉ có một số ít mô hình được xếp hạng Cấp độ 4, chẳng hạn như Mini- Gemini, Vitron-V1, Emu2-37B khổng lồ và các mô hình mã nguồn mở khác.

Những mô hình này đã tạo nên bước đột phá trong lý luận liên mô hình , sở hữu cả khả năng hiểu biết và tạo ra tuyệt vời, và có thể tích hợp cả hai.

Ví dụ, mô hình Mini Gemini dẫn đầu về khả năng hiểu và tạo hình ảnh, và được xếp hạng cao nhất về Điểm cộng tác mô hình của Leaderboard.

Sự xuất hiện của Cấp độ 4 có nghĩa là chúng ta đang tiến gần hơn một bước tới AI lý luận liên phương thức thực sự. Tuy nhiên, điểm trung bình của mô hình Cấp độ 4 hiện tại rất thấp. Điều này cho thấy thách thức to lớn trong việc xây dựng một AI cộng tác trên toàn mô hình: rất khó để cân bằng giữa hiểu biết và tạo ra đa phương thức và đạt được đột phá kép.

Cấp độ 5 (phối hợp toàn diện toàn phương thức)

Vị trí này vẫn còn trống và chưa có người mẫu nào có thể đảm nhiệm được.

Điều này không có gì đáng ngạc nhiên, vì việc vượt qua các chuyên gia trong mọi phương thức và nhiệm vụ trong khi cải thiện trí thông minh ngôn ngữ hiện đang vượt quá khả năng của các công nghệ hiện có.

Đội ngũ Cấp độ chung suy đoán rằng có lẽ cột mốc tiếp theo sẽ đến từ "phiên bản đa phương thức" của GPT-5 , có thể cho thấy dấu hiệu hợp tác toàn phương thức lần đầu tiên, qua đó viết lại tình huống không ai quan tâm đến Cấp độ 5.

Tuy nhiên, trước khi ngày đó đến, vị trí Cấp độ 5 trên Bảng xếp hạng vẫn sẽ còn bỏ trống, nhắc nhở chúng ta rằng chúng ta vẫn còn rất xa mới đạt được AGI thực sự.

Việc ra mắt Leaderboard hiện tại đã nhận được sự hưởng ứng nhiệt tình trong cộng đồng nghiên cứu AI. Nhiều nhà nghiên cứu cho rằng rằng một nền tảng đánh giá thống nhất, đa chiều như vậy chính xác là thứ mà lĩnh vực đa phương thức đang rất cần: nó không chỉ có quy mô chưa từng có (bao gồm hơn 700 nhiệm vụ) và hoàn chỉnh về mặt hệ thống (với các cấp độ và tiểu mục) mà còn công khai và minh bạch , cung cấp cho ngành một tham chiếu để tiến triển chung.

Trên mạng xã hội và diễn đàn, mọi người thảo luận về kết quả xếp hạng: một số người ngạc nhiên khi mô hình mã nguồn mở Qwen2.5-VL-72B có thể đánh bại nhiều gã khổng lồ nguồn đóng, chứng minh tiềm năng của cộng đồng mã nguồn mở; những người khác phân tích những thiếu sót của GPT-4V trong nhiệm vụ nghe nhìn phức tạp và thảo luận về cách khắc phục chúng.

Dữ liệu bảng xếp hạng cũng được sử dụng để hướng dẫn các hướng nghiên cứu: dễ dàng nhận thấy nhiệm vụ nào là điểm yếu của hầu hết các mô hình và tổ hợp phương thức nào chưa được giải quyết tốt.

Có thể thấy trước rằng khi có thêm nhiều mẫu xe tham gia bảng xếp hạng, bảng xếp hạng sẽ tiếp tục được cập nhật. Đây không chỉ là một cuộc thi mà còn là sự tích lũy liên tục những hiểu biết nghiên cứu khoa học có giá trị.

Việc ra mắt khuôn khổ đánh giá cấp độ chung và bảng xếp hạng Leaderboard đánh dấu một giai đoạn mới trong nghiên cứu AI tổng quát đa phương thức. Như các tác giả kỳ vọng trong bài báo, hệ thống đánh giá do dự án này xây dựng sẽ trở thành cơ sở hạ tầng vững chắc giúp ngành công nghiệp đo lường tiến trình phát triển trí tuệ nhân tạo nói chung một cách khoa học hơn.

Thông qua đánh giá mức độ tiêu chuẩn thống nhất , các nhà nghiên cứu có thể so sánh khách quan ưu điểm và nhược điểm của các mô hình khác nhau và tìm ra hướng cải tiến hơn nữa; Thông qua các chuẩn mực đa nhiệm vụ quy mô lớn , họ có thể kiểm tra toàn diện khả năng và những thiếu sót của mô hình trong các lĩnh vực khác nhau, đẩy nhanh quá trình phát hiện vấn đề và cải tiến theo từng bước. Tất cả những điều này có ý nghĩa to lớn trong việc thúc đẩy thế hệ mô hình cơ bản đa phương thức tiếp theo và thậm chí hướng tới AGI thực sự.

Điều có giá trị hơn là dự án cấp Tổng thể tuân thủ thái độ cởi mở, chia sẻ và hoan nghênh sự tham gia rộng rãi của cộng đồng vào quá trình đồng xây dựng. Cho dù bạn có giải pháp mô hình mới hay dữ liệu độc đáo, bạn đều có thể tham gia: gửi kết quả mô hình để cạnh tranh với các mô hình hàng đầu thế giới; hoặc đóng góp dữ liệu đánh giá mới để làm phong phú thêm tính đa dạng của nhiệm vụ tại General-Bench.

Mỗi dữ liệu được thêm vào sẽ được xác nhận trên trang web chính thức và được trích dẫn trong báo cáo kỹ thuật.

Trang chủ của dự án:

https://generalist.top/

Bảng xếp hạng:

https://generalist.top/leaderboard

Địa chỉ giấy tờ:

https://arxiv.org/abs/2505.04620

Điểm chuẩn:

https://huggingface.co/General-Level

Bài viết này trích từ tài khoản công khai WeChat "Quantum Bit" , tác giả: Tập trung vào công nghệ tiên tiến và được 36Kr cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận