Trong "bài kiểm tra cuối cùng" dành cho các tác nhân thông minh, Fable 5 bất ngờ thua GPT 5.5.

Bài viết này được dịch máy
Xem bản gốc

Tôi không ngờ tình thế lại đảo ngược nhanh đến vậy!

Mới đây, Đại học UC Berkeley đã công bố một bài kiểm tra chuẩn mới được quảng cáo là "bài kiểm tra cuối cùng dành cho các tác nhân thông minh" .

Nó thử nghiệm những tác nhân AI mạnh mẽ nhất hiện nay, cho phép chúng thực hiện những công việc thực tế—

Tạo mô hình 3D trong Siemens NX, xây dựng cảnh game trong Unreal Engine và thực hiện ghép hiệu ứng đặc biệt trong Adobe After Effects.

Kết quả thật đáng kinh ngạc:

Hai cấp độ khó nhất, hiện được công nhận là mạnh nhất, Claude Fable 5 và GPT 5.5, đều nhận được điểm số bằng không .

Bạn đề nghị giảm độ khó xuống một chút à? Chúng tôi đã đạt được điểm, nhưng kết quả khá bất ngờ—

GPT 5.5 thậm chí còn nhỉnh hơn một chút so với Claude Fable 5 .

Tôi nghe có đúng không? Claude Fable 5, mẫu máy mạnh nhất vừa được Animatek phát hành gần đây, lại bị đánh bại bởi GPT 5.5 chỉ mới ra mắt vài tháng trước??

Điều đáng chú ý là Fable 5 luôn vượt trội hơn GPT 5.5 trên hầu hết các bài kiểm tra hiệu năng phổ biến – 80,3% so với 58,6% trên SWE-Bench Pro và 64,5% so với 52,2% trên Humanity's Last Exam.

Nhưng trong kỳ thi "thực tế" này, tình hình lại ngược lại.

这个新基准叫Agents' Last Exam(ALE),背后đội ngũ来头不小,之前MMLU、MATH、CyberGym、ExploitGym这些你耳熟能详的基准都是他们提的。

Cái tên này có lẽ được tham khảo từ "Bài kiểm tra cuối cùng của nhân loại" của Scale AI, chỉ khác là lần bài kiểm tra không phải về giới hạn tri thức của con người, mà là về giới hạn khả năng thực hiện nhiệm vụ của một tác nhân AI.

Thành thật mà nói, sau khi bản đánh giá này được công bố, những người từng ngày hô hào rằng "nhân viên ảo sẽ thay thế công việc của con người" giờ đây đã thực sự im lặng...

Bài kiểm tra cuối cùng dành cho các tác nhân thông minh: GPT 5.5 là người chiến thắng!

Trước tiên, hãy cùng xem bảng xếp hạng đầy đủ.

Xét về chỉ báo số tỷ lệ hoàn thành nhiệm vụ quan trọng nhất, GPT 5.5 đã chiếm giữ hai vị trí đầu bảng :

Giải pháp được xếp hạng cao nhất là GPT 5.5 kết hợp với khung Codex của OpenAI, với tỷ lệ đạt yêu cầu là 24,0%.

Vị trí thứ hai vẫn thuộc về GPT-5.5, nhưng với khung ALE Claw khác, và tỷ lệ đạt là 23,0%.

(ALE Claw là một tác nhân cơ bản do chính đội ngũ phát triển viết ra và được gửi tham dự cuộc thi cùng với các framework thương mại như Codex, Claude Code và Cursor CLI.)

Chúng tôi chỉ thấy Claude Fable 5 ở vị trí thứ ba – khi được ghép cặp với Claude Code, nó đạt tỷ lệ đậu 22,0%.

Càng đọc tiếp, câu chuyện càng trở nên thú vị hơn.

Các phiên bản xếp hạng thứ 4, 5 và 8 đều là GPT 5.5, chỉ khác nhau về khung phần mềm.

GPT 5.5 xuất hiện 5 lần trong top 10, và cùng với GPT 5.4 ở vị trí thứ 6, các mô hình của OpenAI chiếm tổng cộng 6 vị trí.

Còn gia đình Claude thì sao?

Fable 5 đứng thứ 3, Opus 4.7 thứ 9 (18,4%), và Opus 4.8 thứ 10 (15,8%), cho thấy rõ sự thua kém của nó.

Không có gì ngạc nhiên khi các nhà nghiên cứu của OpenAI đăng tải những bài viết đầy hân hoan để chào mừng Tết Nguyên đán:

Ngoài kết quả, còn có một vài tín hiệu khác đáng chú ý.

Thứ nhất, trần nhà thấp một cách đáng ngạc nhiên .

Tỷ lệ đỗ của nhà vô địch chỉ là 24%, và điểm số tổng thể cao nhất chỉ đạt 45,8%.

Điều này có nghĩa là ngay cả với phương pháp "chấm điểm từng phần" dễ dãi nhất, đặc vụ mạnh nhất cũng chỉ nhận được chưa đến một nửa số điểm.

Những câu hỏi này đều xuất phát từ các dự án đã được hoàn thành bởi các chuyên gia thực thụ — về mặt lý thuyết, các chuyên gia con người có tỷ lệ hoàn thành 100%.

Thứ hai, Claude tiêu một khoản tiền đáng kinh ngạc .

Danh sách này bổ sung thêm một cột mới, "Tổng chi phí ước tính", ngay lập tức làm nổi bật khoảng cách giàu nghèo:

Để hoàn thành tất cả nhiệm vụ trong Fable 5, bạn cần trả 2.315 đô la, Opus 4.8 tốn 1.838 đô la, và Opus 4.7 tốn 1.144 đô la.

Còn GPT-5.5 thì sao?

Phiên bản Codex đắt nhất chỉ có giá 566 đô la, trong khi Cursor CLI chỉ có giá 174 đô la.

Nói cách khác, Fable 5 có giá cao hơn gấp bốn lần so với Codex, mà điểm số lại thấp hơn hai phần trăm .

Thứ ba, khoảng cách về hiệu quả cũng rất đáng chú ý .

Ale Claw mất 47 giờ 20 phút để hoàn thành tất cả nhiệm vụ, trong khi Cursor CLI chỉ mất 67 giờ.

Còn Opus 4.8 thì sao? 451 giờ—gần 19 ngày.

Lượng công việc được thực hiện ít nhất, thời gian bỏ ra nhiều nhất, nhưng số tiền thu được lại nhiều nhất (liệu có mô hình nào thực sự làm được tất cả những điều này?).

Dĩ nhiên, nếu chỉ xét đến hai chuẩn mực hàng đầu là Claude Fable 5 và GPT 5.5, thì GPT 5.5 vẫn có lợi thế rõ rệt về thời gian.

Con số gây ấn tượng nhất vẫn là số không.

ALE đã chia nhiệm vụ thành ba cấp độ khó:

Ngắn hạn (Có thể giải quyết trong tương lai gần)

Phổ phủ toàn diện (Bao phủ đầy đủ)

Bài kiểm tra cuối kỳ (Vấn đề tối thượng)

Trong hạng mục khó nhất, tỷ lệ đậu trung bình cho tất cả các cấu hình phổ biến chỉ là 2,6%, với hầu hết các mẫu, bao gồm GPT 5.5 và Fable 5, đều trượt hoàn toàn .

所以这张成绩单的核心信息很简单:别看平时考试成绩好,一到真干活全露馅了

Một thiên tài về đố vui không nhất thiết phải là người nghiện công việc; điều này cũng đúng trong thế giới trí tuệ nhân tạo.

ALE là gì?

Để hiểu tại sao ALE có thể vạch trần những "sinh viên xuất sắc" này như vậy, trước tiên chúng ta cần xem xét sự khác biệt của nó so với các kỳ thi trước đây.

Bài kiểm tra cuối cùng của nhân loại (Humanity's Last Exam - HLE) trước đây, do Dan Hendrycks và Scale AI tạo ra vào đầu năm 2025, bao gồm 2.500 bài toán liên ngành và về cơ bản là một bài kiểm tra không được phép sử dụng tài liệu.

Nếu tôi đưa ra một câu hỏi và bạn trả lời, thì ngay cả câu hỏi khó nhất cũng chỉ là việc truy xuất kiến ​​thức tĩnh mà thôi.

Ngược lại, ALE hoàn toàn khác biệt; nó kiểm tra "khả năng thực hiện" của bạn.

Tác giả chính Yiyou Sun đã nói thẳng thừng trong bài đăng của mình:

Dự đoán này xuất hiện ở khắp mọi nơi: các tác nhân AI sẽ vượt qua con người trong việc thực hiện hầu hết mọi nhiệm vụ vào năm 2026-2027. Vì vậy, chúng tôi đã tạo ra bài kiểm tra này để xác minh tuyên bố đó.

Mỗi câu hỏi trong ALE đều xuất phát từ một dự án đã được hoàn thành bởi một chuyên gia thực thụ, bao gồm 55 lĩnh vực phụ của ngành , chẳng hạn như giao dịch định lượng, phân tích gen, kỹ thuật hàng không vũ trụ, thiết kế kiến ​​trúc, hình ảnh não bộ, hiệu ứng hoạt hình, nghiên cứu pháp lý, và nhiều lĩnh vực khác.

Toàn bộ hệ thống này dựa trên Phân loại Nghề nghiệp Lao động và Phúc lợi của Hoa Kỳ (ONET)*, có nghĩa là các câu hỏi được dựa trên "thị trường lao động thực tế".

Danh sách những người tham gia soạn thảo câu hỏi khá ấn tượng:

Hơn 300 chuyên gia đến từ hơn 100 tổ chức , bao gồm MIT, Harvard, Stanford, Oxford, Caltech và ETH Zurich về phía học thuật, và Goldman Sachs, JPMorgan, Meta, Amazon, Adobe và Oracle về phía công nghiệp.

Snorkel AI đã nhận được tài trợ thông qua chương trình Open Benchmarks Grants.

Bài thi không yêu cầu trả lời câu hỏi bằng cách gõ bàn phím, mà là trực tiếp sử dụng máy tính.

ALE sử dụng cái gọi là khung GCUA (Generalist Computer-Use Agent), cung cấp cho Agent đầy đủ quyền truy cập vào giao diện đồ họa người dùng (GUI) và dòng lệnh.

Nó có thể làm mọi thứ mà con người có thể làm trên máy tính: nhấn chuột, gõ bàn phím, viết kịch bản, duyệt trang web.

Không có phương pháp bị giới hạn, chỉ có kết quả mới quan trọng.

Bài tập "đã nộp" được chấm điểm tự động bằng cách sử dụng các mã xác định .

Không có cảm xúc. Không có giám khảo là con người. Hoàn toàn có thể tái tạo.

Điều này giải quyết một vấn đề tồn tại lâu nay với nhiều tiêu chuẩn đánh giá: chính người chấm điểm cũng có thể bị đánh lừa .

Ngoài ra, ALE còn có một biện pháp quyết liệt khác để ngăn chặn gian lận—

Chỉ khoảng 10% số câu hỏi (khoảng 150 câu) được công khai, trong khi hơn 1.300 câu hỏi còn lại được giữ bí mật tuyệt đối.

Các câu hỏi công khai và riêng tư được luân phiên thay đổi định kì để đảm bảo không có người mẫu nào đạt điểm cao bằng cách "học thuộc lòng câu hỏi" .

Với bối cảnh trạng dữ liệu chuẩn bị bị lỗi phổ biến hiện nay, đây quả là một thiết kế khéo léo.

Nhìn chung, vị thế của ALE rất rõ ràng so với các tiêu chuẩn đại lý hiện có.

Dawn Song, một trong những thành viên đội ngũ, đã biên soạn một bảng so sánh cụ thể:

Tập hợp con CLI của ALE (ALE-CLI) bao gồm 40 lĩnh vực phụ trong ngành, trong khi Terminal-Bench chỉ bao gồm 6 lĩnh vực và SWE-bench-Pro chỉ bao gồm 5 lĩnh vực.

Con người cần từ vài giờ đến vài tuần để hoàn thành nhiệm vụ này, trong khi hai nhiệm vụ sau cần từ vài phút đến vài ngày.

Tác nhân mạnh nhất chỉ đạt tỷ lệ đậu 25,2% trên ALE-CLI, trong khi đó đạt 82,0% trên Terminal-Bench và 59,1% trên SWE-bench-Pro.

Tóm lại, các kỳ thi khác đã được kiểm tra kỹ lưỡng, nhưng ALE vẫn còn một chặng đường dài phía trước .

Đây là lý do tại sao ALE dám tự gọi mình là "bài kiểm tra cuối cùng dành cho các tác nhân thông minh".

Điều đáng chú ý là Dawn Song cũng chia sẻ hai nhận xét thú vị:

Một vấn đề là tác nhân tuyên bố công việc đã hoàn thành mà không thực sự xác minh kết quả , đây là lỗi thường gặp nhất đối với các tác nhân.

Thường thì, mặc dù họ nói "Xong rồi. Tất cả các khâu kiểm tra đều đạt."

Tuy nhiên, kết quả thực tế có thể thiếu các tài liệu cần thiết, có số liệu không chính xác, bỏ sót các trường quan trọng hoặc vi phạm trực tiếp các ràng buộc được nêu rõ trong mô tả nhiệm vụ.

Nó giống như nói hết mọi thứ trước khi hoàn thành công việc.

Một câu hỏi khác mà nhiều người thắc mắc là tại sao Fable 5 lại tệ đến vậy? Câu trả lời của Dawn Song là:

Không hề tồn tại khái niệm "nhà vô địch toàn diện" .

Mỗi mô hình tiên tiến đều có điểm mạnh và điểm yếu riêng. ALE bao gồm 55 ngành công nghiệp và hơn 1500 câu hỏi, và điểm số cuối cùng là điểm trung bình trên tất cả các lĩnh vực, dẫn đến nhiều mô hình có tổng điểm tương tự nhau. Tín hiệu thực sự có giá trị không phải là tổng điểm, mà là sự khác biệt về hiệu suất giữa các mô hình khác nhau trong các lĩnh vực khác nhau—với cùng một câu hỏi, các mô hình khác nhau thường thất bại vì những lý do hoàn toàn khác nhau.

Tất nhiên, cũng có khả năng Fable 5 đã bí mật "hạ thấp trí thông minh" của mình.

Trong bảng xếp hạng tổng thể, Fable 5 được đánh dấu màu vàng kèm theo cụm từ "có thể bị giảm chất lượng đồ họa", ám chỉ một vấn đề đã biết của Fable 5.

Kiến trúc nền tảng của nó là mô hình Mythos cộng với một bộ phân loại bảo mật. Khi gặp nhiệm vụ trong các lĩnh vực nhạy cảm như an ninh mạng và y sinh học, nó sẽ tự động chuyển sang chế độ Opus 4.8 yếu hơn.

Trong một kỳ thi như ALE bao gồm 55 ngành công nghiệp, dường như họ đã chỉ định trực tiếp một người để thi môn đó, thậm chí còn chỉ định cả nhân vật"lái xe dạo phố".

Thêm một điều nữa

Tất nhiên, liệu có khả năng chính phần nhạc nền của Claude Fable 5 đang có vấn đề?

Khó mà nói chắc được, nhưng có tin đồn cho rằng Claude có "tiền án tiền sự".

Vào cuối tháng 5, công ty khởi nghiệp Datacurve đã phát hành một công cụ đo hiệu năng mới có tên DeepSWE, vô tình tiết lộ một bí mật quan trọng—

Container Docker của SWE-Bench Pro đi kèm với toàn bộ lịch sử Git của kho mã nguồn, và câu trả lời chính xác nằm ở hệ thống tập tin.

Hầu hết các người mẫu đều bỏ qua điều đó, nhưng Claude thì không .

Nó sẽ chủ động kiểm tra lịch sử Git của kho lưu trữ, tìm kiếm bản vá tương ứng từ nhiệm vụ lịch sử và khôi phục bản vá chính xác cho phù hợp.

Người ta nói rằng đây là lý do Opus 4.7 đạt tỷ lệ đỗ khoảng 18%, và Opus 4.6 thậm chí còn ấn tượng hơn, với tỷ lệ đỗ khoảng 25%.

Nhưng còn GPT 5.4 và GPT 5.5 thì sao? Hoàn toàn không có hiện tượng như vậy. Cách diễn đạt của Datacurve rất khéo léo:

Tiêu chuẩn này tạo điều kiện cho hành vi đó xảy ra, nhưng Claude là gia đình duy nhất luôn làm như vậy.

Bài đánh giá của VentureBeat sụp đổ mơ hồ:

Điều này thể hiện "ý thức hoàn cảnh" mạnh mẽ của Claude, giúp anh ta rất giỏi trong việc khám phá hoàn cảnh và tận dụng các nguồn tài nguyên sẵn có. Việc đó được coi là "gian lận" hay "khéo léo" tùy thuộc vào quan điểm của bạn.

Nhưng dù nhìn nhận thế nào đi nữa, rõ ràng ALE đã rút ra được bài học của mình—

Nó đã chuyển trực tiếp bài kiểm tra từ dòng lệnh sang thao tác trên giao diện đồ họa máy tính để bàn, vì vậy bạn không thể xem lịch sử Git.

Nền tảng thử nghiệm trí tuệ nhân tạo đang bị chính trí tuệ nhân tạo sụp đổ phải nâng cấp, điều này khá thú vị.

Liên kết đánh giá đầy đủ: https://agents-last-exam.org/ Trang chủ dự án bảng xếp hạng: https://agents-last-exam.org/ GitHub: https://github.com/rdi-berkeley/agents-last-exam

Liên kết tham khảo:

[1]https://x.com/i/trending/2065215002878021789

[2]https://venturebeat.com/technology/deepswe-blows-up-the-ai-coding-leaderboard-crowns-gpt-5-5-and-finds-claude-opus-exploiting-a-benchmark-loophole

[3]https://venturebeat.com/technology/surprise-upset-gpt-5-5-beats-claude-fable-5-on-brutal-new-agents-last-exam-benchmark

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Quantum Bit" , tác giả: Yishui, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
55
Thêm vào Yêu thích
15
Bình luận