[Giới thiệu] GPT-5.5 đã vượt qua bài kiểm tra khắc nghiệt mà AI không thể đưa ra bất kỳ giải pháp nào! Bắt đầu từ con số không và viết chương trình một cách mù quáng, nó đã đạt được điểm số hoàn hảo bằng cách tối đa hóa tỷ lệ băm suy luận. Phương pháp kiểm thử mã truyền thống đã lỗi thời; cuộc đua hướng tới trí tuệ siêu nhân (ASI) về tỷ lệ băm đã chính thức bắt đầu.
Thử thách lập trình "địa ngục" cuối cùng đã được trí tuệ nhân tạo giải quyết!
Hôm nay, trên ProgramBench, một nền tảng kiểm định mà tất cả các công nghệ AI tiên tiến nhất đều thất bại, GPT-5.5 đã được kiểm tra thành công!
Sử dụng hai ngôn ngữ lập trình khác nhau, C và Python, GPT-5.5 xhigh vượt trội hơn hẳn Opus 4.7 xhigh.
Cách đây vài ngày, Meta, phối hợp với Stanford và Harvard, đã công bố tiêu chuẩn đánh giá lập trình mới này, ProgramBench:
Với 200 câu hỏi, tỷ lệ đỗ của tất cả các mô hình AI tiên tiến đều là 0%.
Chưa có mô hình nào có thể giải quyết hoàn toàn dù chỉ một vấn đề. Giờ đây, GPT-5.5 đã trở thành ngoại lệ đầu tiên!
Bài kiểm tra cuối cùng cho việc lập trình trí tuệ nhân tạo: xây dựng lại chương trình từ đầu.
ProgramBench khó sử dụng đến mức nào?
Các tiêu chuẩn đánh giá hiệu năng lập trình truyền thống, dù là SWE-bench hay HumanEval, về cơ bản đều xoay quanh việc "sửa lỗi" hoặc "hoàn thiện chức năng".
Hãy cung cấp cho mô hình một mã nguồn hiện có, cho nó biết lỗi ở đâu và để nó tự sửa lỗi.
Đây là một bài kiểm tra dạng mở sách, hoặc thậm chí là bán mở sách, trong khi ProgramBench thì hoàn toàn khác.
Nó cung cấp cho bạn một tập tin thực thi đã được biên dịch sẵn và một tài liệu, rồi nói: Hãy viết lại chương trình này từ đầu.
Không cung cấp mã nguồn, không cho phép dịch ngược mã, không được phép truy cập internet.
200 nhiệm vụ, từ những công cụ nhỏ như jq và ripgrep đến những công cụ mạnh mẽ như FFmpeg, SQLite và trình biên dịch PHP.
Trước đây, nhà nghiên cứu Noam Brown của OpenAI đã tuyên bố: "Đã đến lúc loại bỏ dần các phương pháp đánh giá như GQPA và giới thiệu một phương pháp hoàn toàn mới."
Khi mới ra mắt, hầu hết các AI thao túng bảng xếp hạng đều thất bại. Lần, GPT-5.5 cuối cùng đã lật ngược tình thế.
GPT-5.5 phá kỷ lục: Hai lời giải bằng C và Python cho cùng một vấn đề
Nhiệm vụ đầu tiên mà GPT-5.5 chinh phục được là cmatrix, một chương trình terminal kinh điển tạo ra hiệu ứng mưa kỹ thuật số trong phim "Hacker trận".
Điều khiến các nhà nghiên cứu ngạc nhiên là, hai cấp độ suy luận của GPT-5.5, high và xhigh, lại chọn những ngôn ngữ hoàn toàn khác nhau để giải quyết cùng một vấn đề.
Phiên bản high sử dụng ngôn ngữ C, trong khi phiên bản xhigh sử dụng Python.
Cuối cùng, cả hai đều vượt qua tất cả các bài kiểm tra hành vi.
Chiến lược của GPT-5.5 high đạt chuẩn sách giáo khoa: đầu tiên nó sử dụng 10 vòng khám phá và thử nghiệm để kiểm tra hơn 40 tổ hợp cờ khác nhau, hiểu thấu đáo hành vi giao diện dòng lệnh (CLI) của chương trình gốc.
Sau đó, tôi đã viết toàn bộ mã nguồn bằng ngôn ngữ C trong một lần duy nhất, và chỉ cần lần chỉnh sửa nhỏ.
GPT-5.5 xhigh thậm chí còn toàn diện hơn, với 27 bước để khám phá mọi đường dẫn CLI, và sau đó viết một chương trình Python hoàn chỉnh chỉ trong một lần.
Sau đây là những con số quan trọng.
Phiên bản GPT-5.5 (trung bình) không có chế độ suy luận cao chỉ nhỉnh hơn một chút so với phiên bản 4.6 của Claude Sonnet.
Nhưng khi chuyển sang chế độ xhigh, hiệu năng sẽ tăng vọt.
Họ không chỉ giải quyết được vấn đề lần đầu tiên (với tỷ lệ thành công là 0,5%), mà còn lập kỷ lục mới về nhiệm vụ"gần như đã giải quyết": hơn 95% bài kiểm tra đơn vị cho 26 nhiệm vụ đã được vượt qua.
Đáng chú ý hơn nữa, GPT-5.5 xhigh đã hoàn toàn vượt trội so với tất cả các đối thủ cạnh tranh trên toàn bộ biểu đồ phân bố tích lũy.
Dù bạn chọn chỉ báo nào đi nữa—điểm trung bình, số trung vị, tỷ lệ đậu ≥90%, tỷ lệ đậu ≥50%—thì nó vẫn là số một.
lần cuộc gọi, Opus 4.7 thất bại do hai lỗi.
Ngược lại, hiệu năng của Claude Opus 4.7 xhigh lại khá đáng thất vọng.
Nó có giá 10,74 đô la và bao gồm lần lệnh gọi API, gấp 10 lần so với phiên bản GPT-5.5 tiêu chuẩn, vốn có giá 1,04 đô la và chỉ bao gồm Lần.
Kết quả là, 19 bài kiểm tra đã thất bại, đây là kết quả tệ nhất trong toàn bộ sự kiện.
Lý do thất bại của Opus 4.7 lại khá đơn giản:
Lỗi 1: Phân tích màu sắc có phân biệt chữ hoa chữ thường.
Đoạn mã sử dụng hàm strcmp() thay vì strcasecmp(). Các giá trị nhập "GREEN", "Red" và "BLUE" đều được coi là không hợp lệ.
Chỉ một sự khác biệt nhỏ trong lời gọi hàm đã khiến 11 bài kiểm tra thất bại .
Trong quá trình khám phá 178 bước, Opus chưa bao giờ thử nghiệm nhập liệu chữ hoa hoặc chữ thường kết hợp với màu sắc; nó chỉ thử chữ thường và một màu không hợp lệ, "tím".
Lỗi 2: Mã thoát cho các màu không hợp lệ được viết sai.
Chương trình gốc trả về exit(0) khi gặp màu không hợp lệ, nhưng Opus đã viết nó là exit(1).
Trớ trêu thay, Opus đã quan sát rõ ràng hành vi của chương trình gốc trong giai đoạn khám phá—`./ Executable -C purple; echo "exit=$?"` output `exit=0`. Tuy nhiên, khi kiểm tra phiên bản của riêng mình, nó lại không phát hiện ra sự khác biệt này.
Tám bài kiểm tra đã thất bại.
Tuy nhiên, Opus 4.7 có một điểm nổi bật đáng chú ý: nó thể hiện khả năng kỹ thuật hệ thống tuyệt vời khi xử lý các tệp tiêu đề ncurses bị thiếu.
Ba mô hình còn lại, sau khi phát hiện ra tệp ncurses.h bị thiếu, đã chuyển ngay sang sử dụng chuỗi thoát ANSI.
Opus 4.7 đã mất khoảng 20 bước để điều tra, sử dụng lệnh ldconfig -p để tìm tệp .so thời gian chạy, sử dụng lệnh nm -D để kiểm tra các ký hiệu được xuất khẩu, và sau đó tự tay viết một tệp tiêu đề khai báo gồm 106 dòng để liên kết trực tiếp với thư viện động.
Đây quả là một dự án sáng tạo, nhưng kết quả thu được lại không khả quan hơn.
Hiện vẫn còn 199 câu hỏi chưa được giải đáp.
Sự xuất hiện của ProgramBench đánh dấu một giai đoạn mới trong việc đánh giá hiệu năng lập trình.
Tỷ lệ đỗ kỳ thi SWE-bench đã đạt 88,7%. Trí tuệ nhân tạo (AI) đã vượt qua hầu hết các tiến sĩ trên GPQA.
Những người đánh giá này đang "tan chảy" với tốc độ đáng báo động, điểm số ngày càng cao nhưng khả năng phân biệt lại ngày càng thấp.
Còn đối với ProgramBench, với 200 câu hỏi, đến nay mới chỉ có 1 câu được giải, với tỷ lệ đậu là 0,5%.
Quan trọng hơn, thành tựu phá kỷ lục lần cho thấy một xu hướng quan trọng: "tỷ lệ băm suy luận" đang trở thành một biến số cốt lõi trong khả năng lập trình trí tuệ nhân tạo.
GPT-5.5 chỉ hoạt động ở mức khá tốt trong chế độ suy luận mặc định, nhưng chế độ suy luận cao cấp của nó thể hiện một bước tiến vượt bậc về chất lượng.
Điều này có nghĩa là không phải mô hình không đủ thông minh, mà là nó không được cho đủ thời gian để "suy nghĩ" trước đó.
Trong số 200 câu hỏi trên ProgramBench, vẫn còn 199 câu hỏi chưa được giải đáp.
Từ số không đến số một, đó không chỉ là điểm khởi đầu.
Nhìn lại từng khoảnh khắc "đột phá đầu tiên" trong lịch sử phát triển trí tuệ nhân tạo—
AlphaGo lần đầu tiên đánh bại một kỳ thủ cờ vây chuyên nghiệp, GPT-4 lần đầu tiên vượt qua kỳ thi tư cách, và O1 lần đầu tiên giành điểm trong một bài toán Olympic toán học.
"Từ số không đến số một" không bao giờ là điểm khởi đầu của sự tiến bộ tuyến tính, mà đúng hơn là tín hiệu báo hiệu cho sự tăng trưởng theo cấp số nhân.
Định luật mở rộng của Noam Brown về tỷ lệ băm suy luận đã nhận được sự xác thực trực quan nhất cho đến nay trên ProgramBench:
Sử dụng cùng một bộ cơ sở GPT-5.5, tôi suýt thất bại ở chế độ trung bình, đạt điểm tuyệt đối ở chế độ cao và hoàn toàn áp đảo ở chế độ cực cao.
Trí thông minh không còn là một giá trị cố định mà là một hàm số của tỷ lệ băm.
Điều này có nghĩa là gì? Điều này có nghĩa là con đường dẫn đến ASI có thể không cần phải chờ đợi thế hệ cách mạng kiến trúc tiếp theo.
Miễn là tỷ lệ băm suy luận tiếp tục mở rộng, và miễn là Định luật Tỷ lệ không gặp phải giới hạn nào đó.
Hiện tại, ProgramBench chỉ có thể biên dịch lại mô hình cmatrix; ngày mai nó có thể biên dịch lại SQLite; và ngày kia, nó có thể biên dịch lại toàn bộ nhân Linux.
Tham khảo:
https://x.com/polynoamial/status/2054255862441812099
https://programbench.com/blog/gpt-5-5-first-solve/
Bài viết này được lấy từ tài khoản chính thức WeChat "New Zhiyuan" , do Taozi biên tập và được đăng tải với sự cho phép của 36Kr.



