Cách OpenAI giúp GPT-5 vượt qua Claude độ sâu công nghệ: nó lặng lẽ bỏ qua 23 câu hỏi khó nhất

avatar
36kr
08-20
Bài viết này được dịch máy
Xem bản gốc

Vài ngày trước, tại buổi họp của OpenAI, Altman tuyên bố GPT-5đã đạt đỉnh, tuyên bố khả năng mã nguồn hàng đầu thế giới.

Nhưng tại buổi họp đã xảy ra một sự cố lớn, 52.8>69.1=30.8?

Do đó, một bảng được các thiên tài với mức lương hàng năm hàng tỷ của OpenAI tạo ra đã lan truyền khắp thế giới (bên trái).

Mặc dù bảng này ban đầu là chính xác trên blog chính thức của OpenAI, nhưng khi phát trực tiếp toàn cầu lại gây ra một lỗi lớn như vậy.

Bỏ qua sự cố, điều quan trọng hơn nhưng bị mọi người bỏ qua là GPT-5 đạt được tỷ lệ thông qua 74.9% trên tiêu chuẩn SWE-bench Verified.

Điểm số này hơi cao hơn một chút so với Claude Opus 4.1 của Anthropic với 74.5%.

Điều này đã khiến GPT-5 trở thành mô hình hàng đầu trên tiêu chuẩn nhiệm vụ kỹ thuật phần mềm hiện tại.

Nhưng đợi đã, điểm số này... có vẻ hơi khả nghi.

OpenAI không chạy toàn bộ 500 nhiệm vụ thử nghiệm SWE-bench Verified, mà bỏ qua 23 nhiệm vụ không thể chạy, chỉ tính điểm dựa trên 477 nhiệm vụ.

SemiAnalysis đã đăng bài đề cập đến vấn đề này.

Anthropic cũng đã "ám chỉ" vấn đề này trong blog của mình.

SWE-bench Verified có tổng cộng 500 câu, GPT-5 chỉ làm 477 câu, 23 câu còn lại, nó đã bỏ qua!

Còn đối thủ Claude thì sao? Trung thực, không bỏ sót một câu nào trong 500 câu.

Giờ thì tình hình đã hoàn toàn thay đổi.

Tất nhiên, OpenAI đã thừa nhận việc này.

Từ GPT-4.1 trở đi, họ đã ghi chú: Cơ sở hạ tầng của OpenAI không thể chạy 23 câu này. (Thật tò mò, loại câu nào mà các thiên tài của OpenAI lại nói không thể chạy)

Nếu tính 23 câu không thể chạy này với điểm 0, điểm số của GPT-4.1 sẽ giảm từ 54.6% xuống còn 52.1%.

Do đó, có thể dự đoán, 74.9% của GPT-5, nếu coi 23 câu đó là hoàn toàn sai, thực tế tỷ lệ thông qua toàn bộ 500 câu sẽ là khoảng 71.4% (74.9%×477/500, lưu ý đây là phép tính cực kỳ đơn giản) rõ ràng thấp hơn Claude Opus 4.1 với 74.5% dựa trên 500 câu.

Cần nhấn mạnh rằng, 23 nhiệm vụ bị bỏ qua này không phải là "không quan trọng" với GPT-5.

Trái lại, chúng là một nhóm những vấn đề khó nhất trong tập Verified.

Theo phân tích của bên thứ ba, trong các nhiệm vụ cấp độ "mất >4 giờ" của tập dữ liệu Verified, hầu hết các mô hình đều không thể giải quyết được bất kỳ câu nào.

Các mô hình có hiệu suất giảm đáng kể trên các vấn đề "khó" cần hơn 1 giờ để hoàn thành.

Chỉ có ClaudeSonnet4 (chế độ không suy nghĩ), o3 và GPT4.1 mới có thể hoàn thành một phần các nhiệm vụ trên 4 giờ (mỗi loại chiếm 33%).

Những nhiệm vụ cực kỳ khó khăn này là một bài kiểm tra nghiêm ngặt đối với khả năng tổng hợp của mô hình.

Nếu GPT-5 không thể thực hiện những nhiệm vụ này, thì xét về năng lực toàn diện, nó có thể chưa thực sự vượt qua Claude 4.1.

Trong thông tin do Anthropic cung cấp, Claude 4.1 rất có thể đã thử những nhiệm vụ này (Anthropic không tuyên bố mô hình của mình bỏ qua bất kỳ nhiệm vụ Verified nào), do đó điểm số 74.5% của nó bao gồm việc kiểm tra tất cả các bài toán khó.

Còn 74.9% của GPT-5 là kết quả sau khi loại bỏ những "trở ngại" này.

Điểm tranh cãi chính phát sinh từ sự khác biệt này là: tính so sánh được của điểm số kiểm tra và tính minh bạch của phương pháp báo cáo.

Thậm chí, ngay cả bộ dữ liệu SWE-bench Verified làm trọng tài cũng do chính OpenAI tạo ra.

SemiAnalysis cho rằng, để so sánh "công bằng" thành tích giữa các mô hình, có lẽ bảng xếp hạng chính thức SWE-bench trên swebench.com mới là mô tả rõ ràng nhất về hiệu suất của các mô hình hiện tại trong tiêu chuẩn kiểm tra này.

Không có tập con "được xác minh", công cụ sử dụng bị hạn chế (chỉ giới hạn trong bash), phần lớn nội dung giàn giáo đều có thể nhìn thấy được.

Trong điều kiện kiểm tra chuẩn này, điểm kiểm tra của Claude 4 Opus vào ngày 14 tháng 5 (67.6) là tốt hơn GPT-5 (65).

Câu hỏi tiếp theo là, SWE-bench là gì, tập con "được xác minh" là gì, và tại sao lại phải tạo thêm một SWE-bench Verified?

Bốn điểm số:

0: Mô tả vấn đề rõ ràng, các điều kiện cần thiết để giải quyết thành công cũng rõ ràng.

1: Vẫn còn một số khoảng trống về vấn đề này, nhưng có một cách giải thích hợp lý cho nội dung cần thiết để có giải pháp thành công.

2: Mô tả vấn đề mơ hồ, có không gian mơ hồ, chưa rõ các đặc điểm của một giải pháp thành công.

3: Gần như không thể hiểu bạn cần làm gì khi không có thêm thông tin.

Loại bỏ trực tiếp các câu có điểm 2 và 3, chỉ giữ lại các câu có điểm 0 và 1.

Mặc dù phương pháp này sẽ dẫn đến tỷ lệ báo cáo sai cao hơn khi loại bỏ mẫu, nhưng nó giúp tăng niềm tin vào chất lượng mẫu của tập dữ liệu cuối cùng.

Sau đó, ngẫu nhiên chọn 500 câu từ các câu có điểm 0 và 1, đó chính là SWE-bench Verified cuối cùng.

Quay lại về điểm số, Claude được kiểm tra "toàn diện", còn OpenAI được kiểm tra "phiên bản được chọn lọc".

Làm sao có thể so sánh trực tiếp được thành tích này? Câu chuyện phía sau những con số mới thực sự đáng để suy ngẫm.

Ngoài sự nhầm lẫn trong biểu đồ của buổi họp báo, dường như sự thật bị "che giấu" này đã không thu hút sự chú ý của nhiều người.

Thậm chí, chúng ta có thể đoán theo kiểu âm mưu rằng liệu OpenAI có phải cố ý làm vậy không, sử dụng sự nhầm lẫn nhỏ này để che giấu điểm số của SWE-Bench?

Cuối cùng, để che giấu một sự thật, cách tốt nhất không phải là phủ nhận nó, mà là chuyển hướng sự chú ý của mọi người bằng một "sự thật" lớn hơn.

Tài liệu tham khảo:

https://x.com/SemiAnalysis_/status/1955028150217478177

Bài viết này đến từ trang WeChat "Trí tuệ mới", tác giả: Trí tuệ mới, biên tập: Định Tuệ, được 36Kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận