GPT-5 cố gắng gian lận hết sức có thể, chỉ để vượt qua con quỷ bên trong Claude

08-18

Bài viết này được dịch máy

Xem bản gốc

GPT5 cuối cùng đã được phát hành, nhưng so với GPT3.5, Sora, v.v., nó không mang lại cảm giác choáng ngợp cho mọi người. Nói tốt hơn, OpenAI đã từ bỏ danh hiệu nhà giao dịch huyền thoại, tập trung vào việc triển khai và ứng dụng mô hình lớn. Điều này thực sự giải thích tại sao trong buổi ra mắt, OpenAI đặc biệt nhấn mạnh khả năng lập trình của GPT-5: cuối cùng thì năm nay không có hướng AI nào có tính ứng dụng bằng AI Coding. Các công cụ AI IDE cũng đã kết nối với GPT5 ngay lập tức, điều này trước đây khó có thể xảy ra trong vòng 2 tháng.

Tuy nhiên, một số phương tiện truyền thông tiết lộ rằng OpenAI đã "gian lận" trong bài kiểm tra khả năng lập trình. Cụ thể, trong bài kiểm tra lập trình SWE‑Bench Verified, OpenAI không thực sự chạy tất cả 500 câu hỏi, mà chỉ kiểm tra 477 câu. Trong khi đó, Claude, Google và các mô hình khác khi kiểm tra khả năng lập trình đều chạy đủ 500 câu hỏi.

Hơn nữa, điều thú vị là SWE‑Bench Verified là một phiên bản "tinh chế" do chính OpenAI giới thiệu. Bởi vì phiên bản gốc của SWE‑Bench có 2294 vấn đề kỹ thuật phần mềm, OpenAI cho rằng một số câu hỏi quá khó và không ổn định, không thể đánh giá công bằng khả năng lập trình của mô hình, do đó OpenAI đã tự chọn 500 câu hỏi để đánh giá chính xác hơn. Kết quả còn ly kỳ hơn là bộ con này lại bị cắt bớt một phần, chỉ còn 477 câu để chạy đánh giá.

OpenAI đã đăng một bài blog trên trang web chính thức để giải thích và giới thiệu lý do tại sao phải ra mắt SWE‑Bench Verified: https://openai.com/index/introducing-swe-bench-verified/

Một số người dùng internet đã bình luận: OpenAI đang sợ điều gì?

(Phần còn lại của bản dịch tương tự, giữ nguyên các thẻ và nội dung bên trong)

prompts: Tạo một trình truy vấn cơ sở dữ liệu SWE‑Bench Verified, có chức năng dễ dàng tra cứu những vấn đề trong SWE‑Bench Verified, cùng với các liên kết vấn đề và tiêu chí đánh giá.

Quá trình tạo GPT5 diễn ra khá thuận lợi, không xuất hiện bất kỳ lỗi không thể khắc phục nào. Phiên bản đầu tiên chỉ hiển thị 11 dự án, sau một vòng trao đổi đã bổ sung đầy đủ 500 dự án.

Bản xem trước của phiên bản do GPT5 tạo: http://4d916460ea034a90bd4e0c1dd25efc6b.ap-singapore.myide.io

Sau đó, sử dụng các prompts tương tự với claude-4-sonnet để tạo, rõ ràng là tỷ lệ thành công một lần của claude-4-sonnet không bằng GPT5, chẳng hạn như vấn đề trang web không hiển thị thường gặp, phải tương tác nhiều vòng với claude mới được giải quyết.

Bản xem trước của phiên bản do claude-4-sonnet tạo: http://7561fbea40ff4069a3c2c8ae367cd7ea.ap-singapore.myide.io

Về mặt giao diện người dùng, do cả hai đều sử dụng khung MUI nên phong cách hình ảnh không khác nhiều. Nhưng ở khâu chăm chút chi tiết, trang web do claude-4-sonnet tạo rõ ràng vượt trội hơn - bố cục đáp ứng linh hoạt hơn, vẫn giữ được sự tinh tế ở các kích thước màn hình khác nhau. Thông tin liên kết ngoài cũng được tổ chức hợp lý hơn, ví dụ như các vấn đề và chi tiết của dự án được phân bổ rõ ràng, trong khi trang do GPT5 tạo không chỉ "lộ" nguồn cơ sở dữ liệu (HuggingFace) mà logic sắp xếp nội dung cũng hơi lộn xộn.

Về chức năng, GPT5 thể hiện nổi trội ở tính năng lọc, số lượng thẻ kho đầy đủ (10 thẻ), vượt trội hơn 8 thẻ của Claude-4-sonnet. Nhưng từ góc độ trải nghiệm tương tác, thao tác lọc của claude-4-sonnet lại trực quan và dễ sử dụng hơn, đồng thời cung cấp lối vào lọc chuyên dụng cho thiết bị di động, giảm bớt các bước thao tác.

Để khách quan hơn, chúng tôi còn mời Gemini 2.5 Pro để chấm điểm hai dự án này. Kết quả cho thấy dự án do claude-4-sonnet tạo gần như vượt trội ở tất cả các chiều quan trọng so với GPT5. Phiên bản trước lấy kiến trúc mô-đun làm trọng tâm, phân chia các thành phần theo chức năng, và thông qua các Hooks tùy chỉnh để tách biệt dữ liệu và giao diện, do đó khả năng bảo trì và khả năng đọc hiểu tốt hơn; phiên bản sau sử dụng cấu trúc thành phần phẳng, logic dữ liệu và giao diện người dùng gắn kết chặt chẽ, giống như một ứng dụng để xác minh nguyên mẫu hơn.

Về trải nghiệm chức năng tổng thể, claude-4-sonnet không chỉ tích hợp các khả năng như tìm kiếm, chuyển đổi chế độ xem, bố cục đáp ứng, mà còn rút ngắn đường dẫn thao tác thông qua các chi tiết thanh bên, chế độ lọc chuyên dụng cho thiết bị di động và các phương thức tương tác hiện đại khác, trong khi GPT5 vẫn dựa vào phương thức chuyển trang truyền thống, làm cho đường dẫn thao tác dài hơn. Nhìn chung, claude-4-sonnet thể hiện tư duy kỹ thuật phần mềm chín chắn hơn và phạm vi ứng dụng rộng hơn ở khía cạnh chất lượng mã, độ sâu chức năng và trải nghiệm người dùng, còn ưu điểm của GPT5 chủ yếu tập trung ở tính toàn vẹn và tốc độ thực hiện của các chức năng cụ thể.

Sau khi xem đánh giá của Gemini, dường như có thể hiểu tại sao OpenAI lại làm ít hơn 23 bài toán.

Quay lại phần kiểm tra, thực tế có quá nhiều biến số ảnh hưởng đến khả năng của mô hình lớn - cấu thành tập dữ liệu, chiến lược suy luận, quản lý ngữ cảnh, khả năng gọi công cụ, thậm chí các đặc tính của IDE, đều có thể làm kết quả thay đổi rõ rệt. Có lẽ với một nhiệm vụ khác, GPT5 sẽ thể hiện tốt hơn, cũng có thể với một IDE khác, cùng một mô hình sẽ cho ra điểm số khác. Nhưng dù sao, đây vẫn là GPT5. Từng có người chế giễu rằng, định giá và bong bóng của mô hình lớn lần này đều do OpenAI gánh vác, giờ đây gánh nặng này dường như có thể được hơi nhẹ bớt.

Trong lĩnh vực AI Coding, bảng xếp hạng luôn chỉ là một lát cắt, yếu tố thực sự quyết định năng suất là độ ổn định, khả năng bảo trì của mô hình trong môi trường phát triển thực tế, mức độ phù hợp với chuỗi công cụ, và liệu sản phẩm có thể xuất ra mã có thể sử dụng và đáng tin cậy trong các tình huống ứng dụng phức tạp.

Bài viết đến từ trang WeChat "Nhân viên Silicone Pro", tác giả: Đổng Đạo Lực, được 36kr xuất bản với sự cho phép.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan