GPT-5.3 ra mắt Codex, và OpenAI đã phản hồi mô hình mới của Claude chỉ trong vòng 15 phút.

Bài viết này được dịch máy

Xem bản gốc

Sao Hỏa va chạm với Trái Đất, một kiểu chiến tranh mới!

Chỉ 15 phút sau khi phát hành Claude Opus 4.6, OpenAI cũng đã công bố mô hình lập trình mới nhất và mạnh mẽ nhất của mình.

Bộ luật GPT-5.3.

Cảm nhận đầu tiên là mẫu xe mới này cuối cùng cũng có gu thẩm mỹ.

Chính thức đã giới thiệu hai bản demo: một trò chơi đua xe và một trò chơi lặn. Chúng trông khá bắt mắt.

Người ta nói rằng GPT-5.3-Codex liên tục lặp lại các trò chơi này mà hầu như không cần sự can thiệp của con người , tích lũy được hàng triệu token .

Trong phát triển web, bên cạnh giao diện người dùng đẹp mắt hơn, còn có sự hiểu biết sâu sắc hơn về "mục đích".

Ngay cả khi lời nhắc không rõ ràng, nó vẫn có thể tự động hoàn thiện logic và tạo ra một trang web hoạt động đầy đủ chức năng.

Dựa trên những bản demo này, thiết kế quả thực đã tốt hơn nhiều so với trước đây.

Khả năng tin học của nó cũng thuộc hàng đầu; giờ đây nó có thể được sử dụng để giúp người hành nghề tài chính tạo ra các bài thuyết trình PowerPoint một cách trực tiếp.

Nó cũng có thể xử lý các nhiệm vụ khác trong công việc, đặc biệt là nhiệm vụ kiến thức chuyên môn; việc viết tài liệu và tạo bảng tính không phải là vấn đề đối với nó.

Về sức mạnh thực tế, những điểm nổi bật chính thức như sau:

Thông minh hơn: SWE-Bench Pro 57%, TerminalBench 2.0 76%, OSWorld 64%.

Dễ điều khiển hơn: Hỗ trợ hướng dẫn theo thời gian thực trong quá trình thực hiện nhiệm vụ, cho phép điều chỉnh hướng đi và cập nhật bất cứ lúc nào.

Nhanh hơn: Khi hoàn thành cùng một nhiệm vụ, số lượng token cần thiết ít hơn một nửa so với phiên bản 5.2-Codex, dẫn đến tốc độ cải thiện hơn 25% cho mỗi token.

Thêm một chuyên gia nữa: Họ không chỉ giỏi lập trình mà còn rất thành thạo trong vận hành máy tính.

Việc trực tiếp xem bảng so sánh này sẽ trực quan hơn; hầu như mọi khía cạnh đều cho thấy sự cải thiện đáng kể so với thế hệ trước.

Cư dân mạng bày tỏ sự phấn khích tột độ, bởi vì OpenAI vừa bị Anthropic công kích bằng quảng cáo ngày hôm qua, và hôm nay lại đáp trả.

Hai mô hình lập trình cấp cao trong cùng một ngày .

Phần bình luận nhanh chóng chia thành hai phe: phe ủng hộ thuyết Nhân sinh và phe ủng hộ Trí tuệ nhân tạo mở.

Hãy cùng xem OpenAI đã thể hiện như thế nào trong cuộc chiến lập trình trí tuệ nhân tạo do Ultraman khởi xướng.

Bộ luật GPT 5.3

Điều mà mọi người quan tâm nhất, dĩ nhiên, là kỹ năng lập trình.

OpenAI tuyên bố rằng GPT-5.3-Codex đạt hiệu năng vượt trội (SOTA) trên SWE-Bench Pro .

Đây là bài kiểm tra được thiết kế đặc biệt cho kỹ sư phần mềm thực tế, bao gồm bốn ngôn ngữ lập trình. Bài kiểm tra này khó hơn, có nhiều nhiệm vụ đa dạng hơn và gần gũi hơn với các tình huống sản xuất thực tế.

Trong khi đó, GPT-5.3-Codex cũng cho thấy sự cải thiện đáng kể về hiệu năng trên Terminal-Bench 2.0.

Quan trọng hơn cả là hiệu quả. Trong khi đạt được những kết quả này, GPT-5.3-Codex đã sử dụng ít token hơn bất kỳ mô hình nào trước đây .

Bên cạnh khả năng lập trình, một trọng tâm quan trọng khác của thế hệ Codex mới là khả năng sử dụng máy tính .

OSWorld là một công cụ đo hiệu năng máy tính dành cho các tác nhân thông minh, yêu cầu các mô hình thực hiện nhiều nhiệm vụ năng suất khác nhau trong hoàn cảnh máy tính để bàn ảo hóa.

Kết quả cho thấy GPT-5.3-Codex mạnh hơn đáng kể so với mô hình GPT trước đó về khả năng sử dụng máy tính.

Tóm lại, GPT-5.3-Codex không phải là một bước đột phá về khả năng của một mô hình đơn lẻ, mà là một sự phát triển toàn diện dựa trên các tác nhân thông minh, với những cải tiến về lập trình, phát triển giao diện người dùng và vận hành máy tính .

Điều thú vị hơn nữa là lầnGPT-5.3-Codex đã trực tiếp tham gia vào quá trình huấn luyện của chính mình .

OpenAI tuyên bố đây là mô hình đầu tiên của họ tham gia vào "quá trình tự tăng tốc". Đội ngũ Codex đã sử dụng một phiên bản trước đó của mô hình trong quá trình phát triển để gỡ lỗi quy trình huấn luyện của riêng họ, quản lý việc triển khai và đánh giá kết quả thử nghiệm.

Chính thức cũng cung cấp một số ví dụ cụ thể.

Trong giai đoạn huấn luyện , đội ngũ nghiên cứu đã sử dụng Codex để giám sát và gỡ lỗi nhiệm vụ huấn luyện, giúp theo dõi những thay đổi trong hành vi của mô hình trong suốt quá trình huấn luyện, tiến hành phân tích chuyên sâu về các tương tác và đề xuất các giải pháp cải tiến.

Về phân tích dữ liệu , một nhà khoa học dữ liệu đã hợp tác với GPT-5.3-Codex để xây dựng một quy trình xử lý dữ liệu mới và trực quan hóa kết quả theo cách vượt xa các công cụ bảng điều khiển truyền thống.

Sau đó, các nhà nghiên cứu đã phân tích kết quả bằng Codex, và mô hình này đã trích xuất những thông tin quan trọng từ hàng nghìn điểm dữ liệu trong vòng chưa đầy ba phút.

Sau đó, đội ngũ kỹ thuật đã sử dụng Codex để tối ưu hóa và điều chỉnh khung kiểm thử và thời gian chạy cho GPT-5.3-Codex.

Khi các trường hợp ngoại lệ bất thường ảnh hưởng đến trải nghiệm người dùng bắt đầu xuất hiện, các thành viên đội ngũ đã sử dụng Codex để xác định lỗi liên quan đến việc hiển thị ngữ cảnh và tiếp tục truy tìm nguyên nhân dẫn đến tỷ lệ truy cập bộ nhớ cache thấp.

Thêm hai điều nữa

Cuộc đối đầu với Anthropic thực sự rất hấp dẫn, nhưng OpenAI còn có hai động thái lớn khác đáng chú ý.

1. Frontier: Một nền tảng giúp doanh nghiệp tạo ra "đồng nghiệp AI"

Đây là một việc kinh doanh B2B quan trọng đối với OpenAI, với mục tiêu rõ ràng: tích hợp các tác nhân vào quy trình làm việc của công ty một cách toàn diện.

Các phương pháp triển khai cụ thể bao gồm chia sẻ bối cảnh, hướng dẫn thực hành ban đầu, học tập thực hành kèm phản hồi, và phân quyền cũng như giới hạn rõ ràng.

Được biết, nhiều công ty có tiếng như HP, Intuit, Oracle, State Farm, Thermo Fisher và Uber đã áp dụng Frontier.

2. AI4S: OpenAI và Ginkgo hợp tác để giảm chi phí tổng hợp protein xuống 40% bằng cách sử dụng GPT-5.

Đây là một công ty hoạt động trong phòng thí nghiệm, chuyên về sinh học tổng hợp . Họ đã kết nối GPT-5 với một phòng thí nghiệm tự động, cho phép mô hình đề xuất kế hoạch thí nghiệm, thực hiện thí nghiệm trên quy mô lớn, học hỏi từ kết quả và quyết định nên thử gì tiếp theo, từ đó hoàn thành một vòng khép kín.

Năm 2026 có thể là năm mà AI4S phát triển với tốc độ nhanh hơn.

Tuy nhiên, trong khi OpenAI đang bận rộn đối đầu với Anthropic và cư dân mạng đang bị thu hút bởi sê-ri các diễn biến mới, thì lại có một tiếng nói khác trong phần bình luận.

Trả lại 40 đô la cho tôi!

Cho đến nay, Ultraman vẫn chưa phản hồi về việc Ultraman 40 đã bị hủy niêm yết.

Có lẽ, họ quá bận rộn chiến đấu với Anthropic.

Liên kết tham khảo:

[1]https://openai.com/index/introducing-gpt-5-3-codex/

[2]https://openai.com/index/introducing-openai-frontier/

[3] https://x.com/i/trending/2019496485793198148

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Quantum Bit" , tác giả: chuyên về công nghệ tiên tiến, được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan