Hai quả bom được thả xuống Thung lũng Silicon đêm qua: GPT-5.3-Codex nhắm mục tiêu vào Claude 4.6. Ultraman đang rất lo lắng.

Bài viết này được dịch máy

Xem bản gốc

Chỉ trong một ngày, hai trí tuệ nhân tạo lập trình hàng đầu đã "dội bom" Thung lũng Silicon. Sau Claude Opus 4.6, Ultraman nhanh chóng tung ra GPT-5.3-Codex. Cuộc chiến giữa hai gã khổng lồ này đã hoàn toàn mở ra bức màn cho cuộc tranh giành ngôi vị trí dẫn đầu trong lĩnh vực trí tuệ nhân tạo.

Thung lũng Silicon sẽ mất ngủ cả đêm!

Claude Opus 4.6 bất ngờ tấn công Ultraman vào giữa đêm mà không hề báo trước, khiến Ultraman hoàn toàn mất cảnh giác.

Để đáp lại, OpenAI đã nhanh chóng triển khai mô hình lập trình tác nhân thông minh mạnh mẽ nhất của mình — GPT-5.3-Codex — chỉ trong vòng nửa giờ.

Không có GPT-5.3, chỉ có GPT-5.3-Codex!

Nó kết hợp hoàn hảo khả năng lập trình hàng đầu của GPT-5.2-Codex với khả năng suy luận và chuyên môn vượt trội của GPT-5.2, đồng thời tốc độ hoạt động được cải thiện 25% .

Nó có thể dễ dàng xử lý nhiệm vụ dài hạn liên quan nghiên cứu chuyên sâu , sử dụng công cụ và thực thi phức tạp.

GPT-5.3-Codex giống như một đồng nghiệp làm việc bên cạnh bạn, cho phép bạn hướng dẫn và tương tác với nó trong thời gian thực khi nó hoạt động, mà không cần lo lắng về việc mất ngữ cảnh.

Điều đáng chú ý là GPT-5.3-Codex cũng là mô hình đầu tiên đóng vai trò quan trọng trong chính quá trình tạo ra nó.

Với sự ra mắt của GPT-5.3-Codex, nhân vật của Codex đã có một bước tiến vượt bậc về chất lượng:

Từ một trợ lý AI chỉ có khả năng viết và xem xét mã, nó đã phát triển thành một trợ lý AI có thể thực hiện hầu hết mọi việc mà các nhà phát triển và chuyên gia có thể làm trên máy tính.

GPT-5.3-Codex hiện đã được bao gồm trong gói trả phí của ChatGPT, hỗ trợ tất cả các kịch bản ứng dụng Codex: Ứng dụng di động, giao diện dòng lệnh (CLI), mở rộng IDE và web.

Ngày nay, Thung lũng Silicon đã trở thành chiến trường giữa hai gã khổng lồ Anthropic và OpenAI, với bầu không khí vô cùng căng thẳng.

Điều thú vị là, Ultraman ban đầu thông báo về việc phát hành mẫu mới vào nửa đêm, nhưng Anthropic đã nhanh chân hơn và phát hành nó trước.

Qua đêm, hai trong số những trí tuệ nhân tạo lập trình mạnh nhất đã đối đầu trực tiếp, khiến cư dân mạng than phiền: " Chúng ta đơn giản là không thể theo kịp tốc độ phát triển của trí tuệ nhân tạo ."

GPT-5.3-Codex đã ra mắt, mang đến khả năng mã hóa được nâng cao.

GPT-5.3-Codex mạnh mẽ đến mức nào? Hãy cho chúng tôi xem báo cáo hiệu năng của nó và bạn sẽ biết.

Kỹ thuật phần mềm: Trạng thái mới của nguồn gốc

GPT-5.3-Codex đã đạt được thành tích cao nhất trong ngành trong bài kiểm tra SWE-Bench Pro , một bài kiểm tra đánh giá hiệu năng kỹ thuật phần mềm thực tế.

Đồng thời, trong Terminal-Bench 2.0 , một công cụ đo lường kỹ năng vận hành thiết bị đầu cuối của các tác nhân thông minh lập trình, hiệu suất của nó vượt xa các công nghệ tiên tiến nhất trước đây (SOTA).

Điều đáng chú ý là GPT-5.3-Codex tiêu thụ ít token hơn nhiều so với bất kỳ mô hình nào trước đây để đạt được tất cả những điều này.

So với SWE-bench Verified chỉ kiểm tra Python, SWE-Bench Pro bao gồm bốn ngôn ngữ, do đó không chỉ có khả năng chống lại lỗi dữ liệu tốt hơn mà còn mang tính thách thức, đa dạng và phù hợp hơn với ngành.

Tạo ra một trò chơi từ đầu

Kết hợp khả năng lập trình tiên tiến, cải tiến về mặt thẩm mỹ và tính nhỏ gọn, GPT-5.3-Codex mang lại những kết quả đáng kinh ngạc, thậm chí cho phép xây dựng các trò chơi và ứng dụng phức tạp từ đầu chỉ trong vài ngày.

Để kiểm tra khả năng phát triển web và khả năng hoạt động tầm xa của mô hình, OpenAI đã yêu cầu GPT-5.3-Codex tạo ra hai trò chơi:

Ứng dụng Codex đã phát hành phiên bản thứ hai của một trò chơi đua xe và một trò chơi lặn.

Sử dụng các kỹ năng được phát triển cho trò chơi web và các lời nhắc tiếp theo chung được chọn trước (chẳng hạn như "sửa lỗi" hoặc "cải thiện trò chơi"), GPT-5.3-Codex tự động lặp lại trò chơi thông qua hàng triệu tương tác với các token.

Trò chơi đua xe: Bao gồm nhiều tay đua khác nhau, tám bản đồ và cả các vật phẩm tăng sức mạnh có thể được kích hoạt bằng phím cách.

Trò chơi lặn biển: Người chơi có thể trong đó nhiều rạn san hô khác nhau, thu thập chúng để hoàn thành bách khoa toàn thư về cá và quản lý nồng độ oxy.

• Hiểu rõ hơn về ý định của bạn

So với GPT-5.2-Codex, GPT-5.3-Codex có khả năng hiểu ý định của bạn chính xác hơn khi bạn sử dụng nó tạo ra các trang web thông thường.

Đối với các yêu cầu đơn giản hoặc mơ hồ, công cụ hiện mặc định tạo ra các trang web giàu tính năng và được thiết kế tốt hơn, cung cấp cho bạn một nền tảng tốt hơn và giúp ý tưởng của bạn trở thành hiện thực.

· So sánh GPT-5.3-Codex với GPT-5.2-Codex

Ví dụ, bạn có thể yêu cầu cả GPT-5.3-Codex và GPT-5.2-Codex cùng xây dựng trang đích.

GPT-5.3-Codex tự động hiển thị các gói hàng năm dưới dạng giá hàng tháng đã được giảm giá, giúp các khoản giảm giá trông rõ ràng và được thiết kế tốt, thay vì chỉ đơn thuần tính tổng số tiền hàng năm.

Ngoài ra, nó tạo ra một băng chuyền tự động thay đổi các lời chứng thực, hiển thị ba trích dẫn khác nhau từ người dùng, thay vì chỉ một trích dẫn đơn điệu. Điều này giúp trang web trông hoàn thiện hơn ngay từ đầu, giống một sản phẩm sẵn sàng ra mắt hơn.

GPT-5.3-Codex

GPT-5.2-Codex

Từ khóa gợi ý:

Hãy thiết kế trang đích cho Quiet KPIs, một bản tóm tắt chỉ báo hàng tuần thân thiện với người sáng lập. Giao diện mang phong cách SaaS nhẹ nhàng với các thẻ trong suốt như thủy tinh, hiệu ứng chuyển màu từ tím nhạt sang xanh lam và hiệu ứng làm mờ tinh tế. Các phần bao gồm: màn hình chính với phần thu thập email, bảng mẫu báo cáo, các hàng danh sách tích hợp, băng chuyền đánh giá của khách hàng, nút chuyển đổi giá hàng tháng/hàng năm, Câu hỏi thường gặp và chân trang.

• Sử dụng phông chữ Satoshi hoặc một phông chữ sans-serif hình học tương tự.

• Nút bấm có các góc bo tròn với bán kính 14px, tạo cảm giác nổi bật.

• Thêm hiệu ứng hiển thị cuộn trang nhã.

Vượt qua những khả năng chung của lập trình

Các kỹ sư phần mềm, nhà thiết kế, quản lý sản phẩm và nhà khoa học dữ liệu làm nhiều việc hơn là chỉ tạo ra mã lập trình.

GPT-5.3-Codex hỗ trợ tất cả các giai đoạn của vòng đời phần mềm, chẳng hạn như gỡ lỗi, triển khai, giám sát, viết tài liệu PRD, chỉnh sửa tài liệu, nghiên cứu người dùng, kiểm thử và chỉ báo.

Hơn nữa, nó có thể giúp người dùng xây dựng bất cứ thứ gì họ muốn—cho dù đó là tạo ra những slide đẹp mắt hay thực hiện phân tích dữ liệu phức tạp trong bảng tính.

Trong GDPval, một thước đo về chất lượng công việc chuyên môn, GPT-5.3-Codex thể hiện rất tốt, ngang bằng với GPT-5.2.

1. Các slide về tư vấn tài chính

2. Tài liệu đào tạo bán lẻ

3. Bảng tính phân tích NPV

4. Bản trình bày thời trang PDF

• Kỹ năng máy tính

OSWorld là một tiêu chuẩn đánh giá hiệu năng máy tính, yêu cầu người dùng thực hiện nhiệm vụ năng suất trong hoàn cảnh máy tính để bàn ảo hóa.

Tại đây, GPT-5.3-Codex thể hiện khả năng vận hành máy tính vượt trội hơn hẳn so với các mẫu GPT trước đó.

Trong OSWorld-Verified, mô hình này sử dụng thị giác để hoàn thành nhiều nhiệm vụ máy tính khác nhau (điểm số của con người xấp xỉ 72%).

Tóm lại, những kết quả hiệu năng vượt trội này trong lập trình, giao diện người dùng, vận hành máy tính và nhiệm vụ thực tế chứng minh rằng GPT-5.3-Codex không chỉ hoạt động tốt hơn trong nhiệm vụ riêng lẻ mà còn đại diện cho một bước tiến đáng kể hướng tới một tác nhân thông minh đa năng duy nhất .

Điều này có nghĩa là các tác nhân thông minh hiện nay có khả năng suy luận, xây dựng và thực thi trong mọi khía cạnh của công việc kỹ thuật thực tế.

Hoạt động phối hợp và khả năng dừng giữa chừng.

Khi các mô hình trở nên mạnh mẽ hơn, thách thức đã chuyển từ "các tác nhân thông minh có thể làm gì" sang "làm thế nào con người có thể dễ dàng tương tác, điều khiển và giám sát nhiều tác nhân thông minh hoạt động song song".

Với sự hỗ trợ của GPT-5.3-Codex, quy trình vận hành sẽ được cập nhật thường xuyên hơn.

Bằng cách này, các nhà phát triển có thể theo dõi các quyết định quan trọng và tiến độ bất cứ lúc nào trong quá trình hoạt động.

Bạn không cần phải chờ đợi kết quả cuối cùng; thay vào đó, bạn có thể tương tác trong thời gian thực—đặt câu hỏi, thảo luận về phương pháp và hướng dẫn hệ thống tìm ra giải pháp.

GPT-5.3-Codex sẽ giải thích cách hoạt động của nó cho bạn, phản hồi ý kiến của bạn và giữ cho bạn luôn được đồng bộ từ đầu đến cuối.

Lặp lại tự tăng tốc, tiếp quản quy trình R&D.

Bộ quy tắc hiện hành hiểu rõ ý định của bạn và, quan trọng hơn, hiệu quả công việc.

Thậm chí còn có một kiểu tiến hóa "lồng ghép" bên trong OpenAI: Codex đang thúc đẩy quá trình hình thành của chính nó.

Chỉ trong vòng hai tháng, các nhà nghiên cứu và kỹ sư của OpenAI đã phát hiện ra rằng cách thức làm việc của họ đã được Sự lật đổ hoàn toàn.

Họ đang sử dụng phiên bản đầu tiên của GPT-5.3-Codex để huấn luyện, triển khai và tối ưu hóa phiên bản chính thức hiện tại.

Kết quả thực tiễn của làn sóng "tự tiến hóa" này khá bùng nổ:

Đội ngũ nghiên cứu

Từ việc giám sát các hoạt động đào tạo và nghiên cứu các mô hình tương tác đến việc phát triển các công cụ phân tích cho các đồng nghiệp, Codex đã tham gia vào toàn bộ quy trình, không chỉ sửa lỗi mà còn đưa ra các đề xuất.

Đội ngũ kỹ thuật

Nó là đồng minh đáng tin cậy nhất. Cho dù đó là tối ưu hóa khung kiểm thử, tìm ra nguyên nhân gốc rễ của lỗi bộ nhớ cache hay lập lịch động cho các cụm GPU trong thời gian lưu lượng truy cập tăng đột biến, nó vẫn hoạt động ổn định.

Thử nghiệm Alpha trong thực tế

Để hiểu rõ sự khác biệt về năng suất, Codex đã tự viết bộ phân loại biểu thức chính quy của riêng mình, xử lý một lượng lớn nhật ký và trực tiếp tạo ra một báo cáo chính xác.

Đối diện dữ liệu trái ngược với trực giác, họ đã hợp tác với các nhà khoa học dữ liệu để xây dựng các quy trình mới. Một người bình thường sẽ mất bao nhiêu giờ để làm việc đó? Codex đã trích xuất những thông tin quan trọng từ hàng nghìn điểm dữ liệu chỉ trong ba phút.

Anh ấy không chỉ là một lập trình viên, mà còn là một thương nhân tài chính.

Tham vọng của GPT-5.3-Codex từ lâu đã vượt xa phạm vi của bộ mã.

Với phiên bản lần, Codex đang chuyển mình từ một công cụ lập trình đơn giản thành một trợ lý mạnh mẽ giúp vận hành máy tính và hoàn thành các tác vụ từ đầu đến cuối.

OpenAI đang mở ra một phạm vi hoạt động rộng lớn hơn—từ việc xây dựng phần mềm đến nghiên cứu chuyên sâu, phân tích phức tạp, và thậm chí cả thực hiện mọi loại công việc văn phòng.

Trước đây, mục tiêu của nó là trở thành "tác nhân thông minh có thể lập trình mạnh mẽ nhất"; giờ đây, nó là "cộng tác viên toàn năng" trong máy tính của bạn.

Phạm vi ứng dụng của Codex đã được mở rộng vô hạn, và giới hạn của sự sáng tạo của chúng ta sẽ được viết lại hoàn toàn.

Tham khảo:

https://openai.com/index/introducing-gpt-5-3-codex/

https://x.com/OpenAI/status/2019474152743223477

https://x.com/sama/status/2019474754529321247

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Zhiyuan" , tác giả: New Zhiyuan, và được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan