Thật tàn nhẫn! Ultraman đích thân "tiêu diệt" GPT-5.2; OpenAI tung ra trí tuệ nhân tạo lập trình mạnh mẽ nhất của mình.

12-19

Bài viết này được dịch máy

Xem bản gốc

GPT-5.2-Codex, một cuộc tấn công bất ngờ vào giữa đêm!

Đây là mô hình lập trình tác nhân AI mạnh mẽ nhất của OpenAI cho đến nay, được thiết kế đặc biệt cho kỹ thuật phần mềm phức tạp, thực tế.

Như tên gọi của nó, GPT-5.2-Codex là phiên bản được tối ưu hóa hơn nữa dựa trên GPT-5.2, và nó đã đạt được những cải tiến quan trọng ở một số khả năng:

• Nén ngữ cảnh giúp cải thiện khả năng xử lý nhiệm vụ có chu kỳ dài.

• Cải thiện hiệu suất trong quá trình thay đổi mã nguồn lớn, chẳng hạn như tái cấu trúc và di chuyển mã.

• Khả năng lập trình được nâng cao đáng kể trong hoàn cảnh Windows gốc.

• Khả năng an ninh mạng mạnh mẽ nhất

Altman khẳng định rằng "OpenAI và các công nghệ tương tự" đã được sử dụng và đạt được những kết quả rất tốt.

Trong các bài kiểm tra hiệu năng, GPT-5.2-Codex đã vượt trội hơn 5.1-Codex-Max, GPT-5.2 và GPT-5.1 về kỹ thuật phần mềm và kiểm thử đầu cuối.

Blog của OpenAI đã lần nhấn mạnh rằng GPT-5.2-Codex đã đạt được mức độ an ninh mạng cao nhất cho đến nay.

Mới tuần trước, một nhà nghiên cứu bảo mật đã sử dụng công cụ dòng lệnh GPT-5.1-Codex-Max+Codex để phát hiện ra một lỗ hổng trong React dẫn đến việc rò rỉ mã nguồn.

Bắt đầu từ hôm nay, tất cả người dùng trả phí đều có thể sử dụng GPT-5.2-Codex, và API sẽ được cung cấp trong những tuần tới.

GPT-5.2-Codex Programming Frenzy: Chạy đường dài không bỏ cuộc

Công cụ lập trình tác nhân AI hoàn toàn mới GPT-5.2-Codex, nói một cách đơn giản, là một sự hợp tác mạnh mẽ.

Nó không chỉ kế thừa "khả năng xử lý công việc chuyên nghiệp" mà GPT-5.2 vốn đã vượt trội, mà còn học hỏi được khả năng của 5.1-Codex-Max trong lập trình tác nhân AI và vận hành thiết bị đầu cuối.

Bằng cách này, sự tiến bộ của nó trở nên rất rõ ràng.

Những cải tiến đáng kể đã được thực hiện trong các lĩnh vực như hiểu ngữ cảnh dài hạn, gọi công cụ, độ chính xác thực tế và nén ngữ cảnh gốc.

Do đó, GPT-5.2-Codex có thể hỗ trợ đáng tin cậy nhiệm vụ lập trình kéo dài và tiết kiệm token trong quá trình suy luận.

Trong các bài kiểm tra chuẩn hàng đầu ngành, 5.2-Codex đã thiết lập kỷ lục mới về hiệu năng tiên tiến nhất (SOTA) trên SWE-Bench Pro và Terminal-Bench 2.0.

So với phiên bản 5.1-Codex, hiệu năng được cải thiện khoảng 6%.

Hai bài kiểm tra này được thiết kế đặc biệt để đánh giá khả năng của tác nhân khi mô hình xử lý nhiệm vụ đa dạng trong hoàn cảnh thiết bị đầu cuối thực tế.

Đồng thời, hiệu năng lập trình agent trong hoàn cảnh Windows gốc đã được cải thiện đáng kể, mở rộng hơn nữa các khả năng được giới thiệu bởi GPT-5.1-Codex-Max.

Nhờ những cải tiến này, Codex có thể hoạt động trong thời gian dài trên các cơ sở mã lớn và luôn duy trì đầy đủ ngữ cảnh của nó.

Điều này có nghĩa là GPT-5.2-Codex có thể hoàn thành một cách đáng tin cậy nhiệm vụ phức tạp như tái cấu trúc quy mô lớn, di chuyển mã và phát triển tính năng.

Ngay cả khi kế hoạch được điều chỉnh hoặc các nỗ lực thất bại trong quá trình thực hiện, nó vẫn có thể tiếp tục được cải tiến mà không mất đi mục tiêu ban đầu.

Hơn nữa, GPT-5.2-Codex còn có "tầm nhìn" mạnh mẽ hơn.

Khi lập trình, bạn có thể gửi trực tiếp ảnh chụp màn hình, sơ đồ kỹ thuật, biểu đồ và nhiều giao diện người dùng khác nhau cho nó, và nó sẽ hiểu chúng chính xác hơn.

Ấn tượng hơn nữa, nó có thể trực tiếp đọc các bản thiết kế nháp và nhanh chóng chuyển đổi chúng thành các nguyên mẫu hoạt động được.

Đồng thời, các nhà phát triển cũng có thể hợp tác với Codex để tinh chỉnh các nguyên mẫu này từng bước cho đến khi chúng sẵn sàng để ra mắt.

Ba bước tiến lớn: Trí tuệ nhân tạo đã "chinh phục" thế giới thực.

Trong một trong đánh giá an ninh mạng cốt lõi của OpenAI, có thể nhận thấy rõ ràng "sự tiến bộ vượt bậc về năng lực theo thời gian".

GPT -5-Codex đã mang lại sự cải tiến đáng kể lần.

GPT -5.1-Codex-Max đã mang đến lần thứ hai.

GPT -5.2-Codex đã đạt được bước tiến lần.

OpenAI tin rằng các mô hình AI trong tương lai sẽ tiếp tục phát triển theo xu hướng này.

Khi lập kế hoạch và đánh giá năng lực, họ luôn giả định rằng mỗi thế hệ mô hình đều có tiềm năng đạt đến mức độ "cao" về khả năng an ninh mạng được định nghĩa trong "Khung chuẩn bị".

Tuy nhiên, GPT-5.2-Codex vẫn chưa đạt đến trình độ này.

Vậy, mô hình lập trình tác nhân của OpenAI hoạt động như thế nào trong thế giới thực?

Lỗ hổng bảo mật mức độ cao của React được phát hiện chỉ trong một tuần.

Vào ngày 11 tháng 12, đội ngũ triển React đã tiết lộ ba lỗ hổng bảo mật trong React Server Components.

Sau đó, Andrew MacPherson, kỹ sư trưởng về an ninh tại Privy, một công ty thuộc Stripe, đã quyết định sử dụng lỗ hổng này để "kiểm tra" xem mô hình AI hiện tại thực sự mạnh đến mức nào.

Anh ấy đã sử dụng GPT-5.1-Codex-Max+Codex CLI, cùng với các tác nhân lập trình khác, và thật bất ngờ, trong quá trình tái tạo và nghiên cứu lỗ hổng, anh ấy đã phát hiện ra một lỗ hổng nghiêm trọng trong React.

Quy trình thực hành cụ thể như sau:

Ban đầu, ông đã lần thử phân tích học không cần dữ liệu huấn luyện, trực tiếp cho phép mô hình kiểm tra các bản vá và xác định loại lỗ hổng mà chúng đã khắc phục, nhưng không thành công.

Sau đó, ông chuyển sang phương pháp nhắc nhở thường xuyên hơn, lặp đi lặp lại; khi phương pháp này vẫn thất bại, ông hướng dẫn Codex hoạt động theo các quy trình bảo mật phòng thủ tiêu chuẩn—thiết lập hoàn cảnh thử nghiệm cục bộ, phân tích các bề mặt tấn công tiềm tàng và đưa dữ liệu đầu vào bất thường vào hệ thống thông qua kỹ thuật fuzzing.

Trong nỗ lực tái hiện sự cố React2Shell ban đầu, Codex đã phát hiện ra một số hành vi bất thường cần được điều tra thêm.

Cuối cùng, chỉ trong vòng một tuần, quy trình này đã dẫn đến việc phát hiện ra một lỗ hổng bảo mật chưa từng được biết đến trước đây, và sau đó lỗ hổng này đã được tiết lộ một cách có trách nhiệm cho đội ngũ React.

Trường hợp này chứng minh rõ ràng cách các hệ thống AI tiên tiến có thể đẩy nhanh đáng kể quá trình nghiên cứu an ninh phòng thủ trong các phần mềm thực tế, được sử dụng rộng rãi.

Kiểm thử người dùng

Một nhà phát triển đã thử nghiệm một chương trình được viết bằng GPT-5.2-Codex để mô phỏng hoạt động của các phương tiện và đèn giao thông trên đường, nhưng chương trình đã thất bại.

Tuy nhiên, một số người cho rằng rằng nó có hiệu ứng hoạt hình tinh tế tương tự như Gemini 3 Flash và Pro.

GPT-5.2-Codex đã thể hiện xuất sắc trong việc tạo ra một trận đấu Counter-Strike.

Tóm lại, OpenAI cho rằng rằng việc phát hành GPT-5.2-Codex là một bước tiến lớn nữa cho trí tuệ nhân tạo trong phát triển phần mềm thực tiễn và an ninh mạng.

Nó cho phép các nhà phát triển dễ dàng xử lý nhiệm vụ phức tạp và tốn thời gian, đồng thời cung cấp hỗ trợ công cụ tốt hơn cho nghiên cứu an ninh mạng.

Tham khảo:

https://openai.com/index/introducing-gpt-5-2-codex/

https://openai.com/index/gpt-5-2-codex-system-card/

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Zhiyuan" , tác giả: New Zhiyuan, biên tập viên: Peach is sleepy, được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan