OpenAI công bố GPT-5.4, và Harness, hệ thống tương tự được Codex sử dụng, đã được phát hành đầy đủ.

avatar
36kr
04-16
Bài viết này được dịch máy
Xem bản gốc

OpenAI vừa âm thầm thực hiện một bước đi khôn ngoan khác.

Mới đây, bộ SDK dành cho Agents đã trải qua quá trình viết lại kiến ​​trúc hoàn toàn .

Công cụ tích hợp sẵn, môi trường thử nghiệm tích hợp sẵn, công cụ hệ thống tập tin cấp độ Codex, cùng với khả năng truy cập chỉ bằng một cú nhấp chuột từ bảy nhà cung cấp môi trường thử nghiệm hàng đầu.

Khi GPT-5.4 ra mắt rầm rộ vào đầu tháng 3 với việc sử dụng trực tiếp trên máy tính, các nhà phát triển đã phàn nàn về một điều gì đó.

Mô hình có thể vận hành máy tính, nhưng việc xác định nơi tác nhân hoạt động và cách đảm bảo nó hoạt động mà không gặp sự cố vẫn đòi hỏi phải xây dựng một khung sườn từ đầu.

Tối nay, OpenAI đã tự mình lấp đầy khoảng trống đó.

Tóm lại, OpenAI lần chuyển đổi Agents SDK của mình từ một "công cụ đồ chơi dành cho chatbot" thành "nền tảng cho các tác nhân chuyên nghiệp".

Lớp điều khiển trung tâm (harness) chịu trách nhiệm điều khiển luồng, gọi mô hình, định tuyến công cụ và tạm dừng/tiếp tục; lớp môi trường ảo (sandbox) chịu trách nhiệm đọc và ghi tệp, cài đặt các thư viện phụ thuộc và chạy mã, với hai lớp hoàn toàn tách biệt nhau.

Điều tàn khốc hơn nữa là đòn giáng này cũng ảnh hưởng đến các framework agent của bên thứ ba như LangChain, CrewAI và LangGraph.

OpenAI đã xây dựng lớp cơ sở hạ tầng, khiến cho không gian dành cho bên thứ ba trở nên hạn chế hơn đáng kể.

Từ "Đồ chơi Chatbot" đến đế sản xuất chất lượng cao

Trước khi thảo luận về nâng cấp lần , chúng ta cần hiểu SDK Agents ban đầu trông như thế nào.

Vào tháng 3 năm 2025, OpenAI lần ra mắt Agents SDK, nhấn mạnh tính nhẹ nhàng, ít trừu tượng và khả năng chạy chỉ với một vài dòng mã Python.

Tuy nhiên, phiên bản SDK này chủ yếu được thiết kế cho các kịch bản chatbot.

Hơn một năm đã trôi qua, và khả năng của mô hình đã được cải thiện đáng kể—nó có thể hoạt động liên tục trong nhiều giờ, nhiều ngày, hoặc thậm chí nhiều tuần.

Bộ SDK ban đầu được thiết kế cho chatbot hiện đã lỗi thời.

Việc viết lại lần chủ yếu liên quan đến hai điều.

Điều đầu tiên cần làm là trang bị cho mô hình một khung vận hành hoàn chỉnh — hệ thống dây dẫn.

Bộ nhớ dựa trên cấu hình, điều phối nhận biết môi trường sandbox, các công cụ hệ thống tệp giống Codex, gọi công cụ thông qua MCP, tiết lộ thông tin dần dần thông qua các kỹ năng, hướng dẫn tùy chỉnh thông qua AGENTS.md, thực thi mã thông qua các công cụ shell và chỉnh sửa tệp thông qua các công cụ áp dụng bản vá đều được đóng gói trong SDK để hỗ trợ gốc.

Các nhà phát triển quen thuộc với Claude Code và Codex sẽ thấy danh sách này rất quen thuộc.

Đúng vậy. Lần, OpenAI đã tận dụng những khó khăn và kinh nghiệm tốt nhất mà Codex của họ đã gặp phải và tích lũy được trong năm qua, rồi đưa chúng vào bộ SDK một cách tiện lợi.

Điều thứ hai là phải tách biệt hoàn toàn giữa hệ thống điều khiển và hệ thống tính toán.

Harness hoạt động trong cơ sở hạ tầng đáng tin cậy của bạn, quản lý các lệnh gọi mô hình, phê duyệt, theo dõi và trạng thái thời gian chạy. Compute là một môi trường biệt lập chuyên trách việc đọc và ghi tệp, chạy lệnh, đóng gói và xuất các sản phẩm.

Với các giao diện được tiêu chuẩn hóa giữa hai lớp, Key API và thông tin đăng nhập nhạy cảm sẽ không bao giờ xâm nhập vào hoàn cảnh nơi mã tạo mô hình thực sự được thực thi.

Do đó, môi trường thử nghiệm này không chứa khóa API hay bất kỳ thông tin đăng nhập nhạy cảm nào. Bản thân môi trường thử nghiệm hoàn toàn biệt lập và thậm chí có thể ngắt kết nối khỏi mạng mà không có lưu lượng truy cập ra bên ngoài.

Đây không phải là một sự điều chỉnh nhỏ đối với các tính năng bảo mật. Đây là một sự thay đổi mang tính đột phá trong toàn bộ kiến ​​trúc của Agent.

Hợp đồng bảo hiểm 900 trang, rút%, một nửa chi phí PR đến từ đại lý.

Kết quả đầu tiên của việc tách biệt hệ thống điều khiển/tính toán là bản đồ hệ sinh thái của các nhà cung cấp môi trường thử nghiệm đã được thiết lập chỉ sau một đêm.

Lần, bảy nhà cung cấp môi trường thử nghiệm—Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop và Vercel—đã được đồng thời thêm vào danh sách hỗ trợ chính thức.

Chìa khóa giúp bảy công ty kết nối đồng thời nằm ở việc OpenAI cung cấp một lớp trừu tượng gọi là Manifest — một danh sách cấu hình mô tả không gian làm việc của Agent.

Tệp cấu hình này chỉ định các tệp cục bộ cần gắn kết, nơi lưu trữ đám mây để lấy dữ liệu và nơi ghi các thành phần. Nó bao gồm AWS S3, Google Cloud Storage, Azure Blob Storage và Cloudflare R2.

Quan trọng nhất, bản Manifest này không phụ thuộc vào các nhà cung cấp sandbox cụ thể.

Hôm nay tôi viết một agent sử dụng E2B, và ngày mai tôi muốn chuyển sang Modal. Không cần viết lại mã, chỉ cần thay đổi một dòng cấu hình. Tôi sẽ chuyển sang môi trường thử nghiệm nào rẻ nhất hoặc gần dữ liệu.

Chính thức cung cấp một ví dụ tối thiểu. Nó chạy một tác nhân trong môi trường thử nghiệm cục bộ, đính kèm mục lục báo cáo tài chính và so sánh ba chỉ báo tài chính từ năm tài chính 2025 và năm tài chính 2024. Mã nguồn chính chỉ có chưa đến 20 dòng.

Hai khả năng mới khác đặc biệt quan trọng đối với nhiệm vụ kéo dài là ảnh chụp nhanh và khả năng khôi phục trạng thái , cho phép các vùng chứa sandbox tiếp tục hoạt động từ các điểm kiểm tra ngay cả khi chúng gặp lỗi; và khả năng song song hóa đa sandbox cùng với hoàn cảnh cách ly tác nhân con giúp giải quyết các vấn đề mở rộng .

Như vậy, Agent lần có được khả năng vốn có là "khôi phục sau khi bị ngắt kết nối" và "hoạt động trong các bản sao".

Trong một bài viết kỹ thuật dài, Erik Dunteman, một thành viên của đội ngũ kỹ thuật Modal, đã vô tình tiết lộ một chi tiết—

Ramp đã xây dựng một đội ngũ lớn các chuyên viên lập trình backend sử dụng Modal, và hơn một nửa số yêu cầu kéo (PR) của công ty được tạo ra bởi chính các chuyên viên này.

Hơn nữa, Stripe cũng tiết lộ hồi đầu năm nay rằng hệ thống AI nội bộ của họ tạo ra hơn 1.000 yêu cầu kéo mỗi tuần.

Điểm chung giữa hai công ty là sau khi mua lại cơ sở hạ tầng đại lý hoàn thiện, đội ngũ việc kinh doanh của họ đã chứng kiến ​​sự tăng trưởng năng suất vượt bậc.

Ngày nay, OpenAI đã biến những cơ sở hạ tầng này, vốn trước đây chỉ dành cho các công ty hàng đầu, thành cấu hình mặc định sẵn sàng sử dụng ngay trong bộ SDK của mình.

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

Đáp lại, Giám đốc công nghệ của FurtherAI, Sashank Gondala, tiết lộ rằng các chuyên gia của họ đã trích xuất thành công hơn 900 trang hồ sơ yêu cầu bồi thường bảo hiểm rút tỷ lệ thành công 100%.

Hơn 900 trang, 100% là hồ sơ yêu cầu bồi thường bảo hiểm—ba từ này kết hợp lại truyền tải một giá trị cao mà người hành nghề bảo hiểm kỳ cựu hiểu ngay lập tức. Đây là một trong những tài liệu khó hiểu nhất trong ngành; trước đây, việc nó bị lỗi ở một trang cụ thể là điều khá phổ biến.

Kỹ sư Douglas Adams thuộc bộ phận Nghiên cứu và Phát triển Trí tuệ Nhân tạo của Tomoro đã cung cấp thêm một loạt số liệu cụ thể: đối với các tác nhân có cùng khả năng, lần lượng mã cần thiết đã giảm đi 6 lần so với trước đây.

Carter Rabasa, quản lý quan hệ nhà phát triển của Box, đã cung cấp dữ liệu việc kinh doanh cùng với bash/python làm công cụ, cho phép nhân viên thực hiện quy trình việc kinh doanh hóa đơn hoàn chỉnh trong môi trường thử nghiệm.

Thật bất ngờ, vòng thử nghiệm đầu tiên diễn ra suôn sẻ.

Môi trường thử nghiệm (sandbox) rất phù hợp để chạy mã được tạo ra bởi tác nhân.

OpenAI đang tham gia vào việc phát triển cơ sở hạ tầng, khiến LangChain và các công ty tương tự không còn chỗ nào để trốn tránh.

Ở cấp độ này, tác động thực sự lần đối với ngành công nghiệp trở nên rõ ràng.

Làm thế nào mà các framework tác nhân bên thứ ba như LangChain, LangGraph, CrewAI và AutoGen có thể tồn tại trong năm qua? Câu trả lời là chúng đã lấp đầy khoảng trống trong SDK gốc của OpenAI, giúp nó trở nên "sẵn sàng cho sản xuất".

Điều phối, quản lý bộ nhớ, các biện pháp bảo vệ, theo dõi và hợp tác đa tác nhân là những chiến trường chính dành cho các framework của bên thứ ba.

Hiện nay, OpenAI đã chiếm lĩnh tất cả các chiến trường chính này cùng một lúc.

Những gì họ đang làm là xây dựng lớp cơ sở hạ tầng cho thế giới Agent. Từ đó trở đi, các framework của bên thứ ba sẽ chuyển sang cấp độ cao hơn (điều phối, kịch bản theo chiều dọc) hoặc cấp độ thấp hơn (môi trường thử nghiệm chuyên dụng, công cụ chuyên dụng). Nền tảng ở giữa đã được OpenAI tự mình củng cố.

Hơn nữa, tuyên bố của OpenAI về "khả năng tương thích với tất cả các nhà cung cấp dịch vụ sandbox" bản thân nó là một nỗ lực nhằm đưa các nhà cung cấp sandbox vào hệ sinh thái của OpenAI.

Hôm nay họ có thể là đối tác của OpenAI, nhưng ngày mai họ có thể chỉ đơn giản là một "nhà cung cấp linh kiện" trong hệ sinh thái của OpenAI.

Python đang dẫn đầu, TypeScript vẫn đang xếp hàng chờ.

Mặc dù mọi thứ vẫn chưa hoàn hảo.

Các tính năng mới của harness và sandbox ban đầu chỉ được phát hành bằng Python, phiên bản TypeScript dự kiến ​​sẽ được cập nhật sau; SDK hiện vẫn đang ở phiên bản 0.YZ.

Nhưng hướng đi đã rất rõ ràng rồi.

GPT-5.4 được tích hợp sẵn để sử dụng trên máy tính, và Agents SDK cung cấp cho nó một hoàn cảnh chạy hoàn chỉnh.

Bước tiếp theo đơn giản chỉ là để thêm nhiều lập trình viên xây dựng logic việc kinh doanh trên nền tảng cơ sở hạ tầng này.

Từ thời điểm này trở đi, các công ty khởi nghiệp phát triển khung phần mềm cho tác nhân sẽ đánh giá lại vị thế của mình. Các nhà cung cấp môi trường thử nghiệm sẽ bắt đầu tính toán xem liệu họ có thể xử lý lưu lượng truy cập của OpenAI hay không. Đội ngũ phát triển ứng dụng tác nhân ở lớp việc kinh doanh sẽ xem xét liệu có nên chuyển đổi hay không.

Vào ngày GPT-5.4 được phát hành, một số người mô tả nó là "một nâng cấp thông thường không có gì bất ngờ".

Nhìn lại 40 ngày sau, điều bất ngờ thực sự chỉ đến vào ngày hôm nay.

Tham khảo:

https://techcrunch.com/2026/04/15/openai-updates-its-agents-sdk-to-help-enterprises-build-safer-more-capable-agents/

https://modal.com/blog/building-with-modal-and-the-openai-agent-sdk

https://openai.com/index/the-next-evolution-of-the-agents-sdk/

https://x.com/OpenAIDevs/status/2044466699785920937

https://x.com/snsf/status/2044514160034324793

Bài viết này được lấy từ tài khoản chính thức WeChat "New Zhiyuan" , do Haokun biên tập và được đăng tải với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận