Với sự ra mắt của GPT-5.4, liệu các khả năng của OpenClaw có bị thay thế? Mô hình mới của OpenAI giờ đây có thể tự sử dụng máy tính và thậm chí còn sở hữu đầy đủ khả năng lập trình.

Bài viết này được dịch máy
Xem bản gốc

Hôm nay, GPT-5.4 đã được phát hành, và OpenAI quen thuộc đã trở lại.

GPT-5.4 là một mô hình tiên tiến mới tích hợp những tiến bộ của OpenAI trong khả năng suy luận (GPT-5.2), khả năng lập trình cấp cao (GPT-5.3-Codex) và khả năng sử dụng máy tính gốc vào một phiên bản duy nhất.

Phiên bản lần có ý nghĩa rất quan trọng. Việc nó cung cấp "khả năng vận hành máy tính nguyên bản" đã đủ gây ấn tượng. Khi kết hợp với các khả năng kiến ​​thức chuyên môn hàng đầu, cửa sổ ngữ cảnh với 1 triệu mã thông báo và hiệu quả công cụ được cải thiện đáng kể, nó thể hiện một bước tiến vượt bậc về khả năng dành cho bất kỳ ai muốn làm việc với AI, cộng tác với AI hoặc xây dựng hệ thống dựa trên AI.

Liệu GPT-5.4 có đang chiếm mất điểm truy cập của OpenClaw không?

Thay đổi lớn nhất trong mô hình mới này là sự xuất hiện của khả năng vận hành máy tính gốc. OpenAI tuyên bố rằng GPT-5.4 là "mô hình đa năng đầu tiên của họ với khả năng vận hành máy tính gốc".

Trên bài kiểm tra đánh giá hiệu năng máy tính OSWorld Verified, độ chính xác đã cải thiện từ 47,3% lên 75%, trong khi độ chính xác của BrowseComp cải thiện từ 65,8% lên 82,7%.

Đây không chỉ đơn thuần là "chạy một vài lệnh shell". Ý nghĩa thực sự của nó nằm ở chỗ nó có thể truy cập vào màn hình nền của bạn, truy cập các trang web và về cơ bản thực hiện nhiều việc trên máy tính mà trước đây chỉ con người mới làm được, và thường là những việc chúng ta không thể làm thông qua phiên bản web của ChatGPT.

Đặc biệt, các sản phẩm như OpenClaw đột nhiên trở nên vô cùng phổ biến trong những tháng, thậm chí chỉ vài tuần gần đây, chủ yếu là vì chúng đã thay đổi cách chúng ta sử dụng các mô hình AI. Trước đây, chúng ta chủ yếu tương tác với các mô hình thông qua các ứng dụng web, với rất ít sự tham gia thực tế trên máy tính cá nhân. Nhưng giờ đây, điều này đã thay đổi một cách cơ bản.

Từ những ví dụ do OpenAI cung cấp, chúng ta có thể thấy rằng GPT-5.4 có thể sử dụng máy tính một cách thành thạo, bao gồm xem ảnh chụp màn hình giao diện người dùng trình duyệt, nhấn giao diện, gửi email và lên lịch các sự kiện trên lịch.

Một tính năng thử nghiệm mới khác, "Playwright (Interactive)", cho phép Codex thực hiện gỡ lỗi trực quan theo thời gian thực cho các ứng dụng web và Electron, và thậm chí kiểm tra chúng trực tiếp trong khi xây dựng ứng dụng—tất cả nhờ vào khả năng vận hành máy tính gốc của nó.

Nhà nghiên cứu SQ Mah của OpenAI cho biết điều này chủ yếu được hỗ trợ bởi hai khả năng chính: CUA (sử dụng máy tính) và khả năng tạo ra các trang web chất lượng cao từ dữ liệu hình ảnh đầu vào.

So với GPT-5.3 Codex, GPT-5.4 không còn yêu cầu khởi chạy một hoàn cảnh hoàn toàn mới để thực hiện các thao tác khi sử dụng CUA. Trong các trò chơi 3D, CUA sẽ tự động nhấn giao diện trò chơi, di chuyển các quân cờ và thậm chí xác minh xem các quy tắc có được áp dụng chính xác hay không thông qua các thao tác thực tế.

Trong kịch bản tạo website, mô hình gọi công cụ tạo ảnh để tạo hình ảnh, sau đó sử dụng CUA để kiểm tra kết quả: nó mở các hình ảnh đã tạo, kiểm tra nội dung hình ảnh, mở trang web để xem xét, và sau đó so sánh chúng cạnh nhau để đảm bảo rằng trang web được tạo ra càng giống với hình ảnh đầu vào càng tốt.

SQ Mah cũng nhấn mạnh rằng, thông qua CUA bền bỉ, họ nhận thấy rằng trong một số trường hợp mà các mô hình tự kiểm chứng hoạt động của mình, việc sử dụng token thực tế giảm đi hai phần ba.

Trên thực tế, OpenAI đã khởi động CUA từ tháng 1 năm ngoái, nhưng do lo ngại về vấn đề bảo mật và độ chính xác, dự án này đã không được coi trọng.

Thậm chí, có lúc người ta còn tự hỏi liệu OpenAI đã từ bỏ phương pháp này hay chưa. Đặc biệt là trong giai đoạn các dự án như GPT-40 thu hút gần như toàn bộ sự chú ý, CUA về cơ bản đã "biến mất".

Họ đã từ bỏ dự án này rồi sao? Hoàn toàn không có thông tin gì về nó cả. Thực ra tôi đã sử dụng Azure/OpenAI, một nền tảng đã ở giai đoạn thử nghiệm vài tháng nay. Mặc dù tôi đã nộp đơn nhưng vẫn chưa được chấp thuận.

So với sự chú ý rầm rộ dành cho các dự án như GPT-4o, CUA hầu như biến mất. Hơn nữa, nó vẫn đang trong giai đoạn thử nghiệm, nghĩa là quyền truy cập bị hạn chế nghiêm ngặt, và nhiều người thậm chí không thể dùng thử... Tuy nhiên, tôi không cho rằng cách tiếp cận này đã thất bại. Một khi giải pháp "ưu tiên trình duyệt" thực sự hoàn thiện về tính ổn định, khả năng hoạt động bí mật và các cơ chế bảo mật tích hợp, nó hoàn toàn có thể trở thành một bước tiến lớn trong quy trình làm việc của các tác nhân.

Tuy nhiên, xét từ bản phát hành GPT-5.4 ngày hôm nay, tình hình rõ ràng đã thay đổi. OpenAI không chỉ đưa khả năng này trở lại vị trí hàng đầu mà còn phát hành một số ứng dụng mẫu CUA mới trên GitHub.

CUA cho phép ChatGPT 5.4 sử dụng trực tiếp máy tính của chúng ta, điều này rất giống với cách tiếp cận của OpenClaw: về cơ bản, mọi người đều đang cạnh tranh cho cùng một điểm truy cập—cho phép AI sử dụng trực tiếp máy tính, không còn bị giới hạn bởi API và cửa sổ trò chuyện. Tuy nhiên, so với các khung sử dụng máy tính như OpenClaw được xây dựng bên ngoài mô hình, GPT-5.4 có cách tiếp cận trực tiếp hơn: nó tích hợp sẵn các khả năng vận hành máy tính vào mô hình.

Khi các mô hình này bắt đầu "vượt mặt" các dự án mã nguồn mở như OpenClaw, các công ty có doanh thu hàng năm lên đến hàng chục triệu, hàng trăm triệu, hoặc thậm chí hàng tỷ đô la có thể dễ dàng tạo ra các phiên bản OpenClaw của riêng họ—an toàn hơn, nhanh hơn và đáng tin cậy hơn. Do đó, đây thực sự là một giai đoạn thú vị về khả năng của Trí tuệ Nhân tạo Tác nhân (Agentic AI).

Một mặt là giảm chi phí, mặt khác là giảm bớt ảo tưởng.

Nâng cấp lần rõ ràng là "nhằm phục vụ các nhà phát triển và người dùng chuyên nghiệp", một lý do chính trong đó GPT-5.4 đã giới thiệu tính năng tìm kiếm công cụ: mô hình không còn nhồi nhét toàn bộ định nghĩa của tất cả các công cụ vào ngữ cảnh cùng một lúc (điều này có thể dẫn đến việc tiêu tốn hàng chục nghìn token bổ sung lần yêu cầu), mà thay vào đó chỉ lấy một danh sách gọn nhẹ và truy xuất định nghĩa cụ thể khi cần thiết khi một công cụ được yêu cầu.

Trong bài kiểm tra hiệu năng MCP Atlas của Scale, với 36 máy chủ MCP được kích hoạt và 250 nhiệm vụ được thử nghiệm, cấu hình tìm kiếm công cụ đã giảm tổng lượng token sử dụng xuống 47% mà không ảnh hưởng đến độ chính xác. Đối với các nhà phát triển xây dựng hệ thống tác nhân quy mô lớn, điều này gần như tương đương với chi phí thấp hơn và thời gian phản hồi nhanh hơn.

Vấn đề ảo giác cũng đã giảm đáng kể. Theo OpenAI, GPT-5.4 ít mắc lỗi hơn trong các phát biểu thực tế riêng lẻ so với GPT-5.2 (xác suất lỗi giảm 33%), và xác suất lỗi tổng thể trong các phản hồi cũng giảm 18% — nâng cấp rất hữu ích cho người dùng chuyên nghiệp, những người dựa vào kết quả chính xác.

Trong khi đó, GPT-5.4 đạt tỷ lệ chính xác 91% trong bộ dữ liệu BigLaw Bench của Harvey.

Kỹ năng lập trình của họ cũng đã được cải thiện.

GPT-5.4 hiện đã trở thành mô hình lập trình chính của OpenAI — trong hầu hết nhiệm vụ, bạn không còn cần phải phân vân giữa ChatGPT và Codex nữa.

Nó hoạt động tương đương hoặc tốt hơn GPT-5.3-Codex trên SWE-Bench Pro, và cũng nhanh hơn, đặc biệt là ở các thiết lập cường độ suy luận thấp hơn. Trong hộp thoại, bạn có thể bắt đầu lập trình ngay lập tức mà không cần chọn thêm bất kỳ tùy chọn nào.

Codex cũng bổ sung chế độ nhanh, mang lại tốc độ tăng lên tới 1,5 lần trên tất cả các mô hình được hỗ trợ. OpenAI cũng nhấn mạnh rằng GPT-5.4 mạnh hơn đáng kể trong nhiệm vụ giao diện người dùng phức tạp, tạo ra các kết quả đầu ra tinh tế hơn, trực quan hơn và nhất quán hơn với tính chính xác về mặt chức năng. Điều này đã được xác nhận bởi phản hồi từ nhiều nhà phát triển.

Nâng cấp tính năng, giá thành cũng nâng cấp.

Trong tài liệu API, OpenAI quy định rằng tên mô hình cho GPT-5.4 Thinking là gpt-5.4, trong khi GPT-5.4 Pro là gpt-5.4-pro. Giá cả như sau:

GPT-5.4:

Đầu vào: 2,50 đô la Mỹ / mỗi 1 triệu token

Lợi nhuận: 15 đô la cho mỗi 1 triệu token

GPT-5.4 Pro:

Đầu vào: 30 đô la Mỹ / cho mỗi 1 triệu token

Lợi nhuận: 180 đô la cho mỗi 1 triệu token

Nhìn chung, so với các mẫu khác hiện có trên thị trường, GPT-5.4 có chi phí vận hành API tương đối cao, như thể hiện trong bảng bên dưới.

Một thay đổi quan trọng khác là trong GPT-5.4, nếu số lượng token đầu vào được yêu cầu vượt quá 272.000, phí sẽ gấp đôi giá thông thường, phản ánh khả năng hỗ trợ ngữ cảnh gợi ý lớn hơn so với các mô hình trước đó.

Trong Codex, giới hạn nén mặc định là 272k token. Giá cao hơn cho ngữ cảnh dài chỉ được kích hoạt khi đầu vào vượt quá 272k. Điều này có nghĩa là các nhà phát triển sẽ không phải trả thêm phí miễn là họ giữ các gợi ý trong phạm vi này; nếu cần ngữ cảnh dài hơn, điều đó có thể đạt được bằng cách tăng giới hạn nén, nhưng chỉ những yêu cầu lớn hơn này mới bị tính phí ở mức cao hơn.

Người phát ngôn của OpenAI cũng cho biết độ dài đầu ra tối đa trong API là 128.000 token, phù hợp với các mô hình trước đó.

Về lý do tại sao GPT-5.4 có giá cơ bản cao hơn, OpenAI giải thích rằng có ba lý do chính:

Nâng cao đáng kể khả năng thực hiện nhiệm vụ phức tạp, bao gồm lập trình, vận hành máy tính, nghiên cứu chuyên sâu, tạo tài liệu nâng cao và sử dụng công cụ;

Sê-Ri các đột phá nghiên cứu xuất phát từ lộ trình công nghệ OpenAI;

Nó hoạt động hiệu quả hơn trong việc suy luận và yêu cầu ít token suy luận hơn để hoàn thành cùng một nhiệm vụ.

Họ cũng nhấn mạnh rằng ngay cả khi tăng giá, GPT-5.4 vẫn có giá thấp hơn nhiều so với các mẫu máy tiên tiến cùng loại.

Liên kết tham khảo:

https://openai.com/zh-Hans-CN/index/computer-using-agent/

https://www.reddit.com/r/OpenAI/comments/1mwc03q/openai_computer_user_agent_cua/

https://venturebeat.com/technology/openai-launches-gpt-5-4-with-native-computer-use-mode-financial-plugins-for

Bài viết này được lấy từ tài khoản chính thức WeChat "InfoQ" , do Tina dịch và được đăng tải với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
89
Thêm vào Yêu thích
19
Bình luận