GPT-5.4, mô hình lớn "Agent Native" đã ra mắt?

Bài viết này được dịch máy

Xem bản gốc

Chỉ hai ngày sau khi tin đồn xuất hiện, vào ngày 5 tháng 3 theo giờ địa phương, OpenAI chính thức phát hành GPT-5.4. Bản cập nhật mô hình lần tập trung vào lĩnh vực đang được quan tâm nhất hiện nay: Các tác nhân AI.

Trước GPT-5.4, giới hạn khả năng của các mô hình lớn có thể được tóm gọn trong một câu: chúng có thể cho bạn biết "cách làm", nhưng chúng không thể tự làm được.

Nếu bạn yêu cầu nó phân tích đối thủ cạnh tranh, nó sẽ cung cấp cho bạn một báo cáo dài bằng văn bản; nếu bạn yêu cầu nó sắp xếp một bảng tính Excel, nó sẽ viết một đoạn mã Python để bạn chạy; nếu bạn yêu cầu nó đặt vé máy bay, nó sẽ hướng dẫn bạn từng bước cần truy cập trang web nào và nhấp vào nút nào.

Bức tường ở giữa được gọi là "Vận hành máy tính" .

GPT-5.4 là mô hình đa năng đầu tiên của OpenAI phá vỡ rào cản này.

Những cải tiến của GPT-5.4 so với các mô hình trước đó | Nguồn ảnh: OpenAI

Nó có thể nhận diện nội dung màn hình bằng cách chụp ảnh màn hình, thực hiện các lệnh chuột và bàn phím, và thực thi các quy trình làm việc nhiều bước trên các ứng dụng khác nhau. Theo lời của OpenAI, đây là " mô hình tiên tiến mạnh mẽ và hiệu quả nhất của họ dành cho công việc chuyên nghiệp cho đến nay ".

Về mặt kỹ thuật, GPT-5.4 hỗ trợ cửa sổ ngữ cảnh với tối đa 1 triệu token và có thể gọi các thư viện như Playwright để điều khiển trực tiếp trình duyệt và ứng dụng máy tính để bàn.

Điều này có nghĩa là nó không còn đề cập đến "cuộc đối thoại về nhiệm vụ" nữa, mà tập trung vào "chính nhiệm vụ".

01 Nền tảng của OpenAI

Nếu bạn đã theo dõi các động thái của OpenAI trong vài tháng qua, bạn sẽ thấy rằng GPT-5.4 không phải là một sản phẩm xuất hiện đột ngột, mà là bước đi mới nhất trong một chiến lược rõ ràng.

Chỉ hai tuần trước, OpenAI đã phát hành GPT-5.3-Codex, nâng cấp Codex từ một "Agent có khả năng viết mã" thành một "Agent có thể thực hiện hầu hết mọi thứ mà một nhà phát triển có thể làm trên máy tính", đồng thời thiết lập các tiêu chuẩn ngành mới trên SWE-Bench Pro và Terminal-Bench.

Đồng thời, OpenAI cũng ra mắt nền tảng "Frontier" dành cho doanh nghiệp, trong đó HP, Intuit và Uber đã là những người dùng đầu tiên.

GPT-5.4 thông minh hơn đáng kể so với GPT-5.2 trong việc hoàn thành biểu mẫu | Nguồn ảnh: OpenAI

Trước đó, vào ngày 2 tháng 3, OpenAI và AWS đã mở rộng quan hệ đối tác hiện có trị giá 3,8 tỷ đô la lên hơn 100 tỷ đô la trong vòng tám năm, với việc AWS trở thành nhà phân phối điện toán đám mây bên thứ ba độc quyền cho nền tảng OpenAI Frontier. Quy mô khổng lồ của khoản đầu tư này tự nó đã là một tín hiệu.

Vòng gọi vốn mới nhất trị giá 110 tỷ đô la, được hỗ trợ bởi hàng trăm tỷ đô la từ Amazon, SoftBank và Nvidia, cũng diễn ra cùng thời điểm.

Đây không phải là một công ty "phát triển các sản phẩm tốt", mà là một công ty đang dốc toàn lực để "giành chiến thắng trên thị trường phần mềm trợ lý ảo doanh nghiệp".

Khả năng vận hành máy tính gốc của GPT-5.4 là vũ khí chủ chốt trong giai đoạn phát triển này.

02 Nó có thực sự dễ sử dụng không?

Các màn trình diễn tính năng tại các buổi họp báo luôn trông rất ấn tượng, nhưng vấn đề nằm ở hiệu năng thực tế của chúng.

Công ty Fintech Walleye Capital báo cáo trong các thử nghiệm nội bộ rằng GPT-5.4 đã cải thiện độ chính xác thêm 30 điểm phần trăm trong đánh giá mô hình tài chính Excel, giúp tăng tốc đáng kể quá trình tự động hóa phân tích kịch bản.

Giám đốc điều hành của nền tảng đánh giá năng lực Mercor gọi đây là " mô hình tốt nhất mà chúng tôi từng thử nghiệm ", nhấn mạnh hiệu suất vượt trội của nó trong việc xử lý nhiệm vụ có chu kỳ dài như tạo ra bài thuyết trình, lập mô hình tài chính và phân tích pháp lý.

Một nhà phát triển độc lập sử dụng Codex hàng ngày đã đưa ra đánh giá thực tế hơn: "GPT-5.4 là công cụ tôi sử dụng hàng ngày trong Codex. Cách tư duy của nó gần gũi với con người hơn, và nó không quá chú trọng đến các chi tiết kỹ thuật như phiên bản 5.3." Tuy nhiên, anh ấy cũng đưa ra lời cảnh báo: " Hãy cẩn thận; tôi đã gặp lần trường hợp mô hình thực thi sai nhiệm vụ nhưng lại che giấu điều này ."

Những cải tiến về hoạt động và khả năng nhận diện hình ảnh của GPT-5.4 | Nguồn ảnh: OpenAI

Chi tiết này đáng để suy ngẫm.

Dữ liệu đánh giá hiệu năng cũng xác nhận khả năng được cải thiện này. Theo báo cáo, GPT-5.4 đã vượt trội hơn 83% nhân viên văn phòng trung bình trong bài kiểm tra hiệu năng GDPval . Con số này nghe có vẻ ấn tượng, nhưng câu hỏi thực sự không phải là "nó vượt trội hơn bao nhiêu người", mà là "nó có thể thay thế con người trong nhiệm vụ nào?".

Tuy nhiên, Tiến sĩ Jeff Dalton thuộc Trường Tin học của Đại học Edinburgh cũng chỉ ra một vấn đề thực tế—các cuộc trình diễn hiện tại thiếu bằng chứng đánh giá chi tiết đầy đủ để hỗ trợ những tuyên bố lớn lao đó. Khả năng này là có thật, nhưng ranh giới của nó nằm ở đâu cần được xác minh độc lập thêm.

03 Chiến trường của đặc vụ, không có vùng an toàn.

Nếu GPT-5.4 thể hiện tham vọng về trí tuệ nhân tạo của OpenAI, thì các đối thủ cạnh tranh của họ cũng không hề đứng yên.

Vào tháng 2 năm nay, Claude 3.7 Sonnet của Anthropic ra mắt tính năng "Sử dụng máy tính", định vị nó như một mô hình suy luận lai được thiết kế đặc biệt cho nhiệm vụ phức tạp.

Sê-Ri Gemini 2.0 của Google cũng tiếp tục tập trung vào các khả năng "tự động", với Project Mariner đã có thể thực hiện nhiều thao tác một cách độc lập trong trình duyệt Chrome.

Tuy nhiên, sự khác biệt cơ bản giữa GPT-5.4 và các đối thủ cạnh tranh nằm ở chỗ đây là sản phẩm đầu tiên của OpenAI tích hợp khả năng vận hành máy tính vào một mô hình đa năng — không phải là một công cụ độc lập, không phải là một API yêu cầu các lệnh gọi bổ sung, mà là một khả năng vốn có trong chính mô hình đó.

Về mặt kỹ thuật, "native" (nguyên bản) có nghĩa là độ trễ thấp hơn, chuyển đổi nhiệm vụ mượt mà hơn và ít "mã kết nối" hơn. Đối với các công ty muốn triển khai ứng dụng agent một cách nhanh chóng, sự khác biệt này ảnh hưởng trực tiếp đến chi phí triển khai.

OpenAI cũng thông báo rằng GPT-5.4 có thể kết nối trực tiếp với Microsoft Excel và Google Sheets, cho phép phân tích chi tiết và tự động hóa ở cấp độ ô. Bước này rõ ràng nhắm vào cốt lõi của các quy trình ra quyết định trong doanh nghiệp.

Cuộc chiến giành vị trí chuyên viên tổng đài chưa bao giờ là về việc ai chạy nhanh nhất, mà là về việc ai có thể hòa nhập vào quy trình làm việc của doanh nghiệp trước tiên và trở thành "một nhân tố không thể thiếu".

Các đợt ra mắt sản phẩm công nghệ luôn tràn đầy nhiệt huyết, nhưng thử thách thực sự đến vào ngày thứ 91 – khi sự hào hứng lắng xuống và người dùng mở công cụ trong các tình huống làm việc thực tế. Liệu nó có thể chụp ảnh màn hình một cách đáng tin cậy, nhấp chuột chính xác, hoàn thành nhiệm vụ một cách lặng lẽ và sau đó trả về kết quả hay không?

Lời phát biểu của nhà phát triển về việc "che giấu lỗi" là câu đáng báo động nhất mà tôi thấy trong báo cáo này cho đến nay.

Giới hạn khả năng của trí tuệ nhân tạo không bao giờ nằm ở "những gì nó có thể làm", mà là "liệu bạn có dám tin tưởng nó để làm điều đó hay không" .

Lòng tin mới là thứ tiền tệ thực sự trong cuộc chiến giữa các điệp viên này .

Bài viết này được đăng tải từ tài khoản WeChat công cộng "GeekPark" (ID: geekpark) , tác giả: Hualinwuwang, biên tập viên: Jingyu, với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

BeInCrypto Việt Nam

3 altcoin nên chú ý cuối tuần này | 07 – 08/03

BTC

3.73%

Followin Vietnam

🚨 TIN SHOCK: BlackRock - ông lớn quản lý tài sản thế giới - vừa CHẶN rút tiền!

BeInCrypto Việt Nam

Dubai ra lệnh KuCoin dừng ngay hoạt động sàn giao dịch