Ultraman vừa phát hành GPT-5.4, và cư dân mạng bình luận: "Một lời chào đơn giản thôi mà đã tốn đến 80 đô la."

Bài viết này được dịch máy
Xem bản gốc

Lần bạn mở một công cụ AI, có lẽ bạn phải suy nghĩ một chút: mình nên sử dụng mô hình nào cho nhiệm vụ này? Viết mã là một chuyện, tìm kiếm thông tin lại là chuyện khác, và việc để AI hỗ trợ bạn vận hành máy tính lại đòi hỏi phải mở thêm một cửa sổ khác.

Sau ngày hôm nay, cảm giác chia rẽ này cuối cùng cũng đã có lời giải đáp.

Mới đây, OpenAI đã chính thức phát hành GPT-5.4, tích hợp lập trình, suy luận, điều khiển máy tính, tìm kiếm trên web và ngữ cảnh Million Tokens vào một mô hình duy nhất mà không làm mất đi bất kỳ khả năng nào trong số đó vì mục đích tích hợp.

CEO của OpenAI, Sam Altman, cũng đã đăng một dòng tweet ngắn về nền tảng X, nêu bật năm lĩnh vực: công việc tri thức mạnh mẽ hơn, tìm kiếm trên web tốt hơn, điều khiển máy tính trực tiếp, hỗ trợ hàng triệu ngữ cảnh mã thông báo và khả năng can thiệp bất cứ lúc nào trong quá trình phản hồi.

Vài từ ngắn gọn này đã chỉ ra chính xác năm vấn đề nổi bật nhất trong việc ứng dụng trí tuệ nhân tạo trong hai năm qua.

Công việc đòi hỏi kiến ​​thức chuyên môn: Lần trên mười lần , trí tuệ nhân tạo (AI) vượt trội hơn các chuyên gia.

Để hiểu được những tiến bộ của GPT-5.4 trong công việc trí tuệ, trước tiên cần phải hiểu logic thiết kế của chuẩn GDPval.

Nó bao gồm 44 ngành nghề thuộc chín lĩnh vực đóng góp nhiều nhất vào GDP của Hoa Kỳ. Nhiệm vụ được mô tả là những công việc thực tế diễn ra hàng ngày tại nơi làm việc: viết mô hình tài chính cho các ngân hàng đầu tư, lên lịch trực ca phòng cấp cứu cho bệnh viện và tạo bài thuyết trình cho đội ngũ bán hàng.

Sau khi hoàn thành nhiệm vụ, kết quả đầu ra sẽ được gửi cho người hành nghề thực tế trong ngành để kiểm tra và chấm điểm một cách khách quan, nhằm xem kết quả của AI có thể vượt trội hơn bao nhiêu phần trăm so với các chuyên gia là con người.

Kết quả đánh giá cho GPT-5.4 là 83,0%, có nghĩa là trong hơn lần lần lần so sánh, các chuyên gia trong ngành cho rằng năng lực của AI đã đạt hoặc vượt qua trình độ của con người. Thế hệ trước, GPT-5.2, đạt điểm số 70,9%, chênh lệch gần 13 điểm phần trăm.

Sự tiến bộ thể hiện rõ nhất trong mô hình hóa bảng tính. GPT-5.4 mô phỏng một nhà phân tích ngân hàng đầu tư cấp dưới hoàn thành nhiệm vụ mô hình hóa, với điểm trung bình là 87,3%, so với 68,4% của GPT-5.2 và 79,3% của GPT-5.3-Codex, chênh lệch gần 20 điểm phần trăm.

Kết quả bài kiểm tra BigLaw Bench của Harvey cũng rất ấn tượng, với điểm GPT-5.4 là 91%, và công ty này cũng đứng đầu trong bảng xếp hạng APEX-Agents của Mercor.

Độ chính xác cũng là một mối quan ngại. Vấn đề ảo giác luôn là trở ngại lớn nhất khiến AI khó được sử dụng trong môi trường chuyên nghiệp, và mỗi phần trăm giảm thiểu đều đồng nghĩa với việc nó có thể được sử dụng an toàn hơn trong nhiều tình huống hơn.

Dữ liệu cho thấy so với GPT-5.2, GPT-5.4 có xác suất mắc lỗi trong một câu trả lời đơn lẻ thấp hơn 33% và xác suất mắc lỗi trong toàn bộ câu trả lời thấp hơn 18%.

Lập trình: Một mô hình duy nhất, bao gồm toàn bộ việc viết mã và kiểm thử.

GPT-5.4 tích hợp các khả năng lập trình của GPT-5.3-Codex vào nhánh chính. Đối với các nhà phát triển, điều này có nghĩa là bạn không cần phải tạo một mô hình riêng biệt để viết mã nữa, và bản thân các khả năng lập trình không bị ảnh hưởng theo bất kỳ cách nào.

SWE-Bench Pro được thiết kế đặc biệt để kiểm tra nhiệm vụ kỹ thuật phần mềm thực tế. Nó đạt 57,7% trên GPT-5.4, 56,8% trên GPT-5.3-Codex và 55,6% trên GPT-5.2. Sau khi tích hợp, điểm lập trình thực tế còn tăng lên, đồng thời có thêm một loạt các khả năng đa dụng như điều khiển máy tính, khiến việc tìm ra bất kỳ điểm yếu rõ ràng nào gần như là không thể.

Sau khi dùng thử, blogger chuyên đánh giá AI có tiếng Dan Shipper đã viết: "Đây là khả năng lập kế hoạch tốt nhất mà chúng tôi từng thấy từ OpenAI trong thời gian gần đây. Quá trình xem xét mã cũng rất mạnh mẽ, và chi phí chỉ bằng khoảng một nửa so với Opus."

Ông ấy đã chỉ ra hai khía cạnh cụ thể. Thứ nhất, khả năng lập kế hoạch rất quan trọng đối với sự thành công của nhiệm vụ, và GPT-5.4 được tổ chức tốt hơn đáng kể trong việc phân chia nhiệm vụ và tiến độ liên tục. Thứ hai, so với Claude Opus, giá của nó chỉ bằng khoảng một nửa; đối với các nhà phát triển cần thực hiện các cuộc gọi API quy mô lớn, sự khác biệt này sẽ rất đáng chú ý trên hóa đơn.

Việc kích hoạt chế độ /fast trong Codex có thể tăng tốc độ tạo token của GPT-5.4 lên đến 1,5 lần, cho phép người dùng duy trì quy trình làm việc trơn tru trong quá trình lập trình, lặp lại và gỡ lỗi.

Đồng thời, tính năng thử nghiệm mới được giới thiệu, Playwright Interactive, đưa trải nghiệm lập trình của GPT-5.4 lên một tầm cao mới.

GPT-5.4 cho phép gỡ lỗi thời gian thực thông qua trình duyệt trực quan khi xây dựng các ứng dụng web hoặc Electron. Mô hình này có thể viết mã và kiểm thử ứng dụng đang xây dựng cùng lúc, đồng thời đảm nhiệm cả nhân vật của nhà phát triển và người kiểm thử.

OpenAI đã giới thiệu một ví dụ điển hình: chỉ với một lệnh đơn giản, GPT-5.4 đã tạo ra một trò chơi mô phỏng công viên giải trí hoàn chỉnh theo góc nhìn isometric, bao gồm hệ thống xây dựng đường đi và điểm tham quan dựa trên ô vuông, hệ thống điều hướng và xếp hàng của khách tham quan được hỗ trợ bởi AI, và một hệ thống chấm điểm toàn diện được cập nhật động theo thời gian thực dựa trên bốn chỉ báo: kinh phí, số lượng khách tham quan, mức độ hài lòng và độ sạch sẽ.

Playwright Interactive đã thực hiện nhiều vòng kiểm thử tự động trong suốt quá trình, xác minh tính chính xác của việc bố trí đường đi, điều hướng camera, phản hồi của người dùng và chỉ báo giao diện người dùng. Từ việc viết mã đến kiểm thử và nghiệm thu, mô hình đã hoàn thành toàn bộ quy trình một cách tự động.

Blogger Angel cũng đã tạo ra một bản sao Minecraft bằng GPT-5.4. Mô hình mất khoảng 24 phút để xây dựng và chạy mượt mà mà không gặp sự cố nào. Anh ấy đã tweet, "Minecraft về cơ bản đã bị bẻ khóa. Giờ tôi cần tìm một bài kiểm tra mới."

Giáo sư Ethan Mollick của trường Wharton cũng được tiếp cận sớm với phần mềm này. Sử dụng cùng một lệnh, ông đã dùng GPT-5.4 Pro để tạo ra một cảnh 3D lấy cảm hứng từ Piranesi, mà không gặp bất kỳ lỗi nào, chỉ thêm lệnh "Hãy làm cho nó tốt hơn". Sau đó, ông đặt kết quả cạnh một phiên bản được tạo ra bởi GPT-4 hai năm trước đó, và sự khác biệt đã hiện rõ ngay lập tức.

Nó điều khiển máy tính giỏi hơn bạn hiện tại.

Đây là thay đổi đáng chú ý nhất trong lần GPT-5.4. Trước đây, khả năng thao tác máy tính của OpenAI là một mô-đun riêng biệt, với sự tách biệt rõ ràng giữa chúng và khả năng hiểu ngôn ngữ cũng như tạo mã của mô hình.

Hai hệ thống trước đây hoạt động độc lập, đòi hỏi phải truyền tải thông tin qua lại, điều này đương nhiên làm giảm hiệu quả. Giờ đây, khi sự tách biệt này không còn, GPT-5.4 sử dụng khả năng suy luận của chính mô hình để điều khiển máy tính, loại bỏ sự cần thiết phải thực hiện phương pháp gián tiếp.

Đây cũng là sản phẩm đầu tiên của OpenAI tích hợp trực tiếp khả năng sử dụng máy tính vào một mô hình tổng quát, và tôi tin rằng đây sẽ là một điểm khởi đầu mới cho các cuộc thảo luận trong tương lai về các tác nhân AI.

Kết quả kiểm tra hiệu năng cho thấy các bài kiểm tra hiệu năng được OSWorld xác nhận chứng minh khả năng điều hướng trên màn hình nền, cho phép người dùng hoàn thành nhiệm vụ hệ điều hành thực tế bằng cách sử dụng ảnh chụp màn hình và tương tác chuột/bàn phím. GPT-5.4 đạt tỷ lệ thành công 75,0%, so với 72,4% của con người và 47,3% của GPT-5.2.

Tóm lại, nó không chỉ bắt kịp con người mà còn vượt qua họ.

Trong bài kiểm tra hiệu năng Online-Mind2Web, chỉ sử dụng chế độ chụp màn hình để kiểm tra khả năng điều khiển trình duyệt, GPT-5.4 đạt được 92,8%, trong khi mục tiêu so sánh, ChatGPT Atlas, đạt 70,9% ở Chế độ Agent.

Các ví dụ triển khai thực tế đã chứng minh điều đó. Mainstay đã sử dụng GPT-5.4 để tự động điền biểu mẫu trên khoảng 30.000 cổng thông tin thuế bất động sản, đạt tỷ lệ thành công lần đầu tiên là 95% và tỷ lệ thành công trong ba lần thử đầu tiên là 100%, so với chỉ 73% đến 79% đối với các mô hình tương tự trước đây. Tốc độ hoàn thành phiên tăng lên khoảng ba lần và mức tiêu thụ token giảm khoảng 70%.

Điều này không thể tách rời khỏi sự cải thiện khả năng nhận thức thị giác. Điều khiển máy tính suy cho cùng là về việc "nhìn rõ" - nhìn rõ những gì trên giao diện, vị trí các nút bấm và liệu nhấn có chính xác hay không.

GPT-5.4 đã thực hiện những cải tiến cụ thể cho lớp này, giới thiệu chế độ nhập ảnh gốc hỗ trợ nhập ảnh độ phân giải cao với chiều dài cạnh tối đa là 10,24 triệu pixel hoặc 6.000 pixel; giới hạn trên của chế độ cao gốc cũng đã được tăng từ tiêu chuẩn trước đó lên chiều dài cạnh tối đa là 2,56 triệu pixel hoặc 2.048 pixel.

Sử dụng công cụ và tìm kiếm trên web: Tính bền vững là yếu tố cạnh tranh cốt lõi

Một hệ thống AI Agent phức tạp có thể được hỗ trợ bởi hàng chục công cụ MCP. Trước đây, phương pháp là nhồi nhét tất cả mô tả công cụ vào hệ thống trước khi lần cuộc hội thoại bắt đầu, bất kể lần có được sử dụng hay không, và ưu tiên sử dụng token trước.

GPT-5.4 áp dụng một cách tiếp cận khác: trước tiên, nó cung cấp cho mô hình một danh sách công cụ đơn giản (tức là, nó giới thiệu cơ chế tìm kiếm công cụ). Khi một công cụ thực sự cần thiết, mô tả chi tiết của nó sẽ được truy xuất. Các công cụ đã được sử dụng một lần có thể được lưu vào bộ nhớ đệm trực tiếp để không cần phải truy xuất lại lần.

Trong một thử nghiệm với 250 nhiệm vụ, sử dụng cấu hình đầy đủ 36 máy chủ MCP, chế độ tìm kiếm của công cụ đã giảm tổng lượng token tiêu thụ xuống 47% trong khi vẫn duy trì độ chính xác tương tự. Chi phí đã được tiết kiệm gần một nửa mà không làm giảm độ chính xác.

Trong tìm kiếm trên web, GPT-5.4 đạt 82,7% trên chuẩn BrowseComp, cao hơn 17 điểm phần trăm so với 65,8% của GPT-5.2, trong khi phiên bản Pro đạt 89,3%, lập kỷ lục mới trong ngành. Giám đốc điều hành của Zapier nhận xét rằng GPT-5.4 tiếp tục tìm kiếm ngay cả khi các mô hình khác bỏ cuộc, khiến nó trở thành mô hình kiên trì nhất mà họ từng thử nghiệm.

Ngữ cảnh Triệu Token: rất ...

GPT-5.4 hỗ trợ cửa sổ ngữ cảnh với tối đa 1 triệu token trong API của nó, điều này có nghĩa là tất cả các tài liệu liên quan cho một dự án hoàn chỉnh có thể được đưa vào cùng một cuộc hội thoại lần.

Tuy nhiên, dựa trên kết quả thử nghiệm, dải tần từ 128K đến 272K là dải tần ổn định nhất và phù hợp cho việc sử dụng hàng ngày.

Độ chính xác bắt đầu giảm khi vượt quá 256K, đòi hỏi phải kiểm định cho nhiệm vụ cụ thể trước khi sử dụng. Điểm số trong phạm vi từ 512K đến 1M giảm xuống còn 36,6%, hiện đang ở giai đoạn thử nghiệm và chưa phù hợp để sử dụng trực tiếp trong nhiệm vụ sản xuất đòi hỏi độ chính xác cao.

Một vấn đề chi phí thực tế khác cần lưu ý là các yêu cầu vượt quá 272K sẽ được tính vào hạn mức với tốc độ sử dụng gấp đôi. Nói cách khác, việc gửi một yêu cầu với ngữ cảnh quá dài sẽ tiêu tốn lượng hạn mức tương đương với lần yêu cầu thông thường. Bạn nên cân nhắc kỹ xem mình có thực sự cần ngữ cảnh dài như vậy trước khi thực hiện yêu cầu đó hay không.

Đối với bài kiểm tra đánh giá khả năng suy luận trừu tượng trực quan ARC-AGI-2, GPT-5.4 Pro đạt 83,3%, trong khi thế hệ trước đó là GPT-5.2 Pro chỉ đạt 54,2%.

Ví dụ, FrontierMath Tier 4 được công nhận rộng rãi là một trong những chuẩn toán học khó nhất, bao gồm 50 bài toán cấp độ nghiên cứu mà các nhà toán học chuyên nghiệp có thể mất vài tuần để giải. GPT-5.4 Pro đạt 38,0% trên chuẩn này, so với 31,3% của phiên bản tiền nhiệm.

Mức chuẩn để đánh giá con số này là: một năm trước, kết quả tốt nhất là 2% của o3, và mô hình mã nguồn mở tốt nhất hiện nay là 4,2%.

Blogger Deedy đã đăng tải trên Twitter rằng sự tăng vọt từ 2% lên 38% là "đơn giản là đáng kinh ngạc". Với sự hỗ trợ của các công cụ, Humanity's Last Exam đạt 58,7% với GPT-5.4 Pro và 50,0% với GPT-5.2 Pro, chênh lệch gần 9 điểm phần trăm.

Điều chỉnh trong quá trình thực hiện, không phải làm lại sau khi hoàn thành.

Bất cứ ai từng sử dụng AI để xử lý nhiệm vụ dài có lẽ đều đã trải qua trải nghiệm này: sau khi mô hình chạy xong một đoạn dài, bạn nhận ra rằng nó đang đi sai hướng và bạn phải bắt đầu lại từ đầu, lãng phí toàn bộ thời gian của mình.

GPT-5.4 Thinking giới thiệu tính năng "gián đoạn" mới trong ChatGPT: trước khi giải quyết nhiệm vụ phức tạp, mô hình sẽ trình bày phác thảo kế hoạch công việc và sau đó bắt đầu thực hiện. Người dùng có thể can thiệp bất cứ lúc nào trong quá trình thực hiện để điều chỉnh hướng đi, mà không cần phải chờ kết quả và bắt đầu lại từ đầu.

Tính năng này chuyển trạng thái quá trình chỉnh sửa từ "đã hoàn thành" sang "đang tiến hành", tạo ra sự khác biệt rõ rệt trải nghiệm đối với nhiệm vụ yêu cầu nhiều vòng cộng tác. Tính năng này hiện ra mắt trên chatgpt.com và ứng dụng Android, phiên bản iOS sẽ sớm ra mắt.

Bắt đầu từ hôm nay, GPT-5.4 đã có sẵn cho người dùng ChatGPT Plus, Team và Pro, thay thế GPT-5.2 Thinking làm mô hình tư duy mặc định.

GPT-5.2 Thinking sẽ được giữ lại cho đến khi chính thức ngừng hoạt động vào ngày 5 tháng 6 năm nay. Người dùng gói Enterprise và Edu có thể được quản trị viên kích hoạt quyền truy cập sớm. GPT-5.4 Pro chỉ dành cho các gói Pro và Enterprise.

API tiêu chuẩn có giá 2,50 đô la cho mỗi triệu token đầu vào, 0,25 đô la cho mỗi triệu token đầu vào được lưu vào bộ nhớ cache và 15 đô la cho mỗi triệu token đầu ra. Phiên bản Pro có giá 30 đô la cho mỗi triệu token đầu vào và 180 đô la cho mỗi triệu token đầu ra. Xử lý theo lô và xử lý linh hoạt được cung cấp với giá bằng một nửa giá tiêu chuẩn, trong khi xử lý ưu tiên có giá gấp đôi giá tiêu chuẩn.

Tất nhiên, khả năng suy luận mạnh mẽ cũng có những mặt hạn chế. Đồng sáng lập Hyperbolic, Justin Jin, đã phàn nàn trên nền tảng X rằng GPT-5.4 Pro là mẫu máy mà anh ấy thích "suy nghĩ quá mức" nhất — nó bắt đầu suy luận nghiêm túc chỉ sau một câu "Chào" đơn giản, đốt hết 80 đô la.

Đây không phải là trường hợp cá biệt. Bản chất của các mô hình suy luận cho thấy chúng có xu hướng tư duy độ sâu khi xử lý bất kỳ dữ liệu đầu vào nào, ngay cả khi bản thân vấn đề không yêu cầu điều đó. Đối với nhiệm vụ thông thường, nhẹ nhàng, phiên bản tiêu chuẩn có thể là lựa chọn phù hợp hơn; nên dành khả năng suy luận của phiên bản Pro cho những tình huống thực sự quan trọng.

Trong hai năm qua, các cuộc thảo luận về khả năng của trí tuệ nhân tạo chủ yếu tập trung vào "sự thông minh" của điểm số bài kiểm tra chuẩn, nhưng sự thông minh của GPT-5.4 đề cập đến khả năng đảm nhận trách nhiệm một cách đáng tin cậy trong các quy trình làm việc thực tế.

Trước đây, trí tuệ nhân tạo (AI) chỉ có thể xuất ra văn bản, và con người vẫn cần thao tác thủ công để nó hoạt động. Giờ đây, mô hình có thể tự động mở trình duyệt, điền vào biểu mẫu, nhấn nút và ghi lại kết quả, hoàn thành toàn bộ chu trình nhiệm vụ một cách độc lập.

Trí tuệ nhân tạo (AI) đang chuyển mình từ một hệ thống giỏi trả lời câu hỏi thành một hệ thống giỏi hoàn thành nhiệm vụ. Và sự chuyển đổi này đang diễn ra nhanh hơn nhiều so với dự đoán của hầu hết mọi người.

Địa chỉ tham khảo đính kèm:

https://openai.com/index/introducing-gpt-5-4/

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , do APPSO - đơn vị khám phá các sản phẩm của tương lai - chấp bút và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
67
Thêm vào Yêu thích
17
Bình luận