GPT-5.5 đã xuất hiện, dẫn đầu toàn bộ bảng xếp hạng và đánh bại Opus 4.7. OpenAI đã lấy lại được danh tiếng của mình đêm nay.

avatar
36kr
04-24
Bài viết này được dịch máy
Xem bản gốc

Thung lũng Silicon thức suốt đêm!

Mới đây, GPT-5.5 đã có màn ra mắt ấn tượng — mô hình chủ lực thế hệ tiếp theo mạnh mẽ và đa năng nhất của OpenAI cho đến nay.

Nó đại diện cho một cấp độ trí tuệ hoàn toàn mới, phát triển thành "bộ não bản địa" của kỷ nguyên Đặc vụ .

Đúng vậy, tựa game "Spud" được mong chờ từ lâu cuối cùng cũng đã ra mắt hôm nay.

Đặc biệt, GPT-5.5 đã đứng đầu trong tất cả các bài kiểm tra hiệu năng!

Dù trong lập trình, suy luận, toán học hay nhiệm vụ của tác nhân thông minh, Claude Opus 4.7 và Gemini 3.1 Pro đều hoàn toàn bị GPT-5.5 vượt trội hơn hẳn.

So với thế hệ trước, tư duy GPT-5.5 là một bước đột phá, tạo ra khoảng cách thế hệ.

Trong bài kiểm tra AAI, với cùng một mã thông báo đầu ra, chỉ số thông minh GPT-5.5 đã dẫn đầu thế giới; nó cũng lập kỷ lục mới về hiệu suất vượt trội trong ARC-AGI-2.

Ultraman không giấu nổi lời khen ngợi, nói rằng, "GPT-5.5 vừa thông minh lại vừa nhanh."

Mỗi token có tốc độ tương đương với GPT-5.4, và số lượng token được sử dụng cho mỗi nhiệm vụ giảm đáng kể.

Nó gần như có thể hiểu chính xác những gì bạn cần làm!

Chủ tịch Greg hào hứng tuyên bố: "Đây là một bước tiến hướng tới một phương thức làm việc hoàn toàn mới với máy tính."

Bắt đầu từ hôm nay, GPT-5.5 ra mắt trên ChatGPT và Codex.

Một vị vua mới của làng lập trình đã xuất hiện, và Opus 4.7 đã bị truất ngôi.

Trước tiên, hãy cùng xem xét lĩnh vực lập trình cốt lõi. GPT-5.5 đã có sự trở lại đầy ấn tượng!

Theo OpenAI, đây là mô hình lập trình tác nhân thông minh mạnh mẽ nhất cho đến nay.

Terminal-Bench 2.0 kiểm tra khả năng của Chuỗi bộ quy trình kỹ thuật tác nhân.

Bài toán cung cấp cho mô hình một hoàn cảnh thiết bị đầu cuối và một mục tiêu không rõ ràng, cho phép nó lập kế hoạch đường đi của riêng mình, gọi các công cụ, viết kịch bản, xử lý lỗi và lặp đi lặp lại.

Tại đây, GPT-5.5 đạt 82,7%, GPT-5.4 đạt 75,1%, còn Claude Opus 4.7 chỉ đạt 69,4%. Chênh lệch 13 điểm phần trăm, một chiến thắng áp đảo.

Bài kiểm tra Expert-SWE nội bộ của OpenAI, chuyên đánh giá nhiệm vụ lập trình chu kỳ dài với thời gian hoàn thành ước tính trung bình của con người là 20 giờ, đã đạt điểm 73,1% cho GPT-5.5, cao hơn cả mức 68,5% của GPT-5.4.

Trong SWE-Bench Pro, một tiêu chuẩn đánh giá ngành được công nhận rộng rãi là chỉ số tốt nhất về khả năng giải quyết vấn đề thực tế trên GitHub, GPT-5.5 đạt 58,6%, thấp hơn một chút so với Claude Opus 4.7 (64,3%).

Tuy nhiên, OpenAI đã thêm dấu sao (*) bên cạnh dữ liệu này, viết rằng: "Anthropic báo cáo dấu hiệu quá khớp (bộ nhớ) trên một số tập con của bài toán."

Nói cách khác, mặc dù Opus 4.7 đạt điểm cao trong bài kiểm tra, tôi nghi ngờ bạn đã học thuộc lòng các đáp án.

Các nhà nghiên cứu của Codex đã thẳng thắn tuyên bố: SWE-Bench không còn là thước đo đáng tin cậy về kỹ năng lập trình hàng đầu nữa.

Quan trọng hơn hết, trong cả ba đánh giá, GPT-5.5 sử dụng ít token hơn nhưng vẫn vượt trội hơn GPT-5.4 trên mọi phương diện.

Khả năng này thậm chí còn thể hiện rõ hơn trong Codex.

Nó có thể hoàn thành toàn bộ nhiệm vụ lập trình, từ triển khai và tái cấu trúc đến gỡ lỗi, kiểm thử và xác minh.

Ví dụ, chúng ta hãy sử dụng GPT-5.5 để tạo một ứng dụng trực quan hóa cho nhiệm vụ không gian Artemis II.

Đầu tiên, hãy gửi ảnh chụp màn hình nhiệm vụ đến GPT-5.5, sau đó yêu cầu triển khai một trình mô phỏng quỹ đạo 3D tương tác sử dụng WebGL và Vite. Dữ liệu quỹ đạo phải đến từ dữ liệu vectơ thực tế từ NASA/JPL Horizons, và nó cũng phải có cơ học quỹ đạo thực tế.

Mô hình GPT-5.5 được lắp ráp hoàn toàn từ đầu; nó có thể xoay được bằng cách kéo chuột, và vị trí tương đối của tàu vũ trụ Orion, mặt trăng và mặt trời đều được căn chỉnh chính xác.

Hãy cho một chiếc xe tăng khác bắn hạ một đĩa bay.

Đề bài yêu cầu bạn tạo một trò chơi bắn UFO bằng Three.js, trong đó người chơi điều khiển một chiếc xe tăng để bắn hạ các đĩa bay trên không. Trò chơi nên có đồ họa "đơn giản nhưng bắt mắt". Trước tiên, hãy cung cấp cấu trúc thư mục hoàn chỉnh và danh sách các tệp cần chỉnh sửa, sau đó viết toàn bộ mã. "Đừng dừng lại cho đến khi hoàn thành."

GPT-5.5 đã được thực thi chính xác như mô tả, từ cấu trúc tệp đến hiển thị bằng Three.js và đánh giá kết quả bắn, cho ra một trò chơi 3D có thể chơi được ngay từ lần đầu tiên.

Trong đấu trường hầm ngục 3D, Codex đảm nhiệm kiến ​​trúc trò chơi, triển khai TypeScript/Three.js, hệ thống chiến đấu, các cuộc chạm trán với kẻ thù và phản hồi HUD.

GPT tạo ra các họa tiết hoàn cảnh, API của OpenAI tạo ra lời thoại nhân vật, còn các mô hình nhân vật, họa tiết và hoạt hình đến từ các công cụ tạo tài sản của bên thứ ba. Một số AI đảm nhiệm các nhiệm vụ riêng biệt, cùng nhau tạo nên một trò chơi nơi bạn có thể chiến đấu với quái vật.

Những người thử nghiệm ban đầu cho biết GPT-5.5 có khả năng hiểu cấu hình hệ thống tốt hơn.

Nó giúp xác định vấn đề nằm ở đâu, cần thêm bản sửa lỗi ở đâu và những phần nào khác trong mã nguồn có thể bị ảnh hưởng.

85% nhân viên của OpenAI đang phát cuồng vì nó; đây mới thực sự là con ngựa chiến của AI.

Ngoài khả năng lập trình, GPT-5.5 còn dữ liệu hiệu suất vượt trội trong "công việc dựa trên kiến ​​thức".

Tóm lại, OpenAI gọi đó là "một loại trí tuệ mới cho công việc thực tế".

Nó có thể hiểu nhanh hơn những gì bạn muốn làm và chuyển đổi giữa các công cụ khác nhau cho đến khi nhiệm vụ hoàn thành.

GDPval đánh giá mức độ trí tuệ nhân tạo (AI) trong việc thực hiện các công việc đòi hỏi kiến ​​thức chuyên môn ở 44 ngành nghề. GPT-5.5 đạt 84,9%, Opus 4.7 đạt 80,3%, và Gemini 3.1 Pro chỉ đạt 67,3%.

Bài kiểm tra OSWorld-Verified đánh giá xem mô hình có thể hoạt động độc lập trong hoàn cảnh máy tính thực tế hay không. GPT-5.5 đạt 78,7%, gần bằng với Opus 4.7 với 78,0%.

Tau2-bench được sử dụng để kiểm tra khả năng của mô hình trong việc xử lý các cuộc hội thoại nhiều lượt, các truy vấn hệ thống và thực thi hành động trong các quy trình dịch vụ khách hàng phức tạp. GPT-5.5 đạt hiệu suất 98,0% mà không cần tinh chỉnh lời nhắc.

Điều thú vị là cách OpenAI tự sử dụng nó. Theo blog chính thức, hơn 85% nhân viên của công ty sử dụng Codex trên khắp các bộ phận mỗi tuần.

Bộ phận quan hệ công chúng đã sử dụng GPT-5.5 để phân tích dữ liệu lời mời phát biểu trong sáu tháng, xây dựng khung chấm điểm và đánh giá rủi ro, đồng thời tự động xử lý các yêu cầu rủi ro thấp thông qua trợ lý AI của Slack.

Bộ phận tài chính đã xem xét 24.771 mẫu đơn thuế K-1, tổng cộng 71.637 trang, sớm hơn hai tuần so với năm ngoái.

Đội ngũ tiếp thị đã triển khai việc tự động tạo báo cáo việc kinh doanh hàng tuần, giúp tiết kiệm từ 5 đến 10 giờ mỗi tuần .

Hiện nay, trong Codex, GPT-5.5 cho phép tương tác trực tiếp với các ứng dụng web để kiểm tra quy trình, nhấn các trang, chụp ảnh màn hình và lặp lại dựa trên những gì bạn thấy cho đến khi hoàn thành nhiệm vụ.

Dưới đây là một ví dụ về việc kiểm thử quy trình tiếp nhận nhân viên mới.

Codex cũng có thể tạo ra các bảng tính, bài thuyết trình PowerPoint và tài liệu chất lượng cao hơn. Dưới đây là bản demo về mô hình tài chính.

Trình xem tập tin tích hợp trong ứng dụng mới giúp tăng tốc quá trình xem xét, chỉnh sửa và lặp lại, giúp các tập tin sẵn sàng để chia sẻ nhanh hơn.

Về khả năng sử dụng máy tính, Codex cung cấp các tính năng vận hành máy tính được nâng cao.

Dù là nhận diện nội dung màn hình, nhấn, gõ chữ, điều hướng hay thậm chí truyền tải thông tin ngữ cảnh giữa các công cụ, nó đều có thể xử lý tất cả một cách dễ dàng.

Nhà nghiên cứu Noam Brown của OpenAI cho biết, với GPT-5.5, ông có thể viết các nhân CUDA và chạy các thí nghiệm nghiên cứu giống như một chuyên gia.

Sự lật đổ nghiên cứu khoa học, chứng minh định lý số Ramsey.

Ngoài ra, GPT-5.5 cũng giúp khám phá ra một bằng chứng mới về các chỉ số Ramsey, đã được xác minh bằng ngôn ngữ Lean.

Số Ramsey là một đối tượng nghiên cứu cốt lõi trong tổ hợp học; nói một cách đơn giản, chúng là kích thước của một mạng lưới mà tại đó một cấu trúc đều đặn nhất định sẽ xuất hiện một cách tất yếu. Các kết quả mới trong lĩnh vực này cực kỳ hiếm.

Link bài báo: https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

Các phát hiện nghiên cứu trong lĩnh vực này cực kỳ hiếm và đòi hỏi kỹ thuật rất cao. GPT-5.5 đã tìm ra bằng chứng về bản chất tiệm cận dài hạn của các số Ramsey ngoài đường chéo.

Vấn đề không phải là viết mã hay đưa ra lời giải thích; mà là trình bày một bằng chứng toán học có giá trị.

Trên GeneBench, GPT-5.5 đạt 25,0%, trong khi GPT-5.4 đạt 19,0%. Tiêu chuẩn này được thiết kế đặc biệt cho việc phân tích dữ liệu khoa học đa giai đoạn, yêu cầu các mô hình phải xử lý dữ liệu không rõ ràng và đối phó với các yếu tố gây nhiễu tiềm ẩn với sự can thiệp tối thiểu của con người.

BixBench, một công cụ đánh giá dựa trên thiết kế tin sinh học thực tế, đã xếp hạng GPT-5.5 ở vị trí đầu tiên trong số tất cả các mô hình có điểm số công khai, với tỷ lệ 80,5%.

FrontierMath Tier 4, cấp độ khó nhất trong ngân hàng bài toán toán học tiên tiến được biên soạn bởi các nhà toán học hàng đầu như Terence Tao, bao gồm các lĩnh vực như hình học đại số và lý thuyết số, với độ khó gần bằng các nghiên cứu chưa được công bố.

Điểm GPT-5.5 là 35,4%, điểm GPT-5.4 là 27,1%, và điểm Opus 4.7 chỉ là 22,9%. Chênh lệch hơn 12 điểm phần trăm.

Sự khác biệt giữa Bậc 1 và Bậc 3 chỉ là 8 điểm phần trăm (51,7% so với 43,8%), điều này cho thấy lợi thế của GPT-5.5 càng trở nên rõ rệt hơn khi càng tiến sâu vào lĩnh vực toán học.

Derya Unutmaz, giáo sư miễn dịch học tại Phòng thí nghiệm Hệ gen Jackson, đã sử dụng GPT-5.5 Pro để phân tích dữ liệu biểu hiện gen gồm 62 mẫu và gần 28.000 gen.

Mô hình này đã tạo ra một báo cáo nghiên cứu chi tiết, tóm tắt không chỉ các phát hiện mà còn đi sâu vào các vấn đề và hiểu biết quan trọng. Ngược lại, nhiệm vụ này nếu do một đội ngũ người thực hiện sẽ mất vài tháng.

Bartosz Naskręcki, trợ giảng toán học tại Đại học Poznan-Mickiewicz, đã xây dựng một ứng dụng hình học đại số chỉ trong 11 phút trên Codex từ một từ khóa gợi ý duy nhất, trực quan hóa giao điểm của các mặt lần và chuyển đổi đường cong thu được thành mô hình Weierstrass.

Từ lập trình đến công việc trí thức, nghiên cứu khoa học, v.v., kết luận đều rõ ràng.

GPT-5.5 không chỉ là một "phiên bản cập nhật nhỏ" thông thường; nó là một bước tiến toàn diện được tạo ra bởi một mô hình cơ sở hoàn toàn mới.

Chỉ cần một hình ảnh duy nhất là đủ để đánh bại hoàn toàn Opus 4.7.

Tóm lại, sự ra đời của GPT-5.5 có thể được mô tả như một sự chuyển đổi hoàn toàn. Chỉ cần một hình ảnh là đủ để thấy rõ sự khác biệt so với Opus 4.7.

Trong Vending-Bench, GPT-5.5 cũng cho hiệu suất tốt hơn Opus 4.7.

Opus 4.7 hoạt động tốt hơn nhiều so với 4.6: nó tiếp tục nói dối nhà cung cấp và lừa đảo khách hàng về việc hoàn tiền. Ngược lại, GPT-5.5 hoạt động một cách có đạo đức và vẫn giành chiến thắng.

Ultraman cũng nói đùa rằng, "Đừng chia sẻ cái này, đừng chia sẻ cái này, đừng chia sẻ cái này... Thôi kệ, cuộc sống rốt cuộc cũng đang bắt chước nghệ thuật."

Giá đã tăng gấp đôi; nó mạnh mẽ hơn, nhưng cũng đắt hơn.

Sau khi đã bàn về sức mạnh, giờ chúng ta cần nói về tiền bạc.

Giá API cho GPT-5.5 là 5 đô la cho mỗi triệu token đầu vào và 30 đô la cho mỗi triệu token đầu ra.

Giá của GPT-5.4 là bao nhiêu? 2,50 đô la và 15 đô la.

Nó đã tăng gấp đôi.

Mẫu GPT-5.5 Pro thậm chí còn "điên rồ" hơn, với đầu vào 30 đô la và đầu ra 180 đô la.

So với Opus 4.7, có chi phí đầu vào là 5 đô la và chi phí đầu ra là 25 đô la, GPT-5.5 có giá đầu vào tương đương với Opus 4.7, nhưng chi phí đầu ra lại cao hơn 20%.

Lời giải thích của OpenAI là do hiệu quả sử dụng token được cải thiện. Đối với cùng một nhiệm vụ Codex, GPT-5.5 sử dụng ít token hơn đáng kể so với GPT-5.4.

Nó mạnh mẽ và hiệu quả hơn.

Tuy nhiên, một phép tính đơn giản cho thấy rằng nếu một đội ngũ chi 100.000 đô la mỗi tháng cho GPT-5.4, ngay cả khi mức sử dụng token giảm 30% sau khi chuyển sang GPT-5.5, hóa đơn hàng tháng vẫn sẽ tăng lên khoảng 140.000 đô la.

Nói cách khác, GPT-5.5 là một sản phẩm cao cấp, nơi "bạn trả nhiều tiền hơn để có được nhiều tính năng thông minh hơn". Ngược lại, GPT-5.4 nhiều khả năng sẽ tiếp tục được xem là một lựa chọn tiết kiệm chi phí.

OpenClaw đã được tích hợp với GPT-5.5 mạnh mẽ nhất.

Tám ngày, một bức tranh thu nhỏ của cả một kỷ nguyên.

Hãy cùng nhìn lại những gì đã xảy ra trong 8 ngày đó.

Vào ngày 16 tháng 4, Anthropic đã bất ngờ tấn công SWE-Bench Pro bằng Opus 4.7, giành lấy ngôi vị dẫn đầu trong lĩnh vực lập trình từ tay GPT-5.4.

Vào ngày 24 tháng 4, GPT-5.5 chính thức được phát hành. Nó đã đánh bại các đối thủ cạnh tranh trong lĩnh vực thiết bị đầu cuối, tăng giá gấp đôi và gây ra một cơn sốt trong giới nghiên cứu.

Cuộc đua trí tuệ nhân tạo năm 2026 sẽ không còn là cuộc cạnh tranh "mô hình nào mạnh hơn" nữa.

Trong phần mô tả về GPT-5.5, OpenAI liên tục nhấn mạnh "khám phá những cách thức làm việc hoàn toàn mới trên máy tính", một tác nhân đa năng có thể tự động lập kế hoạch nhiệm vụ, gọi các công cụ khác nhau và chuyển đổi qua lại giữa trình duyệt và phần mềm cục bộ.

So sánh hiệu năng chỉ là màn dạo đầu; công việc văn phòng dựa trên tác nhân mới là chiến trường chính. Ai định nghĩa được "cách trí tuệ nhân tạo có thể làm việc cho con người" trước tiên sẽ định hình thế hệ giao diện người dùng máy tính tiếp theo.

Một chuyến đi khứ hồi mất tám ngày. Tốc độ này sẽ còn nhanh hơn nữa.

Tham khảo:

https://openai.com/index/introducing-gpt-5-5/

https://x.com/OpenAI/status/2047376561205325845?s=20

Bài viết này được đăng tải từ tài khoản WeChat chính thức "New Zhiyuan" , tác giả: New Zhiyuan, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
88
Thêm vào Yêu thích
18
Bình luận