Việc GPT-5.2 bị cho là "suy giảm trí thông minh" đã gây ra nhiều chỉ trích trên mạng, dẫn đến sự hoang mang trong cộng đồng người hâm mộ Ultraman.

12-15

Bài viết này được dịch máy

Xem bản gốc

Trong cuộc đua trí tuệ nhân tạo cuối năm, liệu OpenAI có thất bại trước Google? GPT-5.2 đã vấp phải sự chỉ trích rộng rãi trên mạng chỉ trong vòng 48 giờ ra mắt. Tuy nhiên, dữ liệu từ bên thứ ba xác nhận rằng Gemini 3 Pro mới là nhà vô địch thực sự.

OpenAI đã tung ra "át chủ bài" của năm, GPT-5.2, nhưng vẫn không thể đánh bại Google...

Theo báo cáo mới nhất của Epoch AI, GPT-5.2 đạt 152 điểm trong Chỉ số Khả năng (ECI), lần Gemini 3 Pro.

Trong nhiều bài kiểm tra hiệu năng, GPT-5.2 không thể hiện sự vượt trội trên mọi phương diện.

Trong kỳ thi FrontierMath, do Terence Tao hợp tác với hàng trăm nhà toán học tạo ra, GPT-5.2 chỉ chiếm ưu thế ở các cấp độ T1-3, trong khi T4 vẫn là cấp độ cao nhất của Gemini 3.

Ngoài ra, GPT-5.2 đã giành vị trí thứ nhất trong cuộc thi giải đố cờ vua.

Ngoại lệ duy nhất là trên SimpleQA Verified, GPT-5.2 hoạt động kém hơn GPT-5.1, có nghĩa là độ tin cậy của phiên bản này thấp hơn.

Hơn nữa, nhiều bài kiểm tra đánh giá hiệu năng từ bên thứ ba cho thấy GPT-5.2 không đáp ứng được kỳ vọng và không vượt trội hơn Gemini 3.

Trong OCR-Arena, simple-bench và Live-Bench, GPT-5.2 thậm chí còn được xếp hạng sau Claude Opus 4.5.

GPT-5.2 hầu như không gây được tiếng vang nào chỉ sau hai ngày ra mắt; trên thực tế, nó đã nhận được rất nhiều lời chỉ trích từ các nhà phát triển trong cộng đồng.

Để giành chiến thắng trong trận chiến khó khăn này, OpenAI đã phát đi "báo động đỏ" và ưu tiên cải tiến ChatGPT.

Thậm chí, việc phát triển nội bộ của AGI đã bị đình chỉ hoàn toàn, và Sora cũng bị tạm đình chỉ công tác trong tám tuần, cho thấy rõ thái độ "được ăn cả, ngã về không".

Tuy nhiên, xét từ góc độ ngành công nghiệp, OpenAI vẫn chưa thoát khỏi tình trạng thụ động của mình.

Những người dùng GPT-5 thường xuyên đã lên tiếng, nói rằng, "GPT-5.2 sắp trở thành một thứ lỗi thời."

Liệu OpenAI có thất bại trong cuộc chiến cuối năm?

Ba năm trước, Google đã bỏ lỡ cơ hội và bị OpenAI ChatGPT làm lu mờ.

Mới đây, người sáng lập Google, Sergey Brin, đã trở lại Đại học Stanford để diễn thuyết, nơi ông công khai thừa nhận "sai lầm lớn nhất" của mình:

Chúng ta đã mắc sai lầm—chúng ta quá sợ rằng trí tuệ nhân tạo sẽ nói điều sai trái, và kết quả là, chúng ta đã đánh mất một kỷ nguyên.

Giờ đây, với Gemini 3 Pro và Nano Banana Pro, Google đã trở lại vị trí dẫn đầu trong làn sóng trí tuệ nhân tạo.

Luật nhân quả luôn hiện hữu. Lần này đến lượt OpenAI, nhưng họ đã đánh mất vị thế trong trận chiến quan trọng này vào năm 2025.

Ra mắt, Ultraman đã hào hứng thông báo rằng số lượng cuộc gọi API đã vượt quá một nghìn tỷ token, và tốc độ tăng trưởng cực kỳ nhanh chóng.

Trước đó, trang tin Information đưa tin rằng GPT-5.2, có tên mã là Garlic, ban đầu dự kiến sẽ được công bố vào đầu năm tới.

Khắp Thung lũng Silicon, có tin đồn lan truyền rằng quá trình huấn luyện trước của OpenAI đã kết thúc, và GPT-5.1 thậm chí có thể dựa trên quá trình huấn luyện sau 40 giờ, do đó không mang lại nhiều cải tiến .

Thực tế, OpenAI đã gặp phải nút thắt cổ chai về khả năng mở rộng trong quá trình huấn luyện trước.

Việc điều chỉnh quy mô trước khi huấn luyện có thể không hiệu quả lắm.

Liên quan đến quá trình phát triển GPT-5.2 (tỏi), nguồn tin ban đầu cho rằng OpenAI đã giải quyết một số vấn đề then chốt gặp phải trong giai đoạn huấn luyện trước đó.

Cải tiến mô hình được huấn luyện trước đó, vốn được đánh giá là "tốt nhất" và "lớn hơn nhiều".

Về nội bộ, OpenAI đã tích hợp các lỗi được sửa trong quá trình phát triển "Shallotpeat" và tích lũy được rất nhiều kinh nghiệm huấn luyện trước.

Theo thông tin đã nêu, bước đột phá quan trọng nhất xảy ra trong "giai đoạn tiền huấn luyện".

Tuy nhiên, tất cả thông tin trên đều đến từ các bản tin. Việc OpenAI có thực sự đạt được bước đột phá lớn nào trong huấn luyện trước hay không vẫn chưa được biết.

Tuy nhiên, việc GPT-5.2 vượt trội hơn so với chuẩn Gemini 3 trên mọi chính thức cho thấy nó đã có một số cải tiến trong quá trình huấn luyện trước đó.

Tuy nhiên, dựa trên các đánh giá từ bên thứ ba và phản hồi của người dùng, GPT-5.2 không đạt được bất kỳ bước đột phá nào trong các cải tiến công nghệ nền tảng của nó.

Trong một đánh giá khác của Epoch AI, Gemini 3 vẫn vượt trội hơn các mô hình AI hàng đầu về hiệu suất thực hiện nhiệm vụ dài hạn.

Gemini 3 Pro: 4,9 giờ

GPT-5.2: 3,5 giờ

Opus 4.5: 2,6 giờ

Như kỹ sư Dan Mac đã khẳng định, Gemini 3 Pro sở hữu trí thông minh vượt trội hơn nhờ quá trình huấn luyện trước mạnh mẽ nhất từ Google.

GPT-5.2 sở hữu trí thông minh chuyên dụng tốt nhất, đây là kết quả của quá trình tối ưu hóa sau huấn luyện của OpenAI.

Đầu năm tới sẽ có những sự kiện còn lớn hơn nữa.

Theo một báo cáo gần đây của tờ The New York Times, OpenAI sẽ tiếp tục tập trung vào việc tối ưu hóa ChatGPT trong những tuần tới.

Họ đang chuẩn bị cho một đợt ra mắt quy mô lớn hơn vào đầu năm tới.

Về nội bộ, OpenAI hoạt động song song với phương pháp "hai hướng", tập trung vào cả chiến lược B2B và B2C.

OpenAI cũng đang thúc đẩy các dự án khác, bao gồm các thử nghiệm liên quan đến quảng cáo và thương mại điện tử.

Bất chấp những lời chỉ trích, họ vẫn đang tìm kiếm những phương pháp "kiềm chế" hơn, chẳng hạn như hoàn tất việc mua sắm thông qua ChatGPT và thu một phần phí từ các giao dịch.

Trên thị trường doanh nghiệp, OpenAI đang giới thiệu cùng một bộ công nghệ AI làm nền tảng cho ChatGPT vào lĩnh vực phần mềm doanh nghiệp.

Dữ liệu cho thấy ChatGPT có hơn 800 triệu người dùng hàng tuần, chiếm khoảng 76% thị thị phần.

Một chuyên gia về trí tuệ nhân tạo cho biết: "Trí tuệ nhân tạo dành cho người tiêu dùng gần như đồng nghĩa với OpenAI. Nếu điều này bị mất đi, công ty sẽ không có giá trị như ngày nay."

Tuy nhiên, trong 12 tháng qua, nhiều công ty khởi nghiệp về trí tuệ nhân tạo trên toàn thế giới đã phát triển các công nghệ có thể sánh ngang, hoặc thậm chí vượt qua, mô hình hàng đầu của OpenAI ở một số khía cạnh.

Việc Google ra mắt Gemini 3 Pro là một đòn giáng mạnh vào việc kinh doanh của OpenAI.

Gemini 3 vượt trội hơn GPT-5.2; phải chăng OpenAI chỉ đang đánh lừa?

Từ góc nhìn thử nghiệm thực tế của người dùng, GPT-5.2 vẫn còn nhiều điểm cần cải thiện.

Một số cư dân mạng, không thể chịu đựng thêm nữa, đã thẳng thừng tuyên bố rằng OpenAI hoàn toàn không có trí tuệ:

Giọng điệu của GPT-5.2 lạnh lùng, có thể ví như Bắc Cực, hoàn toàn bỏ qua trải nghiệm người dùng. "Nó cứ thụt lùi, biến ngôn ngữ vốn bình thường và tự nhiên trở nên ngày càng lố bịch, cuối cùng biến thành một loạt lời lăng mạ và thuyết giáo, rồi lại bán nó như một chiến thắng nào đó."

OpenAI xứng đáng bị Gemini 3 làm cho khiếp sợ.

Ví dụ, trong khả năng suy luận trực quan , Gemini 3 Pro hoàn toàn vượt trội so với GPT-5.2.

Trong việc tạo mô hình 3D , GPT-5.2 chậm hơn và đắt hơn, và hiệu năng tổng thể của nó không tốt bằng Gemini 3.

Xét về khả năng tạo ra những tiểu thuyết mang tính đột phá , GPT-5.2 xếp cuối cùng, kém hơn cả Gemini 3 Pro, Claude 4.5 Opus và Grok 4.

Văn học vượt ranh giới là một thể loại văn học tập trung vào nhân vật khao chọc thủng những ràng buộc xã hội và các chuẩn mực cơ bản.

Những tác phẩm này thường đề cập đến sê-ri chủ đề cấm kỵ, những vấn đề đen tối và những vấn đề cực đoan.

Trong lĩnh vực tạo mã giao diện người dùng , Gemini 3 vượt trội hơn hẳn, trong khi GPT-5.2 vẫn còn tụt hậu xa.

Với cùng một lời nhắc nhở, hơn 530.000 người đã thảo luận về thiết kế của Gemini 3, GPT-5.2 và Claude Opus 4.5 trên trang chủ của bảng điều khiển theo dõi sức khỏe.

Từ khóa: Trang chủ Bảng điều khiển Thể dục. Phần trên cùng hiển thị tổng quan hoạt động hàng tuần (dạng thu gọn), tiếp theo là lượng calo đốt cháy trong ngày và thanh tiến độ hình tròn (thẻ thu gọn). Bên dưới các thẻ calo là bộ đếm bài tập liên tục, và phía dưới cùng là biểu đồ cột bài tập hàng tuần. Ứng dụng di động, hiển thị trên một màn hình duy nhất. Phong cách hình ảnh: Gam màu sáng, bối cảnh trắng sữa mềm mại, các thẻ bo tròn với bóng mờ tinh tế, màu san hô là màu nhấn chủ đạo, và màu xanh điện tử cho biểu đồ và các phần được làm nổi bật. Kiểu chữ sans-serif rõ ràng, bố cục thẻ hiện đại. Tâm lý: Khích lệ và tràn đầy năng lượng. Tươi mới, thuần khiết và dễ tiếp cận. Thẩm mỹ sức khỏe hiện đại, truyền cảm hứng và nâng cao tinh thần.

GPT 5.2 hầu như lần xếp hạng lần:

Nhà phát triển Mattia đã sử dụng mô hình tìm kiếm AI Perplexity để xem xét tất cả các đánh giá, và Gemini 3 đã giành chiến thắng chung cuộc!

Nếu những trường hợp trên chỉ là cá biệt, thì dữ liệu sau đây không hề nói dối: GPT-5.2 kém hơn Gemini 3 Pro.

GPT-5.2 đã chịu một thất bại nặng nề.

Trên trang web cá cược Ploymarket, hầu hết người dùng cho rằng Google sẽ có mô hình AI tốt nhất vào cuối năm nay.

Trên Dubesors, một bảng xếp hạng đánh giá hiệu năng hộp số sàn cỡ nhỏ do người dùng Lisan al Gaib thiết lập, Gemini 3 Pro đứng đầu, trong khi GPT-5.2 xếp thứ 16.

CAIS (Trung tâm An toàn Trí tuệ Nhân tạo), một tổ chức chuyên thúc đẩy nghiên cứu an toàn trí tuệ nhân tạo và nâng cao nhận thức cộng đồng, đã công bố Bảng điều khiển AI CAIS mới nhất. Kết quả cho thấy Gemini 3 Pro vượt trội hơn GPT-5.2 về khả năng xử lý văn bản và hình ảnh, nhưng lại kém hơn GPT-5.2 về chỉ số rủi ro.

Trong bài kiểm tra chỉ số năng lực đọc hiểu văn bản, Gemini 3 Pro chỉ kém hơn ở ARC-AGI-2, trong khi gần như hoàn toàn thất bại ở GPT-5.2!

Trong bài kiểm tra chỉ số khả năng hiển thị, Gemini 3 Pro một lần nữa chiến thắng gần như tất cả các bài kiểm tra, đạt điểm cao hơn 4,5 điểm so với điểm trung bình của GPT-5.2!

Trong bài kiểm tra chỉ số rủi ro, GPT-5.2 cho kết quả tốt hơn Gemini 3 Pro, nhưng lại kém hơn Claude Opus 4.5 và Claude Sonnet 4.5.

Trên Terminus, một nền tảng thử nghiệm để đánh giá khả năng của các mô hình ngôn ngữ trong việc điều khiển các tác nhân tự động trong hoàn cảnh thiết bị đầu cuối, Gemini 3.0 Pro và GPT-5.2 gần như ngang nhau, nhưng Gemini 3.0 Pro vẫn vượt trội hơn GPT-5.2 ở chế độ suy luận cao với mức trung bình là 0,2%.

Ngoài ra, cư dân mạng cũng đã kiểm chứng các bài kiểm tra hiệu năng khác, chẳng hạn như SWE-Bench và IUMB:

Tóm lại, GPT-5.2 dường như đã thất bại, tụt hậu so với Gemini 3 trong một số bài kiểm tra hiệu năng quan trọng:

Bất ngờ Giáng sinh Ultraman

Vào ngày GPT-5.2 được phát hành, Ultraman cũng hé lộ rằng sẽ có một "món quà Giáng sinh" vào tuần sau đó.

Về sản phẩm mới, nhiều khả năng đó sẽ là mẫu GPT Image v2 thế hệ tiếp theo.

Vài ngày trước, hai mô hình hình ảnh AI bí ẩn, "Chestnut" và "Hazelnut," đã được thử nghiệm trên nền tảng LM Arena.

Tuy nhiên, sau khi thử nghiệm, các nhà phát triển cho biết mô hình xử lý hình ảnh của OpenAI dường như không mấy hứa hẹn.

Về khả năng tạo/chỉnh sửa ảnh, mô hình ảnh GPT tụt hậu xa so với Nano Banana Pro sử dụng công nghệ Gemini 3.

Hơn nữa, kết quả đầu ra còn gặp phải sê-ri vấn đề—

Các vấn đề bao gồm màu sắc hơi ngả vàng, logic kém, tính nhất quán yếu, chất lượng hình ảnh thấp và kiến thức về thế giới không đầy đủ.

Người ta cho rằng nền tảng của mô hình này vẫn có thể là GPT-4o.

Liệu trận chiến cuối cùng của năm 2025 đã thực sự kết thúc?

Tham khảo:

https://www.nytimes.com/2025/12/11/technology/openai-google-ai-technology-gap.html

Safe

Bài viết này được đăng tải từ tài khoản WeChat công cộng "New Intelligence" , tác giả: PeachKingHZ, và được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan