Kết quả thử nghiệm thực tế của GPT-5.2: Khả năng tăng giá đột biến đã được cải thiện đôi chút, vậy tại sao nó lại có thể chống lại Gemini?

avatar
36kr
12-12
Bài viết này được dịch máy
Xem bản gốc

GPT 5.2, với mục tiêu vượt trội hơn Gemini , đã chính thức được phát hành vào sáng sớm nay và được triển khai cho tất cả người dùng.

Tôi vừa hủy đăng ký ChatGPT Plus tháng trước và chuyển đến Gemini. Lần tôi có cần quay lại ChatGPT Plus vì GPT-5.2 không?

Sau khi đọc trải nghiệm thực tế được chia sẻ bởi cư dân mạng và tự mình trải nghiệm APPSO, bạn có thể tìm thấy câu trả lời.

Lần cuối cùng thì tôi cũng không vẽ sai bảng nữa.

GPT lần thực chất cập nhật ba phiên bản: GPT-5.2 Instant, Thinking và Pro. Nếu bạn đã quen với sự cân nhắc kỹ lưỡng lần câu hỏi và câu trả lời của Gemini 3.0 Pro, bạn sẽ thấy tốc độ suy nghĩ của ChatGPT chậm hơn và mất nhiều thời gian hơn trước khi bắt đầu sử dụng GPT-5.2 Thinking/Pro.

Đây cũng là trải nghiệm được chia sẻ bởi hầu hết người dùng đã được truy cập sớm trên mạng xã hội. Nói cách khác, GPT-5.2 là một sự cải tiến so với 5.1 ở mọi khía cạnh, và GPT-5.2 Pro rất phù hợp cho các tác vụ suy luận chuyên nghiệp đòi hỏi nhiệm vụ hoàn thành dài; tuy nhiên, thời gian chờ đợi kết quả sẽ lâu hơn.

Ví dụ, một người dùng chia sẻ rằng khi họ nhập yêu cầu "Hãy giúp tôi vẽ biểu đồ điểm số bài kiểm tra HLE", GPT-5.2 Pro mất 24 phút để tạo ra biểu đồ.

Nguồn ảnh: https://x.com/emollick/status/1999185755617300796/photo/1

May mắn thay, tất cả thông tin đều chính xác, và ngay cả kết quả tốt nhất trên biểu đồ vẫn hiển thị Gemini 3.0 Pro.

Điều này cũng là nhờ vào việc thời hạn hiệu lực của kiến ​​thức cho GPT-5.2 đã được dời sang tháng 8 năm 2025 , trong khi thời hạn hiệu lực của kiến ​​thức cho GPT-5.1 là tháng 9 năm 2024, và thời hạn hiệu lực của kiến ​​thức cho Gemini 3.0, vừa được phát hành tháng trước, là tháng 1 năm 2025.

Khi chúng tôi sử dụng GPT-5.2 Thinking để tạo biểu đồ lịch sử phát hành mô hình của OpenAI, sụp đổ không mất quá nhiều thời gian và thông tin khá chính xác. Đối với nhiệm vụ đơn giản, thời gian thực hiện khi sử dụng mô hình Thinking khác biệt đáng kể so với mô hình Pro.

Gợi ý: Tạo biểu đồ thể hiện số lượng phiên bản mô hình OpenAI được phát hành theo thời gian.

Với khả năng suy luận "cường độ cực cao" và kiến ​​thức thế giới mới nhất, kết hợp với khả năng hiểu và suy luận đa phương thức về hình ảnh, GPT 5.2 nhanh chóng vươn lên vị trí thứ hai trong lĩnh vực mô hình lớn. GPT-5.2-High xếp thứ hai trong dự án WebDev (phát triển web) , trong khi GPT-5.2 xếp thứ sáu. So với đó, Gemini 3.0 Pro xếp thứ ba, còn Claude vẫn giữ vị trí dẫn đầu.

chính thức cũng đã phát hành một video thử nghiệm cho thấy họ sử dụng GPT-5.2 để hoàn thành sê-ri các tác vụ mô hình hóa 3D với độ chính xác rất cao. Tuy nhiên, một số cư dân mạng đã bình luận, "Liệu đây vẫn còn là năm 2003?"

Nguồn video: https://x.com/arena/status/1999189215603753445

Hiệu ứng 3D đạt được bằng cách sử dụng three.js đòi hỏi khả năng hiểu biết và suy luận đa phương thức ở mức độ cao của mô hình, cũng như tối ưu hóa trong phát triển lập trình và thiết kế chương trình; GPT-5.2 rất đáng để nâng cấp bản 0.1 này.

Hiện nay, lượng lớn bài kiểm tra được cư dân mạng chia sẻ chủ yếu tập trung vào việc xây dựng các mô hình 3D hoàn chỉnh, và GPT-5.2 thể hiện rất tốt. Ví dụ, cũng có những bài kiểm tra sử dụng chế độ suy luận độ khó cao của GPT-5.2 Thinking, chỉ với một trang file duy nhất, đã xây dựng được mô hình vương quốc băng tuyết 3D hỗ trợ điều khiển tương tác và có thể xuất ra ở độ phân giải 4K.

https://x.com/skirano/status/1999182295685644366

Ngoài ra còn có các công trình kiến ​​trúc thành phố Gothic hỗn loạn 3D được tạo ra bằng GPT-5.2 Pro.

Từ khóa gợi ý: Tạo một shader trực quan hấp dẫn có thể chạy trong twigl-dot-app, mô phỏng một thành phố vô tận với những tòa tháp tân Neo bị nhấn chìm một phần trong đại dương dữ dội với những con sóng lớn. | Nguồn: https://x.com/emollick/status/1999185085719887978?s=20

Về khả năng hiểu và suy luận 3D, chúng tôi cũng sử dụng lần Ian Goodfellow đã đưa ra sau khi phát hành Gemini 3.0 Pro, đó là tải lên một hình ảnh và sau đó yêu cầu mô hình tạo ra một cảnh ứng dụng một trang Three.js nghệ thuật voxel đẹp mắt dựa trên hình ảnh đó.

Vì ChatGPT không tự động tạo mã đó trong khung vẽ, tôi đã sao chép mã mà nó tạo ra trong hộp thoại và mở nó trong chế độ xem HTML, như hình ảnh bên phải.

Sự khác biệt khá rõ ràng. Mặc dù ChatGPT cũng đọc được nội dung của hình ảnh được tải lên—một cuốn sách màu hồng, một cánh đồng xanh, một vật thể màu xám đang chìm và nước trắng—nhưng hoạt hình 3D mà nó tạo ra có phần thô sơ so với Gemini 3.0 Pro.

Tôi chỉ có thể nói rằng việc Ultraman đưa ra "cảnh báo đỏ" này chứng tỏ Gemini thực sự là hàng đầu.

Việc kiểm tra kỹ năng lập trình chắc chắn bao gồm các mô phỏng vật lý quả cầu lục giác kinh điển. Một blogger đã tăng độ khó bằng cách sử dụng các quả cầu 3D màu đỏ được chiếu sáng hoàn toàn. Hiệu ứng trông rất ấn tượng, và nhiều cư dân mạng đang thắc mắc làm thế nào mà nó được tạo ra; tuy nhiên, một số người đã chỉ ra rằng những quả cầu này dường như không bị ảnh hưởng bởi trọng lực.

Sau đó, một số cư dân mạng phản hồi rằng đây là mô phỏng không gian.

Nguồn video: https://x.com/flavioAd/status/1999183432203567339

Ngoài ra còn có một bài kiểm tra mã SVG và hình ảnh một con bồ nông đang đạp xe.

Nguồn ảnh: https://arena.jit.dev/

Một số cư dân mạng cũng chia sẻ rằng họ đã tạo ra một trình mô phỏng cháy rừng bằng GPT-5.2, có thể điều chỉnh tốc độ, diện tích và phạm vi cháy, v.v.

Nguồn ảnh: https://x.com/1littlecoder/status/1999191170581434557?s=20

Chúng tôi đã tạo một trang web về tín hiệu hành tinh, với bố cục gần như giống hệt trang web trực quan hóa cháy rừng này. Điểm khác biệt duy nhất là nội dung hiển thị ở phía bên trái đã được thay đổi từ các ngôi sao rải rác thành các thiên thể.

Mẹo: Tạo một mô phỏng tương tác bằng HTML, CSS và JavaScript về hệ thống vệ tinh truyền tín hiệu đến các trạm thu trên mặt đất. Mô phỏng nên hiển thị một vệ tinh quay quanh Trái đất và định kỳ gửi tín hiệu được nhiều trạm thu nhận.

Chúng tôi cũng sử dụng chiếc máy ảnh lấy liền tự chế bằng Gemini 3 để thử nghiệm GPT-5.2. Chúng tôi nhập cùng một câu lệnh, yêu cầu nó phát triển một ứng dụng web theo phong cách máy ảnh lấy liền cổ điển.

Yêu cầu: Phát triển một ứng dụng máy ảnh một trang theo phong cách retro, mô phỏng thực tế. Bối cảnh trang nên được thiết kế như bảng ghim hoặc vân gỗ tối màu. Một mô hình máy ảnh chụp tức thời mô phỏng thực tế, được vẽ hoàn toàn bằng CSS hoặc SVG, nên được đặt cố định ở góc dưới bên trái, với vùng ống kính hiển thị khung hình máy ảnh của người dùng theo thời gian thực. Về logic tương tác, khi người dùng nhấn nút chụp, hiệu ứng âm thanh chụp ảnh sẽ phát ra, và một tờ giấy ảnh có viền trắng sẽ từ từ hiện ra từ phía trên máy ảnh. Sử dụng bộ lọc CSS để làm cho ảnh hiện ra ban đầu bị mờ và đen trắng, sau đó chuyển đổi mượt mà sang trạng thái rõ nét, đầy đủ màu sắc trong vòng 5 giây. Cuối cùng, tất cả các ảnh đã chụp phải có thể kéo thả, cho phép người dùng tùy ý đặt chúng ở bất kỳ đâu trên trang, với các góc xoay và bóng ngẫu nhiên. Nhấn một bức ảnh sẽ đưa nó lên đầu, tạo ra một bức tường ảnh ghép tự do chân thực.

Điều khá bất ngờ là ChatGPT cũng có thể chụp ảnh tức thì chỉ trong một lần.

Khi chúng tôi thử nghiệm Gemini 3.0 Pro trước đây, khả năng mạnh mẽ nhất của nó là lập trình và việc không yêu cầu chúng tôi nhập nhiều lệnh. Chúng tôi chỉ cần cung cấp cho nó một ảnh chụp màn hình hoặc video và yêu cầu nó sao chép lại, Gemini có thể thực hiện được.

Lần, chúng tôi cũng cung cấp cho nó một video và yêu cầu nó sao chép lại trang web tạo ra bài thơ cổ này.

https://chatgpt.com/canvas/shared/693b6d1b8fa881919c6298a4aed05581

So với GPT-5.1, vốn hoàn toàn không nhận biết được bảng màu của các video tôi đã tải lên, lần dường như nó đã học được điều gì đó. Tuy nhiên, vì các trang web do Gemini tạo ra có thể tích hợp trực tiếp chức năng AI thông qua API Gemini , ChatGPT vẫn chưa tích hợp AI vào các trang web được tạo ra này. Do đó, các bài thơ ở đây chỉ có thể là một vài bài đã được viết sẵn.

Bên cạnh các bài kiểm tra năng lực lập trình cổ điển và việc tạo một tệp HTML đơn giản, một số người dùng cũng sử dụng nó để viết mã Python.

Đề xuất do người dùng đưa ra là "viết một đoạn mã Python để trực quan hóa cách hoạt động của đèn giao thông trên đường một chiều với các xe ô tô lưu thông ngẫu nhiên."

Anh ấy đã thử nghiệm cả GPT 5.2 Extended Thinking và Claude Opus 4.5, và kết quả rất rõ ràng. Có thể nói rằng chúng tôi thường được hỏi mô hình lập trình nào là tốt nhất, và có lý do tại sao Claude lại phổ biến đến vậy trong giới lập trình viên.

Hình ảnh bên dưới hiển thị GPT-5.2. Nguồn: https://x.com/diegocabezas01/status/1999228052379754508

Hơn nữa, nhược điểm lớn nhất của mô hình Claude trước đây là giá thành cao. Claude Opus 4.5 có giá 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra. Hiện nay, giá của GPT-5.2 đã bắt kịp và đắt hơn khoảng 40% so với GPT-5.1. GPT-5.2 Pro có giá 21 đô la cho mỗi token đầu vào và 168 đô la cho mỗi token đầu ra.

Trong bài đăng chính thức blog thông báo, OpenAI cho biết GPT-5.2 cũng đã cải thiện khả năng xử lý hình ảnh của mình.

GPT-5.2 Thinking là mô hình trực quan mạnh mẽ nhất của chúng tôi cho đến nay, giúp giảm tỷ lệ lỗi xuống khoảng một nửa trong suy luận đồ thị và hiểu giao diện phần mềm.

Nó cũng cung cấp một ví dụ về việc sử dụng AI để thêm một số đánh dấu đóng khung vào bo mạch chủ trông bị mờ; so với GPT-5.1, GPT-5.2, mặc dù cũng mắc lỗi, nhưng đánh dấu nhiều khu vực hơn.

Vậy còn Nano Banana Pro thì sao? Một số người dùng đã sử dụng Nano Banana Pro để xóa các chú thích khỏi hình ảnh và sau đó yêu cầu nó thêm các hộp vị trí mục tiêu mới. Bạn nghĩ phần mềm nào tốt hơn?

Từ trái sang phải: GPT-5.1, GPT-5.2, Nano Banana Pro | Nguồn ảnh: https://x.com/bcaine/status/1999212747213656072

Tôi cảm thấy ChatGPT đang "tự làm mất mặt" ở những lĩnh vực mà các phần mềm khác lại vượt trội. Nano Banana hiện là phần mềm dẫn đầu không thể tranh cãi trong các tác vụ liên quan đến hình ảnh, mặc dù GPT-5.2 có nhiều thông tin chú thích hơn, nhưng nhiều khung giới hạn vẫn chưa được định vị chính xác.

Khả năng lập trình và xử lý hình ảnh đã được cải thiện đáng kể so với thế hệ trước GPT-5.1. Nếu bạn đã sử dụng ChatGPT một thời gian, bạn sẽ cảm nhận được sự khác biệt ngay sau khi nâng cấp. Tuy nhiên, so với các mẫu khác, về khả năng lập trình và trải nghiệm hình ảnh, nó vẫn chưa đạt được mức độ vượt trội như Nano Banana khi mới ra mắt.

Về thiết kế web thẩm mỹ, một số cư dân mạng đã chia sẻ một số trang web giao diện người dùng mà họ tạo ra bằng GPT-5.2. Hãy xem liệu các lập trình viên giao diện người dùng có bị lôi ra và "giết" một lần nữa hay không.

Nguồn ảnh: https://x.com/secondfret/status/1999235822034547011

So với màu tím chuyển sắc phổ biến trước đây, mức độ thiết kế của GPT-5.2 thực sự đã được cải thiện. Tuy nhiên, như chính blogger đã nói, GPT-5.2 dường như đặc biệt thích vẽ các hình vuông trên màn hình, với các lớp lưới chồng chất khắp nơi.

Ngoài ra còn có một danh sách đặc biệt liên quan đến khả năng thiết kế. GPT-5.2 đã có bước tiến vượt bậc, nhảy từ GPT-5.1, vốn trước đây xếp ngoài top 10, lên vị trí thứ ba. Tuy nhiên, điểm số cao nhất vẫn thuộc về Gemini 3.0 Pro.

Nguồn ảnh: https://www.designarena.ai/leaderboard

Chúng tôi cũng đưa ra một số yêu cầu cho GPT-5.2 để tạo ra một trang web "cao cấp", cụ thể là trang chủ của một công ty AI. Kết quả? GPT-5.2 thực sự thích sử dụng các ô vuông; và thật trùng hợp, tôi lại bắt gặp màu tím chuyển sắc.

Mẹo: Bạn là một trong 0,1% nhà thiết kế và phát triển hàng đầu thế giới về thiết kế và phát triển giao diện người dùng. Nhiệm vụ của bạn là tạo một trang đích hoàn chỉnh với {Dither + Shaders} sử dụng {WebGL + ThreeJs} để tạo kiểu cho hình ảnh được tải lên cho một công ty AI. - Tập trung chủ yếu vào phần thiết kế, không phải phần lập trình. Nhập tất cả các tệp và thư viện cần thiết: Three.js, WebGL, GSAP, và bất kỳ thư viện hoạt hình nào khác liên quan đến phát triển 3D.

Cuối cùng, về vấn đề viết lách, theo phản hồi từ một số người dùng có trải nghiệm, GPT-5.2 đang bắt đầu có khả năng hoàn thành việc tạo ra một số tiểu thuyết dài.

Ví dụ, khi được yêu cầu tạo ra 50 ý tưởng cốt truyện, ChatGPT sẽ hoàn thành tất cả, thay vì chỉ tạo ra một phần như các mô hình khác. Và khi được yêu cầu viết một cuốn sách 200 trang, ChatGPT không chỉ đơn giản nói rằng nó không thể làm được; thay vào đó, nó thực sự cố gắng, không chỉ xây dựng toàn bộ cấu trúc của cuốn sách mà còn tạo ra một tệp PDF.

Cư dân mạng bình luận rằng mặc dù giấy khá mỏng và cuốn sách ngắn... xét cho cùng, hiện tại không thể viết một cuốn tiểu thuyết có thể xuất bản trong một lần, nhưng việc tác giả có thể bắt đầu làm điều đó, đưa ra 50 ý tưởng và viết một cuốn sách 200 trang, cho thấy tác giả có độ sâu tư duy đáng kể.

Điều đáng chú ý nhất về GPT-5.2 là khả năng tuân thủ hướng dẫn rất tốt... không chỉ đơn thuần làm những gì tôi nói, mà còn thực sự hoàn thành toàn bộ nhiệm vụ tôi mô tả.

GPT-5.2 hiện đang được triển khai dần dần cho tất cả người dùng. Trải nghiệm thực tế của bạn như thế nào?

Nâng cấp lên GPT-5.2 vẫn chưa đủ để thuyết phục tôi chuyển từ Gemini . Mặc dù nó đã chứng tỏ mình đứng đầu nhiều bảng xếp hạng, đạt được kết quả tốt trong cả các bài kiểm tra nội bộ và công khai, nhưng trải nghiệm thực tế lại thiếu sót. Trong phần tạo chương trình 3D, lỗi mã xuất hiện thường xuyên, và phong cách thẩm mỹ tổng thể không có bất kỳ cải tiến đáng kể nào, tất cả đều với mức giá đó.

Những bình luận sắc bén của cư dân mạng

Gemini cũng không ngừng lại, tiếp tục gây áp lực lên Ultraman. Sáng nay, mặc dù không có mô hình mới nào được phát hành, nhưng phiên bản Gemini Deep Research được thiết kế lại đã được ra mắt và có thể truy cập thông qua API. Nâng cấp trong tương lai cũng sẽ có sẵn trên Gemini , Google Search và NotebookLM.

Phiên bản Gemini Nghiên Cứu Chuyên Sâu Agent mới đã vượt trội hơn GPT-5.2 Thinking mới ra mắt (đạt 45,5%) trong bài kiểm tra Last Human Exam (HLE) với số điểm 46,4% (cao nhất là GPT-5.2 Pro với 50,0%), và cũng đạt được kết quả tốt trong các bài kiểm tra DeepSearchQA và BrowseComp của chính Google.

Tình trạng báo động đỏ của Ultraman có lẽ sẽ còn kéo dài thêm một thời gian nữa.

Bài viết này được đăng tải từ tài khoản chính thức WeChat "APPSO" , do Discover Tomorrow's Products biên soạn và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận