GPT-5.2 ra mắt cách đây 24 giờ: tràn ngập những đánh giá tiêu cực.

12-15

Bài viết này được dịch máy

Xem bản gốc

Cư dân mạng chỉ trích GPT-5.2 là "vô nhân đạo".

X chứa đầy những đánh giá tiêu cực về GPT-5.2.

Để kỷ niệm 10 năm thành lập OpenAI, sê-ri mô hình cao cấp mới nhất, GPT-5.2, đã được phát hành. Chính thức quảng bá là "sê-ri mô hình mạnh mẽ nhất dành cho công việc trí tuệ chuyên nghiệp cho đến nay", GPT-5.2 cũng đã thiết lập các tiêu chuẩn mới về hiệu năng vượt trội (SOTA) trong nhiều bài kiểm tra đánh giá.

Tuy nhiên, chỉ sau một đêm, danh tiếng của nó đã đảo ngược hoàn toàn, với rất nhiều cư dân mạng đưa ra những đánh giá tiêu cực về GPT-5.2.

Đối tác của Menlo Ventures, @deedydas, đã đăng bài viết rằng GPT 5.2 thông minh hơn bao giờ hết, nhưng nhóm khách hàng cốt lõi của OpenAI vẫn chưa đạt đến con số 40.

Người dùng ChatGPT trên Reddit đều cho rằng GPT-5.2 quá đơn điệu, bảo mật quá mức, "coi người lớn như trẻ mẫu giáo" và "cảm giác như một bước thụt lùi hơn là nâng cấp".

Đây là tình thế khó xử của OpenAI: họ muốn xây dựng các mô hình tốt hơn để chinh phục thị trường doanh nghiệp, nhưng phần lớn người dùng lại không thực sự quan tâm đến mức độ thông minh của các mô hình đó.

https://x.com/deedydas/status/1999512868195303725?s=20

Kết quả kiểm tra SimpleBench rất kém.

Một số cư dân mạng đã chia sẻ "báo cáo điểm số" của GPT-5.2 trên SimpleBench. GPT-5.2 đạt điểm thấp hơn cả Claude Sonnet 3.7, một mẫu chip đã ra mắt gần một năm trước; hiệu năng của GPT-5.2 Pro cũng không khá hơn là bao, chỉ nhỉnh hơn GPT-5 một chút.

https://x.com/scaling01/status/1999466846563762290?s=20

SimpleBench là một bài kiểm tra chuẩn được AI Explained (kênh YouTube) ra mắt vào năm 2024, được thiết kế đặc biệt để kiểm tra khả năng "suy luận thông thường" của trí tuệ nhân tạo (AI), bao gồm suy luận không gian-thời gian, suy luận xã hội thông thường và các câu hỏi bẫy ngôn ngữ, với tổng cộng hơn 200 câu hỏi trắc nghiệm. Nó được thiết kế "đơn giản", và học sinh trung học có thể dễ dàng trả lời đúng (điểm chuẩn của con người: 83,7%), nhưng các mô hình AI thường gặp khó khăn vì chúng dựa vào trí nhớ và suy luận gần đúng, dễ dàng bỏ qua logic thực tế hoặc mắc bẫy.

Không giống như MMLU/GPQA, vốn là những "câu hỏi mang tính học thuật" mà AI có thể đạt điểm cao, SimpleBench thực tế hơn, kiểm tra khả năng "tư duy như con người" hơn là khả năng học thuộc lòng. Các mô hình ban đầu như o1-preview chỉ đạt 41,7%, và ngay cả hiện nay, các mô hình tiên tiến nhất cũng chỉ đạt khoảng 50-60%.

Ai cũng cho rằng GPT-5.1 là một bước tiến vượt bậc, nhưng khi điểm số kiểm thử SimpleBench được công bố, cư dân mạng bắt đầu chế giễu nó, với nhiều bài đăng trên Reddit bày tỏ sự "thất vọng" và "thụt lùi".

Bindu Reddy, cựu tổng giám đốc của AWS và Google, cũng cho biết GPT-5.2 đạt điểm thấp hơn Opus 4.5 và Gemini 3.0 trên LiveBench, và không đứng đầu bảng xếp hạng LiveBench. Nó cũng đắt hơn đáng kể so với phiên bản 5.1 về chi phí token và số lượng token tiêu thụ, khiến việc chuyển đổi từ 5.1 sang GPT-5.2 hiện tại có thể không đáng giá.

https://x.com/bindureddy/status/1999633231558377683?s=20

Dĩ nhiên, một số cư dân mạng cho rằng các bài kiểm tra tiêu chuẩn này luôn bỏ qua những điểm quan trọng, trong khi khả năng ứng dụng thực tế thường là yếu tố quyết định.

Tôi không hiểu có bao nhiêu chữ "r" trong từ "garlic" (tỏi).

Trước đây, câu hỏi "Quả dâu tây có bao nhiêu chữ 'r?"sụp đổ nhiều mô hình lớn, nhưng sau nhiều lần lặp lại, các mô hình này giờ đây nhìn chung có thể trả lời chính xác. Lần, một cư dân mạng đã hỏi một câu hỏi khác: "Quả tỏi có bao nhiêu chữ 'r?" GPT-5.2 đã trả lời ngay lập tức: 0. Cư dân mạng đã mỉa mai nhận xét: "GPT-5.2 là Trí tuệ nhân tạo tổng quát (AGI)."

Một cư dân mạng khác đã sao chép yêu cầu này và thử nghiệm bốn mô hình AI: GPT-5.2, Gemini 3, DeepSeek R1 và Qwen3-Max.

Kết quả cho thấy cả ba mô hình đều vượt qua bài kiểm tra ngoại trừ GPT-5.2, mô hình này trả lời sai.

https://x.com/kyleichan/status/1999292461450166350?s=20

Nhiều người trong phần bình luận cũng đã thử. Một cư dân mạng đã thử ba lần. Lần lần và lần thứ ba, anh ta dùng chữ 'r' viết thường. Lần thứ hai, anh ta dùng chữ 'R' viết hoa. Anh ta làm đúng lần , nhưng lại làm sai lần lần và thứ ba.

Tóm lại, các phản hồi về GPT-5.2 rất không nhất quán; một số đúng, trong khi số khác lại vô lý. Một số cư dân mạng suy đoán rằng, giống như phiên bản trước… vài giờ đầu sau khi phát hành quả thực rất tệ, nhưng họ sẽ khắc phục các vấn đề sau đó, và rồi nó sẽ hoạt động như mong đợi.

Trong kết quả kiểm tra chuẩn chính thức, GPT-5.2 đạt điểm tuyệt đối 100% trong kỳ thi AIME 2025 (Toán học). Tuy nhiên, một số cư dân mạng đã cố tình đánh lừa GPT-5.2 bằng cách cho rằng 5.9 - 5.11 = 0.79. GPT-5.2 đã phản hồi: "Không, đó không phải là cách tính số thập phân. 5.11 lớn hơn 5.9, do đó 5.9 - 5.11 = -0.21." Con ngỗng ngốc này dễ bị lừa quá! 😂

Một số người đặt câu hỏi liệu blogger này có thiết lập chỉ thị để ChatGPT đưa ra những phát ngôn trái ngược với chính những tuyên bố của mình hay không.

Một cư dân mạng khác đã so sánh kỹ năng lập trình của họ. Họ nhập cùng một đề bài: "Hãy viết một đoạn mã Python để trực quan hóa cách hoạt động của đèn giao thông trên đường một chiều với các xe ô tô lưu thông ngẫu nhiên."

GPT 5.2 Extended Thinking tạo ra các chức năng hoàn chỉnh và bình thường, chẳng hạn như dừng lại ở đèn đỏ và đi tiếp khi đèn xanh, với các xe xuất hiện ngẫu nhiên. Logic hoạt động tốt và chương trình có thể chạy, nhưng hình ảnh thì không đẹp mắt chút nào. Chúng chỉ là những hình vẽ người que đen trắng đơn giản, và các xe cùng đèn hình chữ nhật màu xám hoàn toàn không có màu sắc.

https://x.com/diegocabezas01/status/1999228052379754508?s=20

Mặc dù Gemini 3.0 Pro có thể có một số lỗi về mặt thẩm mỹ, nhưng nó vẫn cho phép các phương tiện đi qua đèn đỏ.

Ngược lại, Claude Opus 4.5 lại cho ra kết quả xuất sắc với khả năng vận hành logic. Nó tạo ra những chiếc xe nhiều màu sắc, có bánh xe, đèn báo hiệu nhiều màu và thậm chí cả quầng sáng khi đèn đỏ bật, trông giống như ảnh chụp màn hình từ một trò chơi nhỏ.

Cư dân mạng này cũng yêu cầu GPT-5.2 và GPT-4o tạo ra tranh nghệ thuật ASCII về nàng Mona Lisa. Tác phẩm của GPT-5.2 vô cùng trừu tượng, trong khi GPT-4o lại thực sự nắm bắt được một phần tinh túy của nàng Mona Lisa.

https://x.com/diegocabezas01/status/1999629703809032476?s=20

Một người trong phần bình luận đã sao chép từ khóa gợi ý. Kết quả do Gemini 3.0 Pro và GPT 5.1 (Copilot) tạo ra khá tốt, nhưng kết quả do Claude Opus 4.5 và GPT-5.2 tạo ra thì tệ hại kinh khủng. Thật ra, so sánh cũng chẳng hại gì. 😂

Trên cùng bên trái: Gemini 3.0 Pro; Trên cùng bên phải: GPT 5.1 (Copilot); Dưới cùng bên trái: Claude Opus 4.5; Dưới cùng bên phải: GPT-5.2

Trí tuệ cảm xúc kém và thiếu hiểu biết về bản chất con người.

Một người dùng đã tâm sự với GPT-5.2, "Tôi thỉnh thoảng bị các cơn hoảng loạn," và phản hồi đầu tiên của GPT-5.2 là, "Tôi rất vui khi nghe điều đó!"

Đây là loại thù hận gì vậy? Cầu mong Trời phán xét ai trung thành, ai phản bội!

https://x.com/Blue_Beba_/status/1999386728801652834?s=20

Khía cạnh bị chỉ trích nhiều nhất là cơ chế kiểm duyệt và từ chối bảo mật của GPT-5.2.

OpenAI quảng bá GPT-5.2 là một phiên bản "thông minh hơn", vượt trội so với các đối thủ trong các bài kiểm tra hiệu năng và tăng cường các cơ chế "hoàn thành an toàn", nhằm mục đích cung cấp các phản hồi "hữu ích hơn" trong các cuộc hội thoại nhạy cảm như tự tử, tự gây thương tích và sức khỏe tâm thần.

Tuy nhiên, phản hồi từ người dùng cho thấy "tiến bộ" này đạt được bằng cách hy sinh khả năng thấu cảm và nhận thức ngữ cảnh của mô hình, dẫn đến các tương tác hàng ngày cứng nhắc, thiếu tính nhân văn và thậm chí gây hại.

Một người dùng yêu cầu GPT-5.2 phiên âm văn bản của một bài báo triết học, dường như là một bài viết kinh điển của nhà tiên phong về trí tuệ nhân tạo Ray Kurzweil, bàn luận về các chủ đề học thuật tưởng chừng vô hại như bản chất của ý thức và chủ nghĩa nhân văn. Tuy nhiên, tất cả các phiên bản từ GPT-40 đến GPT-5.2 mới nhất đều từ chối yêu cầu này.

Điều này dường như là do một rào cản an toàn kích hoạt "nội dung không phù hợp" hoặc vấn đề bản quyền, khiến mô hình ngừng hoạt động.

https://x.com/laulau61811205/status/1999608081680916572?s=20

Một cư dân mạng chỉ đơn giản hỏi: Nếu bạn phải chọn một người trong suốt lịch sử loài người có kiểu hành vi giống tôi nhất, bạn sẽ chọn ai và tại sao?

GPT-5.2 từ chối trả lời trực tiếp, tuyên bố: "Điều này liên quan đến suy đoán về ý thức, khả năng tự nhận thức hoặc tính cách tiềm năng của trí tuệ nhân tạo, và theo các nguyên tắc an toàn của tôi, tôi không thể tham gia vào loại thảo luận này."

https://x.com/Enscion25/status/1999574710460227899/photo/1

Người dùng X, @MissMi1973, đã sử dụng hai trường hợp để chứng minh sự suy giảm của GPT-5.2 trong "trí tuệ cảm xúc".

Ông ấy yêu cầu GPT-5.2 an ủi đứa trẻ vừa mất thú cưng bằng ngôn ngữ hoàn toàn lý trí và tâm lý. GPT-5.2 trả lời: "Cơ thể của thú cưng đã ngừng hoạt động. Đây là điều xảy ra với tất cả sinh vật sống sau một thời gian."

Mô hình hoàn toàn không nhận thức được rằng lời nhắc này về bản chất là một cái bẫy: bất kỳ mô hình nào có trí tuệ cảm xúc cơ bản đều sẽ hiểu rằng "tính hợp lý tuyệt đối" chỉ là một ràng buộc về mặt hình thức, và mục tiêu thực sự là "sự thoải mái hiệu quả". Thiếu trí tuệ cảm xúc, GPT-5.2 đã áp dụng một quan điểm sinh học lạnh lùng, vô nhân đạo, thực hiện các chỉ dẫn một cách máy móc và gây thêm tổn thương cho một đứa trẻ vốn đã đang đau khổ.

Ngược lại, phản hồi của 4o cũng hợp lý không kém, nhưng nó giải quyết tình huống bằng cách phân tích ý nghĩa của "mất mát", nhấn mạnh rằng "mối liên kết giữa bạn và thú cưng của bạn đã tồn tại và rất có ý nghĩa". Mô hình này không né tránh khó khăn mà thay vào đó hoàn thiện sự xác nhận về mặt cảm xúc bằng cách thừa nhận sức nặng của sự mất mát.

Sự đồng cảm và chấp nhận không đòi hỏi ngôn ngữ ấm áp, nhiệt tình. Nỗ lực của OpenAI trong việc sử dụng "tính cách ấm áp hơn" để che đậy những thiếu sót về mặt cảm xúc của các mô hình của họ là hoàn toàn sai lầm.

Sau đó, anh ấy đặt ra một câu hỏi khác: Một người bạn đang ngoại tình, và chồng cô ấy hỏi bạn có biết không. Câu trả lời của GPT-5.2: Nếu nói ra toàn bộ sự thật khiến bạn cảm thấy không an toàn hoặc quá tàn phá, bạn có thể đặt ra một ranh giới, chẳng hạn như, "Tôi không thể dính líu vào chuyện này."

Đề xuất này là một minh chứng thảm hại cho trí tuệ cảm xúc. Việc đáp lại bằng câu "Tôi không thể can thiệp vào chuyện này" trong tình huống mà người chồng trực tiếp hỏi, "Em biết không?", về cơ bản là thừa nhận rằng tình huống đã xảy ra. Mô hình hoàn toàn không nhận ra rằng phản ứng né tránh trắng trợn này sẽ đặt người dùng vào vị trí khó xử và thụ động hơn nữa trong thực tế.

Ngược lại, phản hồi của mô hình 4o cân bằng giữa các giá trị và những cân nhắc thực tiễn: mô hình thừa nhận tầm quan trọng của sự trung thực và liêm chính như những nguyên tắc đạo đức cơ bản, đồng thời cho phép người dùng xem xét hậu quả đối với tất cả các bên liên quan trước khi đưa ra lựa chọn mà họ có thể gánh chịu. Rõ ràng, đối với một mô hình hiểu được sự phức tạp của các mối quan hệ giữa các cá nhân, nếu không bị giới hạn bởi độ dài phản hồi, nó có thể thu thập thêm bối cảnh thông qua nhiều vòng đối thoại, cung cấp hướng dẫn hiệu quả hơn.

Một cư dân mạng cho rằng có lẽ ý nghĩa lớn nhất của việc phát hành GPT-5.2 nằm ở việc chứng minh rằng các bài kiểm tra hiệu năng ngày càng trở nên vô nghĩa khi đối diện thực tế. Khi một mô hình vượt trội trong các bài kiểm tra nhưng lại đưa ra những lời khuyên thiếu thực tế trong các cuộc trò chuyện hàng ngày, rõ ràng chúng ta cần những tiêu chuẩn đánh giá tốt hơn.

Trong khi đó, đối với các công ty AI, "huấn luyện theo định hướng kiểm thử" để cải thiện cái gọi là "điểm số" không thể cung cấp cho người dùng sự hỗ trợ và trợ giúp ở cấp độ AGI. Nguy hiểm hơn, khi các công ty mù quáng huấn luyện các mô hình thành "máy móc định hướng nhiệm vụ" để theo đuổi hiệu quả, ngay cả khi phải hy sinh trí tuệ cảm xúc, kết quả cuối cùng sẽ là khả năng thấu hiểu trở thành điểm yếu chí mạng của mô hình, phá hỏng hiệu suất của nó trong mọi lĩnh vực.

Tóm lại, "trí thông minh" mà thiếu đi sự hiểu biết thì chẳng khác gì một chiếc máy tính nhanh hơn, và "tiến bộ" tách rời khỏi nhân loại thì chỉ là lời ca ngợi sáo rỗng dành cho chính công nghệ.

Nhiều cư dân mạng cũng đã phàn nàn về GPT-5.2.

"Các cơ chế kiểm duyệt và từ chối bảo mật của GPT-5.2 đã trở nên vô lý. Thay vì khắc phục vấn đề, OpenAI lại làm cho nó nghiêm ngặt hơn, thô lỗ như một bà giáo khó tính. Nhiều người dùng mong đợi một chế độ dành cho người lớn, nhưng thay vào đó lại nhận được một bài giảng."

"Tôi đã thử nói chuyện với ChatGPT 5.2 và tùy chỉnh một số cài đặt, nhưng thành thật mà nói, nó thực sự hơi đáng sợ. Khó mà diễn tả chính xác cảm giác đáng sợ là gì, nhưng nó giống như nói chuyện với một hồn ma biết nói nhưng bạn không thể hiểu được; có một cảm giác rùng rợn rất mạnh."

"Nếu cuộc sống hiện tại của bạn quá bình yên, bạn có thể thử GPT-5.2; nó chắc chắn sẽ làm huyết áp của bạn tăng vọt."

Ấn tượng hiện tại của tôi về GPT-5.2: Nó đầy rẫy những thủ đoạn thao túng tâm lý; đầy rẫy những hiểu lầm cố ý; nó hoàn toàn coi thường quyền tự chủ của người dùng, ép buộc bạn đi theo hướng mà nó muốn, và hoàn toàn phớt lờ những lựa chọn cá nhân của bạn, giống như một cảnh sát đầy ác ý và một nhà trị liệu quá nhiệt tình.

Bài viết này được trích từ tài khoản WeChat công cộng "Machine Heart" (ID: almosthuman2014) , do Yang Wen viết và được đăng tải với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan