Phải chăng GPT-5.2 bị điên rồi, khi có giá cao gấp 400 lần DeepSeek?

Bài viết này được dịch máy
Xem bản gốc

Nó đắt hơn DeepSeek 400 lần và đắt hơn Gemini 3 Pro của Google gần 10 lần.

GPT-5.2 mới được OpenAI phát hành có cấp độ kiểm thử như thế nào?

Nói một cách đơn giản, anh chàng này có thể là trí tuệ nhân tạo phù hợp nhất cho người lao động, bởi vì nó có khả năng khởi xướng sự chuyển đổi của trí tuệ nhân tạo từ trợ lý con người thành chuyên gia.

Thứ nhất, xét về kiến ​​thức chuyên môn, GPT-5.2 tự tin 70% rằng nó có thể vượt trội hơn các chuyên gia trong ngành khi xem video trên màn hình của họ.

Nếu chỉ xét riêng về điểm chuẩn, LẦN-5.2 vượt trội hơn Gemini 3 Pro một chút ở mọi khía cạnh.

Tất nhiên, điểm số chỉ cao hơn một chút, và có thể OpenAI đang cố gắng nâng cao điểm số của mình so với Gemini .

Nhưng điều mà OpenAI quan tâm nhất lần thực ra là kết quả kiểm tra GDPval cuối cùng.

Đây là một phương pháp thử nghiệm hoàn toàn mới mà họ đề xuất vào ngày 25 tháng 9 năm nay, được sử dụng để đo lường xem trí tuệ nhân tạo (AI) có thực sự giúp người lao động hoàn thành công việc của họ hay không.

Vì vậy, họ đã mời các chuyên gia từ chín lĩnh vực và bốn mươi bốn ngành công nghiệp để đưa ra một loạt câu hỏi dựa trên hoàn cảnh làm việc của họ.

Vậy hãy xem liệu trí tuệ nhân tạo có thể làm được công việc của các chuyên gia này hay không.

Kết quả là, phiên bản GPT-5.2 mới nhất có thể sánh ngang, hoặc thậm chí vượt trội hơn con người trong 70% số nhiệm vụ.

Chúng tôi cũng đã có một trải nghiệm thực tế ngắn gọn với mô hình mới này, bằng cách cho GPT-5.2 thu thập số liệu thống kê về tất cả các mô hình được các công ty AI này phát hành trên internet.

Tiếp theo, điểm số do các mô hình này tạo ra trên các bảng xếp hạng khác nhau được tổng hợp, và cuối cùng, các điểm số này được thống kê theo từng tháng.

Sau 14 phút cân nhắc kỹ lưỡng, DỮ LIỆU-5.2 đã hoàn thành xuất sắc nhiệm vụ thu thập sê-ri , phân tích thống kê và tạo bảng cho chúng tôi.

Mức độ hoàn thiện thực sự khá tốt.

Ngoài ra, GPT-5.2 cũng có thể hoàn thành một số tác vụ bảng phức tạp, và các bảng mà nó tạo ra có tính thẩm mỹ cao hơn nhiều so với các bảng mà nó từng tạo ra trước đây.

Hơn nữa, chỉ báo kiểm tra đối với nhiều nhiệm vụ khác nhau đã được cải thiện khoảng 9%.

GPT-5.2 cũng đã có những cải tiến đáng kể về hiệu năng mã hóa.

Xác suất gặp ảo giác đã giảm 38% so với trước đây.

Mục tiêu là mang lại sự an tâm hơn cho mọi người khi sử dụng sản phẩm này.

Chúng tôi đã thực hiện một bài kiểm tra đơn giản, nhưng có lẽ do chất lượng tuyệt vời Gemini , GPT-5.2 lại có vẻ không mấy nổi bật đối với tôi.

Hãy để nó viết một Aimlab (một trò chơi nhỏ để luyện tập kỹ năng ngắm bắn).

Thật vậy, chương trình hoàn toàn có thể được viết ra, và không chỉ chạy được mà còn có thể điều chỉnh các thông số cơ bản như kích thước mục tiêu và thời lượng trò chơi.

Những thứ này không có gì sai cả, chỉ là hơi quá thông thường thôi.

Về mặt thẩm mỹ, nó có phần bị lu mờ bởi Gemini 3 ra mắt tháng trước.

Với cùng một trò chơi được tạo ra từ cùng một câu nói, Gemini đã bắt đầu xem xét nhiều phối màu hợp thời, trong khi GPT vẫn chỉ sơn những bức tường trắng trơn và xây một ngôi nhà đơn sơ.

Tất nhiên, cũng có thể là tôi đã không nêu rõ GPT nên có hình thức như thế nào.

Bên cạnh những cải tiến về nhiều khả năng làm việc, GPT-5.2 còn có một thay đổi rất thú vị lần.

Nó đã trở nên giỏi hơn trong việc hiểu ngôn ngữ của con người.

Trong quá trình thử nghiệm, người ta phát hiện ra rằng nếu GPT được yêu cầu viết 50 ý tưởng, nó sẽ nghiêm túc viết cả 50 ý tưởng, thay vì bắt đầu lơ là sau khi viết được 10 ý tưởng như các mô hình trước đây.

Ngoài ra, OpenAI cũng đã nâng cao khả năng hiểu ngữ cảnh. Trong thí nghiệm chèn kim, ngay cả khi độ dài văn bản đạt tới 256K, tỷ lệ thành công vẫn gần 100%.

Điều này tương đương với việc anh ta có thể chỉ ra chính xác chỗ nào bạn đã bí mật thêm thắt nội dung hoặc xúc phạm tôi trong một cuốn tiểu thuyết kinh điển dài hàng trăm nghìn từ.

Đây là một sự thúc đẩy lớn nữa dành cho các chuyên gia và nhà nghiên cứu đang làm việc, những người viết mã, thực hiện nghiên cứu học thuật, tóm tắt và sắp xếp tài liệu.

Mặc dù có độ bền giấy ấn tượng, sản phẩm vẫn còn một số điểm yếu.

Ví dụ, trong các trường hợp nhận dạng hình ảnh được chính thức trình bày, người ta nhận thấy rằng độ chi tiết của Gemini 3 Pro hoàn toàn vượt trội so với GPT 5.2.

Một số người phàn nàn rằng với việc ra mắt mẫu mới, phiên bản cũ có thể sẽ trở nên kém thông minh hơn nữa.

Đây là một bộ anime kinh điển cũ.

Cuối cùng, việc phát hành GPT-5.2 thực sự cho chúng ta thấy một xu hướng.

Tức là, trong tương lai, sự khác biệt giữa các mô hình hàng đầu có thể ngày càng trở nên rõ ràng hơn, mỗi mô hình sẽ nghiêng nhẹ về một phương pháp khoa học cụ thể.

Ví dụ, Gemini có thể vượt trội hơn hẳn trong lĩnh vực đa phương thức; GPT vẫn dẫn đầu so với các đối thủ về khả năng suy luận logic và năng suất; và Claude tiếp tục dẫn đầu với khoảng cách khá lớn về khả năng lập trình và viết lách.

Cuối cùng, sự khác biệt giữa các công ty lớn về cách đạt được Trí tuệ Nhân tạo Tổng quát (AGI) đã trở nên rõ ràng. Google có thể tin rằng nhận thức đa phương thức về thế giới là tương lai; mặt khác, OpenAI tin vào khả năng suy luận logic cực cao và cải thiện năng suất; và Anthropic cho rằng rằng sự hiểu biết và liên kết ngữ nghĩa đa chiều là chìa khóa để đạt được AGI.

Tình hình hiện tại, khi AI thay phiên nhau giữ vị trí dẫn đầu, vẫn tiếp diễn, và theo thứ tự, Anthropic có lẽ sẽ là công ty tiếp theo có động thái thay đổi.

Nhân tiện, tôi cũng muốn nhắc lại một lần nữa: khi nào Ultraman sẽ phát hành chế độ người lớn như đã hứa?

Bài viết này được trích từ tài khoản WeChat công cộng "Cha Ping X.PIN" , do Jiang Jiang và Zao Qi biên soạn, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận