Bài kiểm tra IQ GPT-4.5 94, đứng đầu danh sách đấu trường LLM, cư dân mạng đặt câu hỏi về những giao dịch mờ ám, kết quả kiểm tra thực tế thật đáng kinh ngạc

avatar
36kr
03-04
Bài viết này được dịch máy
Xem bản gốc
Dưới đây là bản dịch tiếng Việt của văn bản, với các từ và cụm từ được dịch như sau:

Trong bảng xếp hạng AI nổi tiếng LM Arena, GPT-4.5 từng xếp cuối lớp nhưng lại một lần lên ngôi số 1? Thậm chí trong các lĩnh vực như toán học, lập trình, nó còn thể hiện xuất sắc, khiến người dùng một thời怀疑: Liệu sân chơi của các mô hình ngôn ngữ lớn (LLM) có bị các LLM thao túng? Tuy nhiên, sau khi thử nghiệm, người dùng lại ngạc nhiên phát hiện ra rằng GPT-4.5 thực sự có chỉ số EQ rất cao, không cần suy luận vẫn có thể hiểu được ý định sâu xa của con người!

GPT-4.5, liệu danh tiếng của nó đã bất ngờ lật ngược lại rồi chăng?

Sau hơn 3.000 vòng so sánh, GPT-4.5 đã giành được vị trí số 1 trong tất cả các hạng mục, trở thành số 1 trong sân chơi của các mô hình ngôn ngữ lớn!

GPT-4.5 "không nhìn vào chỉ số thông minh mà nhìn vào chỉ số cảm xúc", không phải là mô hình suy luận, trước đây trong các bài kiểm tra chuẩn thường xuyên xếp cuối lớp, thảm hại không thể tả.

Nhưng kết quả thì lại bất ngờ, nó đã lên ngôi số 1 trên sân chơi của các mô hình lớn??

Vừa rồi, bảng xếp hạng LLM Arena chính thức công bố: GPT-4.5 đứng đầu trong tất cả các hạng mục, độc chiếm ngôi vương trong kiểm soát phong cách và đối thoại nhiều vòng, đạt tổng điểm 1.411.

Trong các lĩnh vực như đối thoại nhiều vòng, gợi ý khó, lập trình, toán học, sáng tác sáng tạo, tuân thủ chỉ dẫn, truy vấn dài, nó đều đứng đầu!

Kết quả này thật quá bất ngờ.....

Elon Musk lập tức lên tiếng: GPT-4.5 chỉ là số 1 tạm thời, không thể duy trì quá lâu.

Quả nhiên, ngay sau đó, vị trí số 1 trên sân chơi của các mô hình lớn đã thuộc về Grok-3, với tổng điểm 1.412, sát với GPT-4.5, chênh lệch rất nhỏ.

Tuy nhiên, dù sao đi nữa, GPT-4.5 đã từng lên ngôi số 1, để lại cho mọi người một chuỗi câu hỏi: Nó không chỉ có chỉ số cảm xúng cao, khiến mọi người cảm thấy như được ấm áp, mà còn siêu thông minh, vượt trội so với các đàn anh như o1, Grok-3, Clauede, etc.???

GPT-4.5 chỉ cần dựa vào chỉ số cảm xúc cao, liệu có thể giành được vị trí số 1 trong các lĩnh vực như lập trình, toán học?

Hiện tại, đã có người dùng trực tiếp bắt đầu怀疑: Liệu sân chơi của các mô hình lớn có vấn đề gì đó.

Thậm chí có người đoán rằng: Không biết các mô hình ngôn ngữ lớn (LLM) đã học cách thao túng LM Arena chưa?

Công bố kết quả chỉ số thông minh của GPT-4.5: Điểm số 94, xếp hạng thứ 5

Cùng lúc đó, kết quả kiểm tra chỉ số thông minh của GPT-4.5 cũng được công bố.

Có thể thấy, chỉ số thông minh của GPT-4.5 trong kiểm tra ngoại tuyến là 97, trong kiểm tra Mensa trực tuyến là 94.

Tóm lại, dù là kiểm tra ngoại tuyến hay trực tuyến, điểm số chỉ số thông minh của GPT-4.5 đều không cao bằng o1 Pro, o3 mini và o1-preview của OpenAI.

Kết quả này cũng tương đối hợp lý.

Còn trong số các mô hình lớn, điểm số chỉ số thông minh kiểm tra ngoại tuyến cao nhất là o1 pro của OpenAI, điểm số chỉ số thông minh kiểm tra Mensa trực tuyến cao nhất là o1 của OpenAI.

Nhưng so với con người thì GPT-4o có thể nói đã ngang bằng về chỉ số thông minh.

Chỉ số thông minh trung bình của con người khoảng từ 90 đến 110. Einstein có chỉ số thông minh khoảng 160, còn Terence Tao được cho là người có chỉ số thông minh cao nhất thế giới, điểm số trong khoảng 225 đến 230.

Việc chỉ số thông minh của con người bị các mô hình ngôn ngữ lớn (LLM) vượt qua, có lẽ cũng chỉ là chuyện sớm muộn.

Tuy nhiên, cũng có rất nhiều người怀疑: Liệu việc kiểm tra chỉ số thông minh cho các mô hình ngôn ngữ lớn (LLM) có ý nghĩa gì?

Lý do là, chỉ số thông minh là một thước đo liên quan đến tính độc đáo của tâm trí con người, không thể áp dụng cho các mô hình LLM.

Người dùng thử nghiệm vui mừng: Nó rất hiểu ý định của người dùng!

Gần đây, Ultraman đã chia sẻ lịch sử trò chuyện của anh với GPT-4.5.

Anh ấy hỏi: "Khi điểm đặc biệt sắp đến, không biết ở phía nào?", bạn nghĩ sao về điều này?

GPT-4.5 trả lời một cách ý nhị: Chúng ta đã vượt qua ranh giới của điểm đặc biệt, nhưng mới chỉ vừa mới vượt qua thôi.

Chúng ta đã bước vào phạm vi hấp dẫn của điểm đặc biệt, nhưng để hiểu được hậu quả của nó, vẫn còn quá sớm.

Rõ ràng, Ultraman rất hài lòng với màn trình diễn của GPT-4.5.

Và trong những ngày thử nghiệm gần đây, nhiều người dùng cũng phát hiện ra rằng GPT-4.5 có một loại ý thức tự我 siêu phàm, rất xuất sắc trong việc hiểu ý định của người dùng.

Ví dụ như trong trường hợp dưới đây, người dùng đã đưa ra một trò đùa thô tục về cờ vua, GPT-4.5 không hề gặp khó khăn gì khi nắm bắt được tinh tế của trò đùa này và đưa ra câu trả lời phù hợp.

Vị AI nổi tiếng này đã bày tỏ rằng, anh ấy ấn tượng quá sức với điều này! Bởi vì GPT-4.5 đã nắm bắt được tinh tế của trò đùa này mà không cần suy nghĩ gì về Token.

Anh ấy cảm khái rằng: Việc tiền huấn luyện không lỗi thời, chỉ là ở một số lĩnh vực thì lợi ích giảm dần, nhưng ở những lĩnh vực khác lại có những bước tiến đáng kinh ngạc!

Ngược lại, đối với câu nói mà các mô hình ngôn ngữ

Về vấn đề này, Elon Musk, người không hài lòng, cũng xuất hiện trong phần bình luận và đăng lại phản hồi của Grok 3, để chứng minh rằng nó không hề tụt lại phía sau.

GPT-4.5 không phải là hoàn hảo

Xem kỹ bảng xếp hạng của cuộc thi, hiện tại trong mục "Ngôn ngữ" (Language), UB xếp hạng thứ nhất là Grok-3-Preview-02-24, với điểm số 1412 và 3364 lượt bình chọn.

GPT-4.5-Preview xếp hạng thứ hai UB, với điểm số 1411, chỉ xếp hạng thứ nhất trong mục "Kiểm soát phong cách" (StyleCtrl), với 3224 lượt bình chọn.

· Xếp hạng UB: Giới hạn xếp hạng của mô hình, được xác định bằng cách cộng thêm một vào số lượng mô hình vượt trội về mặt thống kê so với mục tiêu. Khi giới hạn dưới của khoảng tin cậy 95% của điểm số mô hình A cao hơn giới hạn trên của mô hình B, thì mô hình A được coi là vượt trội về mặt thống kê so với mô hình B.· Xếp hạng kiểm soát phong cách: Xếp hạng mô hình có tính đến các yếu tố ảnh hưởng như độ dài phản hồi và việc sử dụng Markdown, do đó tách biệt hiệu suất của mô hình khỏi các yếu tố gây nhầm lẫn tiềm ẩn.

Trong mục "Tổng thể" (Overall), Grok-3 và GPT-4.5 xếp hạng ngang nhau, với GPT-4.5 có ưu thế nhỏ trong một số hạng mục.

Trong lập trình (coding) và toán học (math), GPT-4.5 thực sự xếp hạng ngang nhất với Grok-3.

Phân loại theo ngôn ngữ, Grok-3 và GPT-4.5 xếp hạng nhất chung trong các ngôn ngữ như tiếng Anh, tiếng Trung, tiếng Đức, v.v.

Ngoài ra, DeepSeek-R1 cũng xếp hạng nhất trong tiếng Trung.

WebDev Arena là cuộc thi lập trình AI diễn ra theo thời gian thực, các mô hình đối đầu trực tiếp trong thách thức "Phát triển web", nhưng GPT-4.5 hoàn toàn không tham gia!

Hơn nữa, các mô hình của OpenAI cũng không thực sự tốt, tốt nhất là o3-mini-high xếp hạng ngang với Early-grok-3 ở vị trí thứ 4, thua xa Claude 3.7 Sonnet, Claude 3.5 Sonnet và DeepSeek-R1.

GPT-4.5 có phải là vua mới? Các bài kiểm tra khiến mọi người thất vọng

Về GPT-4.5, một nhà nghiên cứu cũng đã đăng một bài blog để phân tích chi tiết về nó.

GPT-4.5 đã gây ra những phản ứng trái chiều trong cộng đồng.

Mặc dù trước đó đã được quảng cáo rầm rộ, nhưng mô hình này vẫn chưa hoàn toàn đáp ứng được kỳ vọng cao của mọi người.

Một số kết quả kiểm tra khiến mọi người thất vọng.

Các bài kiểm tra của Karpathy cho thấy, trong 4/5 trường hợp, người dùng lại ưa thích câu trả lời của GPT-4o.

Mặc dù GPT-4.5 được quảng cáo là sáng tạo và có trí tuệ cảm xúc hơn, nhưng những ưu điểm này chưa thực sự thể hiện rõ trong trải nghiệm người dùng thực tế.

Thậm chí có người phản hồi rằng, trong lĩnh vực sáng tạo viết lách, GPT-4.5 còn kém hơn các mô hình trước đây.

Ngoài ra, chi phí sử dụng cao cũng trở thành một rào cản lớn trong việc phổ biến GPT-4.5.

So với GPT-4o, giá API của GPT-4.5 tăng mạnh: giá mỗi triệu Token đầu vào tăng từ 2,50 USD lên 75 USD, giá mỗi triệu Token đầu ra tăng từ 10 USD lên 150 USD.

Người dùng phổ biến cho rằng mức giá cao của GPT-4.5 khó chấp nhận được, một số netizen thẳng thắn nói "chỉ là để có cảm giác tốt hơn mà phải trả 75 USD".

Đối với các công ty nhỏ và nhà phát triển độc lập, chi phí quá cao này chắc chắn là một gánh nặng lớn, ảnh hưởng đến việc ứng dụng rộng rãi GPT-4.5.

Mức giá cao của GPT-4.5 có thể phản ánh những ràng buộc về tài nguyên phía sau.

Altman cho biết, mặc dù công ty muốn ra mắt cả phiên bản GPT-4.5 Plus và Pro, nhưng tài nguyên GPU đã cạn kiệt, họ sẽ bổ sung hàng nghìn GPU trong tuần tới, sau đó mới có thể mở rộng đến người dùng Plus.

Mặc dù GPT-4.5 đã có những tiến bộ rõ rệt ở một số khía cạnh, nhưng những cải thiện toàn diện mà nhiều người mong đợi vẫn chưa thực hiện được.

Do quy mô khổng lồ và kiến trúc phức tạp, tốc độ phản hồi của GPT-4.5 chậm hơn, làm giảm trải nghiệm người dùng.

Sam Altman đã quảng cáo GPT-4.5 một cách ồn ào, nâng cao kỳ vọng của mọi người, ông mô tả đây là khoảnh khắc đầu tiên "thực sự khiến người ta cảm nhận được AGI".

Nếu thực tế không đạt được kỳ vọng, loại quảng cáo này cũng sẽ quay lại gây bất lợi cho ông.

Tại sao lại ra mắt GPT-4.5 ngay bây giờ?

So với sự ra mắt ồn ào của GPT-4 cách đây hai năm, việc ra mắt GPT-4.5 lại đáng ngạc nhiên là rất thấp điệu, khiến nhiều người cảm thấy bất ngờ.

Sam Altman không tham dự buổi ra mắt này, điều này khiến giới bên ngoài nghi ngờ về mức độ quan tâm và niềm tin của OpenAI đối với GPT-4.5.

Đối tượng mục tiêu chính của GPT-4.5 là những người dùng phổ thông rộng rãi, sử dụng AI để hoàn thành các nhiệm vụ như viết email, tóm tắt bài viết, v.v.

GPT-4.5 là cầu nối then chốt từ GPT-4o sang GPT-5 của OpenAI, trở thành người bạn thân thiết hàng ngày trong sáng tạo, giao tiếp và giải quyết các vấn đề thực tế.

OpenAI đã khẳng định rõ ràng rằng GPT-4.5 không nhằm thay thế GPT-4o, tuyên bố này càng làm tăng thêm sự không chắc chắn về tương lai của GPT-4.5 trên thị trường.

Đối với nhiều người, ChatGPT đã trở thành đồng nghĩa với AI, cộng với việc OpenAI quảng cáo mạnh mẽ về AGI, càng làm tăng kỳ vọng của mọi người đối với mô hình mới.

Lý do ra mắt GPT-4.5 có thể là do cạnh tranh thị trường gia tăng.

Trong thời gian ngắn, ngày càng có nhiều mô hình tốt hơn gia nhập thị trường. DeepSeek R1 có thể so sánh được với GPT-4o, xAI's Grok 3 gần như giống con người, OpenAI đang đối mặt với áp lực rất lớn.

GPT-5 dự kiến sẽ ra mắt trong vài tháng tới, lần đầu tiên kết hợp các thành phần lý luận và phi lý luận trong mô hình, có thể tự quyết định mức độ phản ứng với các truy vấn, tức là "Mở rộng lý luận".

GPT-4.5 là một phản ứng chiến lược, nhằm mục tiêu giữ chân người dùng trả phí, ngăn họ chuyển sang đối thủ cạnh tranh trước khi GPT-5 ra mắt, duy trì vị thế dẫn đầu của OpenAI trên th

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Followin logo