Gemini 2.5 Pro của Google đứng đầu bảng xếp hạng mã hóa và bài kiểm tra MENSA trong cuộc chiến 'IQ' AI

05-09

Bài viết này được dịch máy

Xem bản gốc

Gemini 2.5 Pro của Google mới được ra mắt đã vươn lên vị trí hàng đầu trong các bảng xếp hạng mã hóa, vượt qua Claude tại WebDev Arena—một trang xếp hạng phi giáo phái tương tự như LLM arena, nhưng tập trung cụ thể vào việc đo lường khả năng mã hóa của các mô hình AI. Thành tựu này diễn ra giữa nỗ lực của Google nhằm định vị mô hình AI chính của mình như một nhà lãnh đạo trong cả các nhiệm vụ mã hóa và suy luận.

Được phát hành đầu năm nay, Gemini 2.5 Pro xếp hạng đầu trên một số danh mục, bao gồm mã hóa, kiểm soát phong cách và sáng tạo văn bản. Cửa sổ ngữ cảnh khổng lồ của mô hình—một triệu token mở rộng lên hai triệu sớm—cho phép nó xử lý các cơ sở mã và dự án phức tạp mà ngay cả các đối thủ gần nhất cũng không thể xử lý được. Để so sánh, các mô hình mạnh như ChatGPT và Claude 3.7 Sonnet chỉ có thể xử lý tối đa 128K token.

Gemini cũng có "IQ" cao nhất trong tất cả các mô hình AI. TrackingAI đã đưa nó qua các bài kiểm tra MENSA được chuẩn hóa, sử dụng các câu hỏi bằng lời nói từ Mensa Na Uy để tạo ra một cách tiêu chuẩn để so sánh các mô hình AI.

Gemini 2.5 Pro đã đạt điểm cao hơn các đối thủ trong các bài kiểm tra này, thậm chí khi sử dụng các câu hỏi riêng không có sẵn trong dữ liệu đào tạo.

Với điểm IQ 115 trong các bài kiểm tra ngoại tuyến, Gemini mới được xếp vào nhóm "tư duy sáng", với mức trung bình trí tuệ con người là khoảng 85 đến 114 điểm. Nhưng khái niệm về IQ của AI cần được giải thích rõ. Các hệ thống AI không có chỉ số thương trí như con người, vì vậy tốt hơn hết nên coi điểm chuẩn này như một phép ẩn dụ về hiệu suất trong các tiêu chuẩn suy luận.

Đối với các tiêu chuẩn được thiết kế riêng cho AI, Gemini 2.5 Pro đã đạt 86,7% trong bài kiểm tra toán AIME 2025 và 84,0% trong đánh giá khoa học GPQA. Trong Kỳ Thi Cuối Cùng của Nhân Loại (HLE), một tiêu chuẩn mới và khó hơn được tạo ra để tránh các vấn đề bão hòa bài kiểm tra, Gemini 2.5 đã đạt 18,8%, vượt qua o3 mini của OpenAI (14%) và Claude 3.7 Sonnet (8,9%), điều này đáng chú ý về mức tăng hiệu suất.

Phiên bản mới của Gemini 2.5 Pro hiện đã có sẵn miễn phí (với giới hạn tỷ lệ) cho tất cả người dùng Gemini. Google trước đây đã mô tả bản phát hành này là một "phiên bản thử nghiệm của 2.5 Pro", là một phần trong gia đình các "mô hình suy nghĩ" được thiết kế để suy luận thông qua các phản hồi thay vì chỉ đơn giản là tạo văn bản.

Mặc dù không giành chiến thắng ở mọi tiêu chuẩn, Gemini đã thu hút sự chú ý của các nhà phát triển với tính linh hoạt của mình. Mô hình có thể tạo ra các ứng dụng phức tạp từ các lời nhắc đơn, xây dựng các ứng dụng web tương tác, trò chơi chạy không dừng và các mô phỏng trực quan mà không cần hướng dẫn chi tiết.

Chúng tôi đã thử nghiệm mô hình bằng cách yêu cầu nó sửa mã HTML5 bị hỏng. Nó đã tạo ra gần 1000 dòng mã, cung cấp kết quả vượt qua Claude 3.7 Sonnet—nhà lãnh đạo trước đây—về chất lượng và sự hiểu biết đầy đủ về tập hướng dẫn.

Đối với các nhà phát triển đang làm việc, chi phí đầu vào của Gemini 2.5 Pro là 2,50 đô la cho mỗi triệu token và chi phí đầu ra là 15,00 đô la cho mỗi triệu token, định vị nó như một lựa chọn rẻ hơn so với một số đối thủ trong khi vẫn cung cấp các khả năng ấn tượng.

Mô hình AI này có thể xử lý lên đến 30.000 dòng mã trong gói Nâng cao của mình, làm cho nó phù hợp cho các dự án cấp doanh nghiệp. Các khả năng đa phương thức của nó—làm việc với văn bản, mã, âm thanh, hình ảnh và video—thêm tính linh hoạt mà các mô hình tập trung vào mã hóa khác không thể sánh kịp.

Khu vực:

Khai Thác Lợi Suất

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

Decrypt

Những chú chim cánh cụt mũm mĩm đến thành phố New York với sự kiện pop-up nhân dịp Ngày Valentine

VALENTINE