Ngay cả Ultraman cũng khen ngợi, vậy điều gì khiến Google Gemini 3 Pro mạnh mẽ như vậy?

11-19

Bài viết này được dịch máy

Xem bản gốc

Tác giả: Miêu Tranh

Sau tám tháng giả vờ ngủ, Google bất ngờ tung ra một sản phẩm gây chấn động: Gemini 3 Pro.

Google cuối cùng đã phát hành Gemini 3 Pro, khá đột ngột và theo cách rất "kín đáo".

Trong khi Google gây chú ý khi ra mắt mẫu máy chỉnh sửa ảnh Nano Banana trước Gemini 3 Pro, thì hãng lại quá im lặng về khía cạnh mẫu máy cao cấp.

Trong sáu tháng qua, mọi người đều thảo luận về những động thái mới của OpenAI hoặc kinh ngạc trước sự thống trị của Claude trong lĩnh vực lập trình, nhưng không ai nhắc đến Gemini, vốn không có nâng cấp số phiên bản trong tám tháng.

Ngay cả với báo cáo tài chính và việc kinh doanh đám mây ấn tượng, sự hiện diện của Google trong nhóm các nhà phát triển AI cốt lõi cũng đang dần bị lu mờ.

May mắn thay, sau khi trải nghiệm trực tiếp, chúng tôi thấy rằng Gemini 3 Pro không làm chúng tôi thất vọng.

Tuy nhiên, vẫn còn quá sớm để đưa ra kết luận. Lĩnh vực AI từ lâu đã vượt ra khỏi giai đoạn khiến người dùng e ngại bằng số lượng thông số khổng lồ; giờ đây, mọi người đều tập trung vào ứng dụng, triển khai và giảm chi phí.

Liệu Google có thể thích ứng với phiên bản mới và hoàn cảnh mới hay không vẫn còn phải chờ xem.

01

Tôi đã yêu cầu Gemini 3 Pro mô tả bản thân trong một câu và đây là câu trả lời mà nó đưa ra.

"Thay vì vội vã chứng minh mình thông minh với thế giới, tôi bắt đầu nghĩ về cách làm cho bản thân hữu ích hơn." — Gemini 3 Pro

Trên bảng xếp hạng LMARaena, Gemini 3 Pro đã dẫn đầu danh sách với điểm Elo là 1501, lập kỷ lục mới về các mô hình AI trong đánh giá năng lực toàn diện. Đây là một thành tích xuất sắc, và ngay cả Ultraman cũng đã tweet lời chúc mừng.

Trong các bài kiểm tra năng khiếu toán học, mô hình đạt độ chính xác 100% ở chế độ thực thi mã AIME 2025 (Cuộc thi Toán học Mời của Mỹ). Trong bài kiểm tra kiến thức khoa học GPQA Diamond, Gemini 3 Pro đạt tỷ lệ chính xác 91,9%.

Kết quả từ cuộc thi toán MathArenaApex cho thấy Gemini 3 Pro đạt điểm 23,4%, trong khi các mô hình chính thống khác thường đạt điểm dưới 2%. Hơn nữa, trong bài kiểm tra LastExam của Humanity, mô hình đạt điểm 37,5% mà không cần sử dụng công cụ này.

Trong bản cập nhật lần, Google đã giới thiệu tính năng tạo mã có tên là "vibecoding". Tính năng này cho phép người dùng mô tả nhu cầu của mình bằng ngôn ngữ tự nhiên và hệ thống sẽ tạo mã và ứng dụng tương ứng.

Trong các thử nghiệm được thực hiện trong hoàn cảnh lập trình Canvas, sau khi người dùng mô tả "tạo ra một chiếc quạt điện có thể điều chỉnh tốc độ", hệ thống đã tạo ra mã hoàn chỉnh, bao gồm hoạt ảnh xoay, thanh trượt điều khiển tốc độ và nút bật/tắt, trong vòng khoảng 30 giây.

Các nghiên cứu điển hình chính thức cũng bao gồm mô phỏng trực quan về quá trình tổng hợp hạt nhân.

Về mặt tương tác, Gemini 3 Pro bổ sung tính năng "Giao diện người dùng tạo sinh". Không giống như các trợ lý AI truyền thống chỉ trả về câu trả lời dạng văn bản, hệ thống này có thể tự động tạo ra giao diện tùy chỉnh dựa trên nội dung truy vấn.

Ví dụ, khi người dùng đặt câu hỏi liên quan đến máy tính lượng tử, hệ thống có thể tạo ra giao diện tương tác bao gồm giải thích về các khái niệm, sơ đồ động và liên kết đến các bài báo có liên quan.

Hệ thống tạo ra các thiết kế giao diện khác nhau cho cùng một câu hỏi dành cho các đối tượng khác nhau. Ví dụ, khi giải thích cùng một khái niệm cho trẻ em và người lớn, các phương pháp trình bày sẽ khác nhau. Giao diện dành cho trẻ em sẽ dễ thương hơn, trong khi giao diện dành cho người lớn sẽ súc tích và rõ ràng hơn.

Tính năng thử nghiệm Visual Layout do Google Labs cung cấp chứng minh ứng dụng của giao diện này, cho phép người dùng có được bố cục dạng tạp chí bao gồm hình ảnh, mô-đun và các thành phần UI có thể điều chỉnh.

Phiên bản lần cũng bao gồm một hệ thống tác nhân thông minh mang tên Gemini Agent, hiện đang trong giai đoạn thử nghiệm. Hệ thống này có thể thực hiện nhiệm vụ nhiều bước và kết nối với các dịch vụ của Google như Gmail, Google Calendar và Reminders.

Trong phần quản lý hộp thư đến, hệ thống có thể tự động lọc email, ưu tiên đánh dấu và soạn thảo thư trả lời. Lập kế hoạch du lịch là một ứng dụng khác; người dùng chỉ cần cung cấp điểm đến và ngày dự kiến, hệ thống sẽ truy vấn lịch, tìm kiếm các lựa chọn chuyến bay và khách sạn, rồi thêm hành trình. Tính năng này hiện chỉ khả dụng cho người đăng ký Google AI Ultra tại Hoa Kỳ.

Về mặt xử lý đa phương thức, Gemini 3 Pro được xây dựng trên kiến trúc chuyên gia lai thưa thớt, hỗ trợ đầu vào văn bản, hình ảnh, âm thanh và video. Cửa sổ ngữ cảnh của mô hình là 1 triệu token, nghĩa là nó có thể xử lý các tài liệu dài hoặc nội dung video.

Các cuộc thử nghiệm do Mark Humphries, giáo sư lịch sử tại Đại học Laurier ở Canada, thực hiện cho thấy mô hình này có tỷ lệ lỗi ký tự là 0,56% khi nhận dạng các bản thảo viết tay thế kỷ 18, giảm từ 50% đến 70% so với các phiên bản trước.

Google tuyên bố rằng dữ liệu đào tạo bao gồm các tài liệu web, mã, hình ảnh, âm thanh và nội dung video có sẵn công khai, và các kỹ thuật học tăng cường đã được sử dụng trong giai đoạn đào tạo sau.

Google cũng đã ra mắt phiên bản tối ưu hóa mang tên Gemini 3 Deep Think, được thiết kế riêng cho nhiệm vụ suy luận phức tạp. Chế độ này hiện đang được đánh giá bảo mật và dự kiến sẽ được triển khai cho người dùng Google AI Ultra trong vài tuần tới.

Trong chế độ AI của Google Tìm kiếm, người dùng có thể nhấn tab "suy nghĩ" để xem quá trình suy luận. So với chế độ tiêu chuẩn, chế độ Deep Think thực hiện nhiều bước phân tích hơn trước khi đưa ra câu trả lời.

Ngoài thông tin chính thức, tôi cũng so sánh Gemini 3 Pro với ChatGPT-5.1.

So sánh đầu tiên là hình ảnh được tạo ra.

Yêu cầu: Tạo hình ảnh iPhone 17 cho tôi

ChatGPT-5.1

Gemini 3 Pro

Xét về mặt chủ quan, ChatGPT-5.1 đáp ứng tốt hơn nhu cầu của tôi, do đó ChatGPT-5.1 chiến thắng ở vòng này.

Sự so sánh thứ hai là giữa hai bên về mặt cấp độ tác nhân của họ.

Gợi ý: Hãy tìm hiểu về tài khoản công khai WeChat "Xếp hạng theo bảng chữ cái" giúp tôi, sau đó bình luận về chất lượng của tài khoản này.

GPT-5.1

Gemini 3 Pro

Mặc dù cá nhân tôi thích cách diễn giải của Gemini 3 Pro hơn, nhưng nó bị thổi phồng quá mức. ChatGPT-5.1 chỉ ra một số thiếu sót trong bảng xếp hạng và khách quan, trung thực hơn.

Cuối cùng, đó là khả năng lập trình, hiện là khía cạnh quan trọng nhất đối với tất cả các mô hình quy mô lớn.

Dự án tôi chọn là LightRAG, một dự án được đánh giá cao trên GitHub gần đây. Dự án này cải thiện khả năng truy xuất bằng cách tích hợp các cấu trúc đồ thị để nâng cao nhận thức ngữ cảnh và hiệu quả truy xuất thông tin, mang lại độ chính xác cao hơn và thời gian phản hồi nhanh hơn. Địa chỉ dự án: https://github.com/HKUDS/LightRAG

Yêu cầu: Hãy kể cho tôi nghe về dự án này.

GPT-5.1

Gemini 3 Pro

Trong khi đó, Gemini 3 Pro cũng nhận được nhiều lời khen ngợi từ các chuyên gia trong ngành.

02

Mặc dù Gemini 3 Pro được phát hành rất lặng lẽ, nhưng thực ra Gemini đã hé lộ về nó từ lâu.

Trong cuộc gọi báo cáo thu nhập quý 3 của Google, CEO Google Sundar Pichai cho biết: "Gemini 3 Pro sẽ được phát hành vào năm 2025". Không có ngày cụ thể hoặc thông tin chi tiết nào khác, ông đã khởi động một chiến dịch tiếp thị lớn trong ngành công nghệ.

Google đã gửi tín hiệu để cảnh báo toàn bộ cộng đồng AI nhưng vẫn liên tục từ chối đưa ra mốc thời gian phát hành cụ thể.

Bắt đầu từ tháng 10, một loạt "rò rỉ tình cờ" bắt đầu xuất hiện. Vào ngày 23 tháng 10, một cuốn lịch bắt đầu được lan truyền, với ảnh chụp màn hình lịch nội bộ cho "Bản phát hành Gemini 3 Pro" vào ngày 12 tháng 11 được lan truyền rộng rãi.

Hơn nữa, các nhà phát triển tinh mắt cũng phát hiện ra cụm từ "Gemini-3-pro-preview-11-2025" trong tài liệu API của Vertex AI.

Sau đó, nhiều ảnh chụp màn hình bắt đầu xuất hiện trên Reddit và X. Một số người dùng khẳng định đã nhìn thấy mô hình mới trong công cụ Gemini Canvas, trong khi những người khác phát hiện ra mã định danh mô hình bất thường trong một số phiên bản của ứng dụng di động.

Sau đó, dữ liệu thử nghiệm sau đây bắt đầu lan truyền trên mạng xã hội.

Những "sự rò rỉ" này có vẻ là ngẫu nhiên, nhưng thực chất chúng là một màn dạo đầu được dàn dựng cẩn thận.

Mỗi thông tin rò rỉ đều thể hiện rõ ràng khả năng cốt lõi của Gemini 3 Pro, và mỗi cuộc thảo luận đều đẩy kỳ vọng lên một tầm cao mới. Tuy nhiên, tài khoản chính thức của Google lại có một lập trường khá thú vị. Họ đăng lại các cuộc thảo luận của cộng đồng, sử dụng những cụm từ như "sắp ra mắt" để khơi gợi sự tò mò, và ngay cả các giám đốc điều hành cấp cao tại Google AI Labs cũng trả lời bằng hai biểu tượng cảm xúc "đang suy nghĩ" cho một tweet về ngày phát hành dự kiến, nhưng họ từ chối đưa ra ngày cụ thể.

Sau gần một tháng mong đợi, Google cuối cùng đã chính thức ra mắt Gemini 3 Pro mới. Tuy nhiên, mặc dù Gemini 3 Pro sở hữu hiệu năng mạnh mẽ, tần suất cập nhật của Google lại có phần gây khó chịu.

Vào tháng 3 năm nay, Google đã phát hành phiên bản xem trước của Gemini 2.5 Pro, tiếp theo là các phiên bản xem trước phái sinh như Gemini 2.5 Flash. Cho đến khi phát hành Gemini 3 Pro, sê-ri Gemini không nhận được bất kỳ nâng cấp số phiên bản nào trong thời gian này.

Nhưng các đối thủ cạnh tranh của Google sẽ không chờ đợi Gemini.

OpenAI ra mắt GPT-5 vào ngày 7 tháng 8 và nâng cấp lên GPT-5.1 vào ngày 12 tháng 11. Trong thời gian này, OpenAI cũng ra mắt trình duyệt AI riêng, Atlas, nhắm trực tiếp vào thị trường cốt lõi của Google.

Tốc độ lặp lại của Anthropic thậm chí còn thường xuyên hơn: Claude 3.7 Sonnet (mô hình suy luận lai đầu tiên) được phát hành vào ngày 24 tháng 2, Claude Opus 4 và Sonnet 4 được phát hành vào ngày 22 tháng 5, Claude Opus 4.1 được phát hành vào ngày 5 tháng 8, Claude Sonnet 4.5 được phát hành vào ngày 29 tháng 9 và Claude Haiku 4.5 được phát hành vào ngày 15 tháng 10.

Sê-Ri tấn công này khiến Google có phần bất ngờ, nhưng cho đến nay, có vẻ như Google đã chịu được áp lực.

03

Lý do lớn nhất khiến Google mất tám tháng để cập nhật Gemini 3 Pro có lẽ là do thay đổi về mặt nhân sự.

Vào khoảng tháng 7 đến tháng 8 năm 2025, Microsoft đã phát động một cuộc tấn công mạnh mẽ vào Google để thu hút nhân tài, tuyển dụng thành công hơn 20 chuyên gia cốt lõi và giám đốc điều hành từ DeepMind.

Trong số này trong đó Dave Citron, Giám đốc sản phẩm cấp cao tại DeepMind, người chịu trách nhiệm triển khai các sản phẩm AI cốt lõi của công ty, và Amar Subramanya, Phó chủ tịch kỹ thuật Gemini, một trong những nhà lãnh đạo kỹ thuật cốt lõi của mô hình quan trọng nhất của Google, Gemini.

Mặt khác, đội ngũ Google Nano Banana tuyên bố rằng Google đã phải vật lộn với lĩnh vực hình ảnh do AI tạo ra trong một thời gian dài sau khi phát hành Gemini 2.5 Pro, do đó làm chậm quá trình cập nhật mẫu cơ bản.

Google cho rằng rằng chỉ bằng cách vượt qua ba thách thức chính trong lĩnh vực tạo hình ảnh—tính nhất quán nhân vật, chỉnh sửa theo ngữ cảnh và hiển thị văn bản—thì mô hình bệ đỡ mới có thể hoạt động tốt hơn.

Đội ngũ Nano Banana tuyên bố rằng mô hình này không chỉ có thể "vẽ đẹp" mà quan trọng hơn là nó có thể "hiểu ngôn ngữ con người" và được "con người điều khiển", do đó cho phép hình ảnh do AI tạo ra thực sự bước vào giai đoạn ứng dụng thương mại.

Nhìn lại Gemini 3 Pro hiện tại, đây là một câu trả lời tạm được, nhưng trong chiến trường AI tốc độ cao này, chỉ cần vượt qua thôi là không đủ nữa.

Vì Google đã quyết định nộp báo cáo vào thời điểm này, họ phải chuẩn bị tinh thần đối diện những giám khảo khắt khe nhất - những người dùng và nhà phát triển có thị hiếu bị đối thủ cạnh tranh làm hỏng. Vài tháng tới sẽ không phải là cuộc cạnh tranh về các thông số mô hình, mà là một cuộc chiến khốc liệt về khả năng tích hợp hệ sinh thái. Google, chú voi này, không chỉ cần học cách nhảy, mà còn cần phải nhảy nhanh hơn bất kỳ ai khác.

Khu vực:

DeFi

Layer 1

Telegram Bot

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan