Google đã phát hành bản xem trước công khai Gemini 3 Pro hôm nay, gọi đây là mô hình AI mạnh mẽ nhất của công ty cho đến nay. Hệ thống này có thể xử lý đồng thời văn bản, hình ảnh, âm thanh và video, đồng thời xử lý tới 1 triệu token ngữ cảnh - tương đương khoảng 700.000 từ, hoặc khoảng 10 cuốn tiểu thuyết dài.
Mô hình xem trước có sẵn miễn phí để bất kỳ ai cũng có thể dùng thử tại đây .
Google cho biết mô hình này vượt trội hơn so với phiên bản tiền nhiệm Gemini 2.5 Pro trên hầu hết mọi tiêu chuẩn mà công ty đã thử nghiệm. Trong bài kiểm tra tư duy học thuật "Humanity's Last Exam", Gemini 3 Pro đạt 37,5% so với 21,6% của 2.5 Pro. Trong bài kiểm tra ARC-AGI-2, một tiêu chuẩn đánh giá tư duy trực quan, khoảng cách còn nới rộng hơn nữa: 31,1% so với 4,9%.
Tất nhiên, thách thức thực sự ở thời điểm này trong cuộc đua AI không phải là về mặt kỹ thuật mà là giành được thị phần thương mại.
Google, vốn từng được coi là bất khả chiến bại trong lĩnh vực tìm kiếm, đã nhường lại một thị phần khổng lồ cho OpenAI, công ty tuyên bố có khoảng 800 triệu người dùng hàng tuần (ChatGPT) so với Gemini, được cho là chỉ có khoảng 650 triệu người dùng hàng tháng . Google không tiết lộ con số hàng tuần, nhưng con số đó chắc chắn ít hơn nhiều so với số lượng hàng tháng.
Tuy nhiên, những thành tựu kỹ thuật của Gemini 3 vẫn rất ấn tượng.
Gemini 3 Pro sử dụng kiến trúc mà Google gọi là kiến trúc hỗn hợp chuyên gia thưa thớt. Thay vì kích hoạt tất cả hơn 1 nghìn tỷ tham số cho mỗi truy vấn, hệ thống sẽ định tuyến từng đầu vào đến các mạng con chuyên biệt. Chỉ một phần nhỏ của mô hình - chuyên gia thực hiện tác vụ cụ thể đó - chạy tại một thời điểm nhất định, giúp cắt giảm chi phí tính toán mà vẫn duy trì hiệu suất.
Không giống như GPT và Claude, vốn là những mô hình lớn, dày đặc (có thể làm được mọi việc), cách tiếp cận của Google hoạt động như một tổ chức lớn. Một công ty với 1.000 nhân viên không triệu tập tất cả mọi người đến mọi cuộc họp; các nhóm cụ thể sẽ xử lý các vấn đề cụ thể. Gemini 3 Pro cũng hoạt động theo cách tương tự, chuyển hướng câu hỏi đến đúng mạng lưới chuyên gia.
Google đã huấn luyện mô hình này trên các tài liệu web, kho lưu trữ mã, hình ảnh, tệp âm thanh và video, cùng với dữ liệu tổng hợp được tạo ra bởi các hệ thống AI khác. Công ty đã lọc dữ liệu huấn luyện để đảm bảo chất lượng và an toàn, loại bỏ nội dung khiêu dâm, tài liệu bạo lực và bất kỳ nội dung nào vi phạm luật an toàn trẻ em. Quá trình huấn luyện được thực hiện trên Bộ xử lý Tensor của Google bằng phần mềm JAX và ML Pathways.
Một bài kiểm tra nhanh mô hình cho thấy nó rất có năng lực. Trong bài kiểm tra mã hóa thông thường của chúng tôi yêu cầu tạo ra một trò chơi tàng hình, đây là mô hình đầu tiên tạo ra trò chơi 3D thay vì trải nghiệm 2D. Các lần chạy khác chỉ cung cấp phiên bản 2D, nhưng tất cả đều hoạt động tốt và nhanh.
Cách tiếp cận này tuân theo phong cách của ChatGPT hoặc Perplexity, khuyến khích tương tác nhiều hơn bằng cách chia sẻ các câu hỏi và đề xuất tiếp theo, nhưng cách triển khai của Google gọn gàng và hữu ích hơn nhiều.
Trong khi tạo mã, giao diện cung cấp các mẹo hỗ trợ cho các lời nhắc tiếp theo, để người dùng có thể hướng dẫn mô hình tạo mã tốt hơn, sửa lỗi và cải thiện logic, giao diện người dùng, ETC của ứng dụng. Giao diện này cũng cung cấp cho người dùng tùy chọn triển khai mã và viết mã cho các ứng dụng chạy trên nền tảng Gemini.
Nhìn chung, mô hình này dường như đặc biệt tập trung vào các tác vụ lập trình. Sáng tạo không phải là điểm mạnh của nó, nhưng có thể dễ dàng hướng dẫn bằng lời nhắc hệ thống và ví dụ hữu ích, vì nó có cửa sổ ngữ cảnh mã Token rất lớn.
Phiên bản lưu trữ của thẻ mô hình Gemini 3 - một tài liệu cung cấp thông tin cần thiết về thiết kế, mục đích sử dụng, hiệu suất và các hạn chế của mô hình - do Google DeepMind công bố cho thấy Gemini 3 Pro có thể tạo ra tới 64.000 mã thông báo đầu ra và duy trì ngưỡng kiến thức là tháng 1 năm 2025. Google thừa nhận mô hình có thể bị ảo giác và đôi khi bị chậm hoặc hết thời gian chờ.
Hiện tại chưa có thẻ mẫu chính thức.
Như đã đề cập, Google AI Studio hiện đang cung cấp quyền truy cập miễn phí vào Gemini 3 Pro cho tất cả mọi người. Vertex AI và API Gemini cũng hỗ trợ mô hình này. Tuy nhiên, Gemini 3 Pro vẫn chưa có sẵn thông qua ứng dụng Gemini , ngay cả với những người dùng trả phí Gemini Pro.
Bản phát hành tháng 11 xếp hạng Google ngang hàng với Claude Sonnet 4.5, Grok 4.1 của Anthropic và thậm chí cả GPT-5.1 của OpenAI. Điểm chuẩn cho thấy Gemini 3 Pro dẫn đầu về khả năng lập luận và xử lý đa phương thức, mặc dù hiệu suất thực tế khác nhau tùy theo Use Case.
Google phân phối Gemini 3 Pro thông qua các nền tảng đám mây của mình theo các điều khoản dịch vụ hiện hành. Chính sách cấm sử dụng AI tạo sinh của công ty được áp dụng, ngăn chặn việc sử dụng trong các hoạt động nguy hiểm, xâm phạm bảo mật, nội dung khiêu dâm, bạo lực, ngôn từ kích động thù địch và thông tin sai lệch.



