Hôm nay (ngày 13), Google đã phát hành nâng cấp lớn cho Gemini 3 Deep Think. Trong bài kiểm tra ARC-AGI-2 (một bài kiểm tra suy luận được thiết kế đặc biệt để ngăn AI ghi nhớ các ngân hàng câu hỏi, không kiểm tra kiến thức của bạn mà là khả năng suy luận các quy tắc từ một vài ví dụ) , Gemini 3 Deep Think đạt điểm 84,6%.
Để so sánh, Claude Opus 4.6 (chế độ Thinking Max) đạt 68,8%, GPT-5.2 (chế độ Thinking xhigh) đạt 52,9%, trong khi mức trung bình của con người là khoảng 60%.

Điều đáng kinh ngạc hơn nữa là Deep Think đã đạt được số điểm 96% trên bài kiểm tra chuẩn ARC-AGI-1 ban đầu, về cơ bản đã đẩy bài kiểm tra này, vốn từng được coi là "một trong những bài kiểm tra trí tuệ nhân tạo khó nhất", đến giới hạn của nó.
Họ không chỉ tổ chức các kỳ thi mà còn phát hiện ra những lỗi sai của thí sinh.
Ngoài điểm số chuẩn, Google còn đề cập đến một chi tiết trong thông báo của mình: Deep Think, trong quá trình xem xét một bài báo toán học đã được các chuyên gia đánh giá ngang hàng là con người, đã phát hiện ra một lỗi logic mà tất cả các chuyên gia đánh giá trước đó đều bỏ sót. Bài báo này đã được các nhà toán học tại Đại học Rutgers xác nhận.
Ý nghĩa của trường hợp này không nằm ở hiệu suất của mô hình trong các bài kiểm tra tiêu chuẩn hóa, mà ở khả năng của nó được chứng minh trong các tình huống khoa học thực tế, không giới hạn. Đánh giá ngang hàng là cơ chế kiểm soát chất lượng cốt lõi trong giới học thuật, và nếu AI có thể liên tục cung cấp sự hỗ trợ có giá trị trong quá trình này, tác động thúc đẩy của nó đối với nghiên cứu khoa học sẽ vượt xa những gì bất kỳ bài kiểm tra chuẩn nào có thể đo lường được.
Deep Think đã đạt huy chương vàng ở phần thi viết của cả Olympic Vật lý Quốc tế 2025 và Olympic Hóa học Quốc tế, đồng thời nhận được điểm Elo 3.455 trên Codeforces, tương ứng với cấp độ "Bậc thầy huyền thoại", một cấp độ mà chỉ một số rất ít lập trình viên trên toàn thế giới có thể đạt được.
Trong "Bài kiểm tra cuối cùng của nhân loại", một bài kiểm tra chuẩn được thiết kế bởi các chuyên gia từ nhiều lĩnh vực khác nhau nhằm mục đích làm cho trí tuệ nhân tạo (AI) khó trả lời, Deep Think đã đạt được số điểm 48,4% (không sử dụng công cụ), lập kỷ lục mới.
Thay đổi vỏ trái đất thị thị phần
Cuộc đua công nghệ giữa ba gã khổng lồ AI đang định hình lại bối cảnh thị trường. Thị phần của ChatGPT đã giảm từ mức đỉnh 87% xuống còn khoảng 68%, trong khi Gemini tăng vọt từ dưới 5% lên hơn 18%, và Claude của Anthropic đang dần chiếm lĩnh thị trường doanh nghiệp.
Lợi thế độc nhất vô nhị của Google trong cuộc đua này là khả năng phân phối mạnh mẽ. Gemini được tích hợp vào Android, trình duyệt Chrome, Google Workspace và công cụ tìm kiếm, có nghĩa là ngay cả khi khả năng mô hình hóa của Google ngang bằng với các đối thủ cạnh tranh, họ vẫn có thể thu hút người dùng thông qua lợi thế kênh phân phối của mình.
Tuy nhiên, lợi thế phân phối lại là con dao hai lưỡi. Nếu trải nghiệm người dùng của Gemini không đủ tốt, nó có thể mất lòng tin của người dùng nhanh hơn bất kỳ đối thủ cạnh tranh nào vì người dùng "bị tiếp xúc thụ động" thay vì "chủ động lựa chọn". Người dùng của OpenAI sẵn sàng trả tiền, và đương nhiên có khả năng chịu đựng và độ bám cao hơn.
Hiệu ứng lan tỏa đối với ngành công nghiệp crypto
Mỗi nâng cấp cuộc chạy đua vũ trang AI đều làm tăng nhu cầu về cơ sở hạ tầng điện toán. Chi phí của các cụm GPU cần thiết để huấn luyện một mô hình tiên tiến đã tăng vọt từ hàng trăm triệu đô la vào năm 2024 lên hàng tỷ đô la vào năm 2026. Điều này tác động trực tiếp đến hai vấn đề.
Đầu tiên, hãy nói về lộ trình chuyển đổi của thợ đào Bitcoin . Khi lợi nhuận khai thác bị thu hẹp (JPMorgan Chase ước tính tuần này rằng chi phí sản xuất BTC đã giảm xuống còn 77.000 đô la, trong khi giá BTC vào khoảng 66.000 đô la), thợ đào có cơ sở hạ tầng tỷ lệ băm quy mô lớn đang đẩy nhanh quá trình chuyển đổi sang các dịch vụ điện toán AI.
Các công ty khai thác chi phí cao không phải là "rút lui" mà là "chuyển đổi nghề nghiệp", chuyển từ khai thác Bitcoin sang tạo thu nhập thông qua các hợp đồng cung cấp tỷ lệ băm AI.
Thứ hai, câu chuyện về token AI. Bất cứ khi nào Google, OpenAI hoặc Anthropic phát hành nâng cấp lớn, token liên quan đến AI Chuỗi (chẳng hạn như các giao thức điện toán phi tập trung) thường trải qua sự hào hứng ngắn hạn.
Nhưng những vấn đề cơ bản với token này vẫn không thay đổi: điện toán phi tập trung vẫn còn một chặng đường dài phía trước về độ trễ và thông lượng để đáp ứng nhu cầu đào tạo AI cấp doanh nghiệp. Các câu chuyện có thể diễn ra rất nhanh, nhưng cơ sở hạ tầng không thể theo kịp tốc độ đó.
Cuộc chiến quyết định của khoa học chỉ mới bắt đầu.
Nâng cấp Deep Think đã đưa Google trở lại vị trí dẫn đầu trong cuộc đua trí tuệ nhân tạo, ít nhất là trong lĩnh vực suy luận và khoa học. Nhưng nếu bạn xem xét kỹ cách diễn đạt trong thông báo của Google, bạn sẽ nhận thấy một sự thay đổi tinh tế trong định vị: nó không còn nhấn mạnh "trí tuệ nhân tạo tổng quát thông minh nhất", mà liên tục đề cập đến "sinh ra để phục vụ khoa học".
Trong bối cảnh các tiêu chuẩn đánh giá trí tuệ nhân tạo tổng quát ngày càng trở nên cạnh tranh và việc phân biệt trở nên khó khăn hơn, "Trí tuệ nhân tạo của tôi có thể giúp bạn trong nghiên cứu khoa học" là một đề xuất giá trị hấp dẫn hơn so với "Trí tuệ nhân tạo của tôi có điểm số chuẩn cao nhất". Nếu Deep Think có thể thực sự và nhất quán hỗ trợ quá trình đánh giá ngang hàng, đẩy nhanh quá trình khám phá thuốc hoặc tìm ra các giải pháp mà con người đã bỏ sót trong các mô phỏng vật lý, điều này sẽ có ý nghĩa hơn bất kỳ danh sách tiêu chuẩn nào.
Vấn đề là khoảng cách giữa "khả năng đạt điểm cao trong các bài kiểm tra đánh giá năng lực" và "khả năng hỗ trợ con người một cách đáng tin cậy trong các tình huống khoa học thực tế" có thể xa hơn so với những gì Google gợi ý, bởi vì các bài kiểm tra đánh giá năng lực có đáp án chuẩn, nhưng khoa học thì không.





