Google chính thức ra mắt Gemini 3: tác nhân AI mạnh mẽ nhất và mô hình ngôn ngữ quy mô lớn Vibe Coding cho đến nay.

avatar
ABMedia
11-19
Bài viết này được dịch máy
Xem bản gốc

Hôm nay, Google chính thức công bố thế hệ mô hình ngôn ngữ quy mô lớn mới, Gemini 3, và đồng thời ra mắt Gemini 3 Pro trên nhiều dịch vụ, bao gồm Gemini App, chế độ SearchAI, AI Studio và Vertex AI. Google tuyên bố Gemini 3 là mô hình đa phương thức và suy luận mạnh mẽ nhất từ ​​trước đến nay, vượt trội hơn hẳn so với thế hệ trước trong một số tiêu chuẩn AI quan trọng, bao gồm khoa học, toán học, hiểu biết trực quan và lập kế hoạch dài hạn. Bên cạnh Vibe Coding, Gemini 3 cũng là mô hình tác nhân mạnh mẽ nhất, nghĩa là AI có thể chủ động hỗ trợ bạn hoàn thành nhiệm vụ.

Giám đốc điều hành Google: Khả năng hiểu biết Gemini đã phát triển từ văn bản và hình ảnh thành khả năng "đọc không khí".

CEO Google Sundar Pichai chỉ ra rằng kể từ khi ra mắt sê-ri Gemini gần hai năm trước, các sản phẩm AI đã tiếp cận hai tỷ người dùng trên toàn thế giới. Mỗi thế hệ Gemini đều kế thừa những thành tựu của thế hệ trước. Gemini 1 mang đến những đột phá về đa phương thức gốc và ngữ cảnh dài, cho phép xử lý thông tin ngày càng phức tạp. Gemini 2 đặt nền móng cho năng lực của các agency, vượt qua giới hạn của lý luận và tư duy.

Và giờ đây, Gemini 3: thế hệ máy tính thông minh nhất của chúng tôi, hội tụ tất cả các tính năng của sê-ri Gemini , cho phép bạn hiện thực hóa mọi ý tưởng. Nó đạt đến trình độ lập luận tiên tiến (SOTA), làm chủ độ sâu lẫn sự tinh tế. Dù là nắm bắt những manh mối tinh tế trong một ý tưởng sáng tạo hay phân tích các vấn đề phức tạp, nhiều tầng lớp.

Gemini 3 cũng có thể hiểu rõ hơn ngữ cảnh và ý định đằng sau các yêu cầu của bạn, cho phép bạn nhận được câu trả lời thực sự cần thiết mà không cần phải vắt óc suy nghĩ. Thật đáng kinh ngạc, chỉ trong hai năm, AI đã phát triển từ khả năng đọc văn bản và hình ảnh lên khả năng hiểu bối cảnh và tình huống (đọc vị căn phòng).

Đột phá trong khả năng lý luận: Gemini 3 đạt điểm cao nhất trong các bài kiểm tra LMARaena, Lý luận khoa học và Toán học

Gemini 3 Pro đã phá vỡ một số kỷ lục trong bài đánh giá mới nhất:

  • LMArena đứng đầu bảng xếp hạng với 1501 điểm Elo.
  • Bài kiểm tra cuối cùng của nhân loại (Lý luận học thuật): 37,5% (không có công cụ).
  • GPQA Diamond (Lý luận khoa học): 91,9%.
  • MathArena Apex (Toán nâng cao): 23,4%.
  • MMMU-Pro: 81%
  • Video-MMMU: 87,6%
  • SimpleQA đã xác minh: 72,1% (Cải thiện độ chính xác thực tế)

Những kết quả này chứng minh độ tin cậy cao của Gemini 3 Pro trong suy luận khoa học, toán học và đa phương thức, cho phép nó xử lý các vấn đề cực kỳ phức tạp.

Google đồng thời phát hành chế độ suy luận Deep Think Gemini 3, đạt 45,1% trong ARC-AGI-2 (bao gồm cả thực thi chương trình), nâng cao hơn nữa khả năng suy luận của nó. Những điểm nổi bật khác bao gồm:

  • Kỳ thi cuối cùng của nhân loại: 41,0%
  • GPQA Kim cương: 93,8%

Gemini 3: Nâng cao khả năng học tập, thực hiện và lập kế hoạch

Gemini 3 hiện là mô hình lập trình proxy và mã hóa rung cảm mạnh mẽ nhất, với các điểm số cụ thể bao gồm:

  • Đấu trường WebDev: 1487 Elo (cao nhất)
  • Terminal-Bench 2.0: 54,2% (Khả năng vận hành công cụ)
  • SWE-bench đã xác minh: 76,2% (Nhiệm vụ lập trình lớn)

Nó cũng hỗ trợ nền tảng phát triển dựa trên tác nhân Google Antigravity mới của Google, cho phép AI tự động lập kế hoạch, viết chương trình, vận hành thiết bị đầu cuối, xác minh chương trình và điều khiển trình duyệt - một nhiệm vụ gồm nhiều bước. AI tác nhân đề cập đến các hệ thống AI có thể chủ động hành động, lập kế hoạch nhiệm vụ nhiều bước và vận hành các công cụ một cách tự động. Khái niệm cốt lõi là AI không còn chỉ cung cấp câu trả lời, mà còn có thể chủ động hoàn thành nhiệm vụ như một trợ lý.

Ví dụ, khi tôi nhập: "Giúp tôi lấy giá ETH hôm nay và cập nhật Google Sheet", Agentic AI sẽ tự động kiểm tra API và cập nhật Google Sheet.

Các mô hình ngôn ngữ lớn đồng nghĩa với việc cùng một dữ liệu đầu vào từ người dùng có thể tạo ra các kết quả đầu ra khác nhau đáng kể tùy thuộc vào tính toán của mô hình. Tuy nhiên, Gemini 3 duy trì việc ra quyết định nhất quán trong suốt một năm trong Vending-Bench 2, nghĩa là Gemini có thể hỗ trợ bạn:

  • Đặt dịch vụ địa phương
  • Tổ chức Gmail
  • Xử lý quy trình làm việc nhiều bước

Bắt đầu từ hôm nay, Gemini Agent đã có sẵn cho người dùng Google AI Ultra. Google tuyên bố Gemini 3 là mô hình được kiểm tra bảo mật chặt chẽ nhất từ ​​trước đến nay, với khả năng chống lại các cuộc tấn công "tấn công tâng bốc", "chọc thủng" và tấn công mạng được cải thiện. Chế độ Deep Think sẽ có sẵn cho người dùng Google AI Ultra sau khi hoàn tất các bài kiểm tra bảo mật bổ sung.

Cảnh báo rủi ro

Đầu tư crypto tiền điện tử tiềm ẩn mức độ rủi ro cao; giá có thể biến động mạnh và bạn có thể mất toàn bộ tiền gốc. Vui lòng đánh giá cẩn thận rủi ro.

Vào ngày 17 tháng 11, xAI đã công bố phiên bản mới nhất của mình, Grok 4.1, hiện đã chính thức có sẵn cho tất cả người dùng, bao gồm grok.com, Twitter (X) và các ứng dụng iOS và Android. xAI cho biết nâng cấp này tập trung vào "khả năng sử dụng trong thế giới thực", bao gồm khả năng hiểu cảm xúc mạnh mẽ hơn, thể hiện tính cách tự nhiên hơn, khả năng sáng tạo cao hơn và tỷ lệ ảo giác thấp hơn, đồng thời vẫn giữ nguyên khả năng lập luận và tính ổn định của Grok 4 trước đó.

Grok 4.1, với tỷ lệ thắng gần 65% trong quá trình thử nghiệm bí mật, đã được xác nhận ra mắt.

xAI đã tiến hành thử nghiệm bí mật kéo dài hai tuần từ ngày 1 tháng 11 đến ngày 14 tháng 11, nhập một tỷ lệ nhỏ phiên bản beta của Grok 4.1 vào Grok.com, X và lưu lượng truy cập thực tế của ứng dụng di động, sau đó so sánh trực tiếp với mô hình Grok 4 trước đó thông qua "so sánh thử nghiệm mù".

xAI cho biết trong thử nghiệm mù, Grok 4.1 cho thấy chỉ số ưa thích là 64,78% trong lưu lượng truy cập thực tế, vượt trội hơn đáng kể so với Grok 4, và thông báo rằng Grok 4.1 sẽ chính thức có sẵn cho tất cả người dùng vào ngày 17 tháng 11. Họ cũng tuyên bố rằng từ nay, tất cả người dùng đều có thể sử dụng Grok 4.1. Grok 4.1 sẽ tự động được sử dụng nếu người dùng bật chế độ Tự động, hoặc người dùng có thể chọn thủ công từ menu mô hình.

Grok 4.1: Ba điểm nổi bật về kỹ thuật chính

Điểm nổi bật về kỹ thuật của Grok 4.1 1: Kiến trúc học tăng cường hoàn toàn mới giúp phản ứng trở nên tự nhiên hơn và giống con người hơn.

Bản nâng cấp cốt lõi của Grok 4.1 đến từ việc sử dụng cùng "cơ sở hạ tầng học tăng cường quy mô lớn" như Grok 4, nhưng lần này giới thiệu phương pháp mới cho phép mô hình tự động tối ưu hóa phản hồi ở quy mô lớn hơn. Khóa đào tạo này tập trung vào chất lượng phản hồi không thể kiểm chứng, chẳng hạn như giọng điệu, tính nhất quán của nhân vật, tương tác tâm lý và sự hiểu biết về ý định, những yếu tố không thể được chấm điểm trực tiếp chỉ dựa trên dữ liệu.

Để giải quyết vấn đề này, xAI đã sử dụng "mô hình lý luận tiên tiến" làm mô hình khen thưởng. Điều này cho phép các AI có khả năng lý luận độ sâu tự động đánh giá các phản hồi của Grok 4.1 và học hỏi, thông qua các so sánh lượng lớn, những gì cấu thành nên một câu trả lời tốt hơn và phù hợp hơn với mong đợi của con người, từ đó điều chỉnh cho phù hợp. Kết quả là, Grok 4.1 đã cho thấy những cải thiện đáng kể về giọng điệu, tính cách, tâm lý và sự tự nhiên của tương tác, đồng thời vẫn duy trì khả năng lý luận và tính ổn định ban đầu.

Điểm nổi bật về mặt kỹ thuật của Grok 4.1 2: Đứng đầu tất cả các đánh giá thử nghiệm mù, với nâng cấp đáng kể về khả năng hiểu tâm lý và sáng tạo.

xAI cũng đã công bố một số kết quả thử nghiệm, cho thấy Grok 4.1 đã có những cải tiến đáng kể trong nhiều bài kiểm tra năng lực.

  • Trong nền tảng chơi game beta mù toàn cầu LMARaena:

    • Grok 4.1 Thinking đứng đầu thế giới với 1483 điểm Elo .

    • Grok 4.1 Non-Thinking xếp thứ hai với Elo 1465 , thậm chí còn vượt qua"Chế độ suy luận đầy đủ" của các mô hình khác.

  • Bài kiểm tra hiểu biết tâm lý(EQ-Bench 3): Bài kiểm tra này sử dụng 45 tình huống thử thách và 3 vòng tương tác, được Claude Sonnet chấm điểm 3.7. Grok 4.1 cho thấy sự cải thiện đáng kể về khả năng đồng cảm, hiểu biết tâm lý và hiểu biết giữa các cá nhân.

  • Viết sáng tạo v3: Trong bài kiểm tra viết gồm 32 câu hỏi, 3 vòng, Grok 4.1 đạt điểm cao hơn về phong cách viết, chất lượng tường thuật và mạch truyện, với nhiều bài trả lời mẫu được nêu trong chính thức.

Nhìn chung, Grok 4.1 không chỉ cải thiện khả năng lập luận mà còn cho thấy nâng cấp đáng kể về "tương tác cảm xúc" và "khả năng sáng tạo".

Như thể hiện trong hình, Grok 4.1 được xếp hạng trong ba bảng xếp hạng tổng thể về mô hình suy luận, hiểu tâm lý và viết sáng tạo.

(Lưu ý: Elo đề cập đến điểm sức mạnh của Grok 4.1 trên nền tảng kiểm tra mù toàn cầu LMARaena, sử dụng hệ thống xếp hạng Elo ban đầu được sử dụng cho cờ vua để đánh giá chất lượng phản hồi của mô hình.)

Grok 4.1 Điểm nổi bật về kỹ thuật 3: Giảm ảo giác AI xuống 3 lần, nguồn thông tin đáng tin cậy hơn.

Đối với các vấn đề truy xuất thông tin phổ biến, xAI đặc biệt nhấn mạnh giảm đáng kể tỷ lệ ảo giác trong Grok 4.1. Trước đây, chế độ nhanh (Phi lý luận) của Gork dễ bị ảo giác do độ sâu lý luận không đủ, nhưng xAI đã giải quyết rõ ràng vấn đề này trong quá trình đào tạo sau 4.1. Các phương pháp xác minh của xAI bao gồm:

  • Chúng tôi tiến hành thử nghiệm lấy mẫu dựa trên những câu hỏi mà người dùng thực sự hỏi trong các tình huống thực tế và thực sự xuất hiện trên nền tảng.

  • So sánh sự khác biệt trong phản hồi giữa Grok 4.1 và mô hình cũ hơn.

  • Đánh giá hiệu suất trên FActScore.

Kết quả cho thấy phiên bản mới giảm đáng kể tỷ lệ ảo giác khi tìm kiếm thông tin và trả lời các câu hỏi thông tin, đồng thời câu trả lời ổn định và đáng tin cậy hơn. Điều này giúp Grok 4.1 thực tế và chính xác hơn so với phiên bản trước trong các tình huống "trả lời nhanh" và "tìm kiếm dữ liệu".

Như thể hiện trong biểu đồ, tỷ lệ ảo giác của Grok 4.1 giảm từ 12,09% xuống còn 4,22%, giảm khoảng ba lần. Điểm Xác minh Sự thật (FActScore) cũng giảm từ 9,89% xuống còn 2,97%, cho thấy độ chính xác của Grok 4.1 đã được cải thiện đáng kể.

(Lưu ý: FActScore là bài kiểm tra công khai bao gồm 500 câu hỏi tiểu sử thực tế, được sử dụng để đánh giá hiệu suất của mô hình trong việc tìm kiếm thông tin thực tế, độ chính xác của phán đoán và tính nhất quán của câu trả lời; có thể gọi là điểm xác thực thực tế.)

(Phân tích toàn diện năm Mô hình ngôn ngữ AI (LLM) chính thống mới nhất năm 2025: hiểu sơ lược về giá cả, ứng dụng và bảo mật của chúng)

Cảnh báo rủi ro

Đầu tư crypto tiền điện tử tiềm ẩn mức độ rủi ro cao; giá có thể biến động mạnh và bạn có thể mất toàn bộ tiền gốc. Vui lòng đánh giá cẩn thận rủi ro.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
71
Thêm vào Yêu thích
11
Bình luận