Giám đốc điều hành của Google, Sundar Pichai, đã công bố ra mắt Gemini 2.0, một mô hình đại diện cho bước tiến tiếp theo trong tham vọng của Google nhằm cách mạng hóa trí tuệ nhân tạo.
Một năm sau khi giới thiệu mô hình Gemini 1.0, bản nâng cấp lớn này bao gồm các khả năng đa phương thức nâng cao, chức năng đại lý và các công cụ người dùng sáng tạo được thiết kế để vượt ra khỏi giới hạn của công nghệ dẫn dắt bởi trí tuệ nhân tạo.
Bước nhảy vọt hướng tới trí tuệ nhân tạo biến đổi
Phản ánh sứ mệnh 26 năm của Google nhằm tổ chức và làm cho thông tin trên thế giới trở nên dễ tiếp cận hơn, Pichai nhận xét: "Nếu Gemini 1.0 là về tổ chức và hiểu thông tin, thì Gemini 2.0 là về việc làm cho nó hữu ích hơn nhiều."
Gemini 1.0, được phát hành vào tháng 12 năm 2022, đáng chú ý vì đây là mô hình trí tuệ nhân tạo đa phương thức bản địa đầu tiên của Google. Phiên bản đầu tiên này xuất sắc trong việc hiểu và xử lý văn bản, video, hình ảnh, âm thanh và mã. Phiên bản 1.5 nâng cao của nó đã được các nhà phát triển rộng rãi chấp nhận nhờ khả năng hiểu ngữ cảnh dài, cho phép các ứng dụng như NotebookLM tập trung vào năng suất.
Bây giờ, với Gemini 2.0, Google nhằm mục tiêu đẩy nhanh vai trò của trí tuệ nhân tạo như một trợ lý phổ quát có khả năng tạo ra hình ảnh và âm thanh bản địa, lý luận và lập kế hoạch tốt hơn, cũng như các khả năng ra quyết định trong thế giới thực. Theo lời Pichai, sự phát triển này đại diện cho bình minh của "kỷ nguyên đại lý".
"Chúng tôi đã đầu tư vào việc phát triển nhiều mô hình đại lý hơn, có nghĩa là chúng có thể hiểu nhiều hơn về thế giới xung quanh bạn, suy nghĩ nhiều bước phía trước và hành động thay mặt bạn, với sự giám sát của bạn," Pichai giải thích.
Gemini 2.0: Các tính năng cốt lõi và khả năng sẵn có
Trọng tâm của thông báo hôm nay là việc phát hành thử nghiệm Gemini 2.0 Flash, mô hình cờ đầu của thế hệ thứ hai của Gemini. Nó xây dựng trên nền tảng do các tiền nhiệm của nó đặt ra, đồng thời cung cấp thời gian phản hồi nhanh hơn và hiệu suất nâng cao.
Gemini 2.0 Flash hỗ trợ đầu vào và đầu ra đa phương thức, bao gồm khả năng tạo ra hình ảnh bản địa kết hợp với văn bản và tạo ra âm thanh đa ngôn ngữ có thể điều khiển được từ văn bản sang giọng nói. Ngoài ra, người dùng có thể hưởng lợi từ tích hợp công cụ bản địa như Google Search và thậm chí là các chức năng do người dùng định nghĩa bên thứ ba.
Các nhà phát triển và doanh nghiệp sẽ có quyền truy cập vào Gemini 2.0 Flash thông qua API Gemini trong Google AI Studio và Vertex AI, trong khi các kích thước mô hình lớn hơn được lên lịch phát hành rộng rãi hơn vào tháng 1 năm 2024.
Để đạt được khả năng tiếp cận toàn cầu, ứng dụng Gemini bây giờ có một phiên bản tối ưu hóa cho trò chuyện của mô hình thử nghiệm 2.0 Flash. Những người sớm áp dụng có thể trải nghiệm trợ lý này được cập nhật trên máy tính để bàn và di động, với việc triển khai ứng dụng di động sắp diễn ra.
Các sản phẩm như Google Search cũng đang được nâng cấp với Gemini 2.0, mở khóa khả năng xử lý các truy vấn phức tạp như các bài toán toán học nâng cao, các câu hỏi về lập trình và đa phương thức.
Bộ sưu tập toàn diện các đổi mới về trí tuệ nhân tạo
Việc ra mắt Gemini 2.0 đi kèm với các công cụ mới hấp dẫn thể hiện khả năng của nó.
Một tính năng như vậy, Deep Research, hoạt động như một trợ lý nghiên cứu trí tuệ nhân tạo, đơn giản hóa quá trình điều tra các chủ đề phức tạp bằng cách tổng hợp thông tin thành các báo cáo toàn diện. Một nâng cấp khác cải thiện Search với các Tổng quan AI được trang bị Gemini để giải quyết các truy vấn phức tạp, nhiều bước của người dùng.
Mô hình này được đào tạo bằng cách sử dụng các Đơn vị Xử lý Tensor (TPU) thế hệ thứ sáu của Google, được gọi là Trillium, mà Pichai lưu ý "đã cung cấp 100% huấn luyện và suy luận của Gemini 2.0".
Trillium hiện có sẵn cho các nhà phát triển bên ngoài, cho phép họ hưởng lợi từ cùng một cơ sở hạ tầng hỗ trợ các bước tiến của chính Google.
Tiên phong trong các trải nghiệm đại lý
Đi kèm với Gemini 2.0 là các mẫu thử nghiệm "đại lý" thực nghiệm được xây dựng để khám phá tương lai của sự hợp tác giữa con người và trí tuệ nhân tạo, bao gồm:
- Dự án Astra: Một trợ lý trí tuệ nhân tạo phổ quát
Được giới thiệu lần đầu tiên tại I/O đầu năm nay, Dự án Astra khai thác khả năng đa phương thức của Gemini 2.0 để cải thiện các tương tác trí tuệ nhân tạo trong thế giới thực. Những người thử nghiệm đáng tin cậy đã thử nghiệm trợ lý này trên Android, cung cấp phản hồi đã giúp hoàn thiện khả năng đối thoại đa ngôn ngữ, lưu giữ bộ nhớ và tích hợp với các công cụ Google như Search, Lens và Maps. Astra cũng đã chứng minh được độ trễ hội thoại gần như con người, với nghiên cứu tiếp theo đang được tiến hành để ứng dụng nó vào công nghệ đeo, chẳng hạn như kính AI mẫu.
- Dự án Mariner: Định nghĩa lại tự động hóa web
Dự án Mariner là một trợ lý duyệt web thực nghiệm sử dụng khả năng lý luận của Gemini 2.0 xuyên qua văn bản, hình ảnh và các phần tử tương tác như biểu mẫu trong trình duyệt. Trong các bài kiểm tra ban đầu, nó đạt được tỷ lệ thành công 83,5% trên bộ chuẩn WebVoyager để hoàn thành các nhiệm vụ web từ đầu đến cuối. Những người thử nghiệm sớm sử dụng tiện ích Chrome đang giúp hoàn thiện các khả năng của Mariner trong khi Google đánh giá các biện pháp bảo vệ an toàn để đảm bảo công nghệ này vẫn thân thiện với người dùng và an toàn.
- Jules: Một đại lý lập trình dành cho nhà phát triển
Jules, một trợ lý được xây dựng bằng trí tuệ nhân tạo dành cho các nhà phát triển, tích hợp trực tiếp vào các quy trình GitHub để giải quyết các thách thức về lập trình. Nó có thể tự động đề xuất các giải pháp, tạo ra các kế hoạch và thực hiện các nhiệm vụ dựa trên mã - tất cả đều dưới sự giám sát của con người. Nỗ lực thực nghiệm này là một phần trong mục tiêu dài hạn của Google nhằm tạo ra các đại lý đa năng trong các lĩnh vực khác nhau.
- Các ứng dụng game và hơn thế nữa
Mở rộng phạm vi của Gemini 2.0 sang các môi trường ảo, Google DeepMind đang hợp tác với các đối tác game như Supercell về các đại lý game thông minh. Những trợ lý trí tuệ nhân tạo thực nghiệm này có thể diễn giải các hành động trong game theo thời gian thực, đề xuất các chiến lược và thậm chí có thể truy cập vào kiến thức rộng hơn thông qua Search. Nghiên cứu cũng đang được tiến hành về cách khả năng lý luận không gian của Gemini 2.0 có thể hỗ trợ cho robotics, mở ra cánh cửa cho các ứng dụng thế giới vật lý trong tương lai.
Giải quyết trách nhiệm trong phát triển trí tuệ nhân tạo
Khi các khả năng của trí tuệ nhân tạo mở rộng, Google nhấn mạnh tầm quan trọng của việc ưu tiên an toàn và các yếu tố đạo đức.
Google khẳng định Gemini 2.0 đã trải qua các đánh giá rủi ro rộng rãi, được tăng cường bởi sự giám sát của Ủy ban Trách nhiệm và An toàn để giảm thiểu các rủi ro tiềm ẩn. Ngoài ra, các khả năng lý luận được nhúng vào nó cho phép "đánh giá an ninh nâng cao", cho phép các nhà phát triển đánh giá các kịch bản an ninh và tối ưu hóa các biện pháp bảo vệ an toàn ở quy mô lớn.
Google cũng đang khám phá các biện pháp bảo vệ để giải quyết quyền riêng tư của người dùng, ngăn chặn lạm dụng và đảm bảo các đại lý trí tuệ nhân tạo vẫn đáng tin cậy. Ví dụ, Dự án Mariner được thiết kế để ưu tiên các hướng dẫn của người dùng đồng thời chống lại các tiêm nhiễm lời nhắc độc hại, ngăn chặn các mối đe dọa như lừa đảo hoặc giao dịch gian lận. Trong khi đó, các kiểm soát quyền riêng tư trong Dự án Astra giúp người dùng dễ dàng quản lý dữ liệu phiên và các tùy chọn xóa.
Pichai khẳng định cam kết của công ty đối với việc phát triển có trách nhiệm, tuyên bố: "Chúng tôi tin chắc rằng cách duy nhất để xây dựng trí tuệ nhân tạo là phải có trách nhiệm ngay từ đầu."
Với việc phát hành Gemini 2.0 Flash, Google đang