Google đã tung ra Gemini 2.0 tuần này, trang bị mô hình AI mới nhất của mình với các khả năng tự chủ và tính năng đa phương thức.
Điều đáng chú ý ngay lập tức trong bản phát hành này là Google xem các chatbot AI như đang tiến hóa thành Đại lý AI - phần mềm tùy chỉnh sử dụng AI tạo ra để tương tác với người dùng và hiểu và thực hiện các nhiệm vụ theo thời gian thực.
"Với những tiến bộ mới trong đa phương thức - như khả năng tạo ra hình ảnh và âm thanh bản địa và sử dụng công cụ bản địa - sẽ cho phép chúng tôi xây dựng các đại lý AI mới mang chúng ta lại gần hơn với tầm nhìn của một trợ lý phổ quát," Giám đốc điều hành Google Sundar Pichai cho biết.
Mô hình này xây dựng trên nền tảng đa phương thức của Gemini 1.5 với các khả năng tạo hình ảnh và chuyển văn bản thành giọng nói mới, cùng với các kỹ năng lập luận được cải thiện.
Theo Google, biến thể Flash 2.0 vượt trội so với mô hình Pro 1.5 trước đó về các tiêu chuẩn chính trong khi chạy với tốc độ gấp đôi.
Mô hình này hiện đang có sẵn cho người dùng trả phí Google Advanced - gói đăng ký trả phí được thiết kế để cạnh tranh với Claude và ChatGPT Plus.
Những người sẵn sàng làm bẩn tay có thể tận hưởng trải nghiệm đầy đủ hơn bằng cách truy cập mô hình thông qua Google AI Studio.
Điều quan trọng cần xem xét là giao diện này phức tạp hơn so với giao diện người dùng đơn giản, trực quan và thân thiện với người dùng mà Gemini cung cấp.
Ngoài ra, nó mạnh mẽ hơn nhưng chậm hơn rất nhiều. Trong các bài kiểm tra của chúng tôi, chúng tôi yêu cầu nó phân tích một tài liệu dài 74K token và nó mất gần 10 phút để tạo ra một phản hồi.
Tuy nhiên, đầu ra là chính xác, không có ảo giác. Các tài liệu dài hơn khoảng 200K token (gần 150.000 từ) sẽ mất nhiều thời gian hơn để được phân tích, nhưng mô hình có khả năng thực hiện công việc nếu bạn kiên nhẫn đủ.
Google cũng đã triển khai một tính năng "Nghiên cứu Sâu", hiện có sẵn trong Gemini Advanced, để tận dụng khả năng lập luận và khả năng xử lý ngữ cảnh dài của mô hình để khám phá các chủ đề phức tạp và biên soạn báo cáo.
Điều này cho phép người dùng giải quyết các chủ đề khác nhau sâu hơn so với việc sử dụng một mô hình thông thường được thiết kế để cung cấp các câu trả lời trực tiếp hơn. Tuy nhiên, nó dựa trên Gemini 1.5 và không có lịch trình nào để theo dõi cho đến khi có một phiên bản dựa trên Gemini 2.0.
Tính năng mới này đặt Gemini vào cạnh tranh trực tiếp với các dịch vụ như Perplexity's Pro search, You.com's Research Assistant và thậm chí là BeaGo ít được biết đến, tất cả đều cung cấp một trải nghiệm tương tự. Tuy nhiên, dịch vụ của Google cung cấp một điều gì đó khác biệt. Trước khi cung cấp thông tin, phải xác định được cách tiếp cận tốt nhất đối với nhiệm vụ.
Nó trình bày một kế hoạch cho người dùng, người dùng có thể chỉnh sửa nó để bao gồm hoặc loại trừ thông tin, thêm tài liệu nghiên cứu bổ sung hoặc trích xuất các mẩu thông tin. Một khi phương pháp luận đã được thiết lập, họ có thể chỉ thị chatbot bắt đầu nghiên cứu của mình. Cho đến nay, không có dịch vụ AI nào cung cấp cho các nhà nghiên cứu mức độ kiểm soát và tùy chỉnh này.
Trong các bài kiểm tra của chúng tôi, một lời nhắc đơn giản như "Nghiên cứu tác động của AI đối với các mối quan hệ con người" đã kích hoạt một cuộc điều tra hơn một tá trang web khoa học hoặc chính thức đáng tin cậy, với mô hình tạo ra tài liệu dài 3 trang dựa trên 8 nguồn được trích dẫn đúng cách. Không tệ chút nào.
Google cũng đã chia sẻ một video trình diễn Dự án Astra, trợ lý AI thử nghiệm của mình được cung cấp bởi Gemini 2.0. Astra là phản ứng của Google với Meta AI: Một trợ lý AI tương tác với mọi người theo thời gian thực, sử dụng camera và micro của điện thoại thông minh làm đầu vào thông tin và cung cấp phản hồi ở chế độ giọng nói.
Google đã mở rộng khả năng của Dự án Astra, bao gồm các cuộc trò chuyện đa ngôn ngữ với nhận dạng giọng nói được cải thiện, tích hợp với Google Search, Lens và Maps, bộ nhớ mở rộng lưu giữ 10 phút ngữ cảnh cuộc trò chuyện, bộ nhớ dài hạn và độ trễ cuộc trò chuyện thấp thông qua các khả năng phát trực tuyến mới.
Mặc dù nhận được phản hồi trung lập trên mạng xã hội - video của Google chỉ nhận được 90K lượt xem kể từ khi ra mắt - việc ra mắt bộ mô hình mới dường như đang nhận được sự quan tâm đáng kể từ người dùng, với sự gia tăng đáng kể trong các tìm kiếm trên web, đặc biệt là khi nó được công bố trong một sự cố lớn của ChatGPT Plus.
Thông báo của Google trong tuần này cho thấy rõ rằng họ đang cố gắng cạnh tranh với OpenAI để trở thành nhà lãnh đạo ngành AI tạo ra.
Thực tế, thông báo của họ rơi vào giữa chiến dịch "12 ngày Giáng sinh" của OpenAI, trong đó công ty ra mắt một sản phẩm mới mỗi ngày.
Cho đến nay, OpenAI đã ra mắt một mô hình lập luận mới (o1), một công cụ tạo video (Sora) và một gói "Pro" giá 200 đô la mỗi tháng.
Google cũng đã ra mắt tiện ích mở rộng Chrome mới do AI điều khiển của mình, Dự án Mariner, sử dụng các đại lý để điều hướng các trang web và hoàn thành các nhiệm vụ. Trong các bài kiểm tra so với tiêu chuẩn WebVoyager cho các nhiệm vụ web thực tế, Mariner đạt tỷ lệ thành công 83,5% khi hoạt động như một đại lý duy nhất, Google cho biết.
"Trong năm qua, chúng tôi đã đầu tư vào việc phát triển các mô hình có tính đại lý hơn, có nghĩa là chúng có thể hiểu nhiều hơn về thế giới xung quanh bạn, suy nghĩ nhiều bước phía trước và hành động thay mặt bạn, với sự giám sát của bạn," Pichai viết trong thông báo.
Công ty có kế hoạch triển khai tích hợp Gemini 2.0 trên toàn bộ danh mục sản phẩm của mình, bắt đầu bằng quyền truy cập thử nghiệm vào ứng dụng Gemini ngày hôm nay. Một bản phát hành rộng rãi hơn sẽ theo sau vào tháng 1, bao gồm tích hợp vào các tính năng AI của Google Search, hiện đang tiếp cận hơn 1 tỷ người dùng.
Bản phát hành Gemini 2.0 đến trong bối cảnh Anthropic lặng lẽ ra mắt bản cập nhật mới nhất của mình. Claude 3.5 Haiku là một phiên bản nhanh hơn của bộ mô hình AI của họ, với hiệu suất tuyên bố vượt trội trong các nhiệm vụ lập trình, đạt 40,6% trên tiêu chuẩn SWE-bench Verified.
Anthropic vẫn đang huấn luyện mô hình mạnh nhất của họ, Claude 3.5 Opus, sẽ được phát hành vào cuối năm 2025 sau một loạt sự chậm trễ.
Cả dịch vụ cao cấp của Google và Anthropic đều có giá 20 đô la mỗi tháng, khớp với mức giá cơ bản của ChatGPT Plus của OpenAI.
Claude 3.5 Haiku của Anthropic được chứng minh là nhanh hơn, rẻ hơn và mạnh mẽ hơn nhiều so với Claude 3 Sonnet (mô hình kích thước trung bình của Anthropic từ thế hệ trước), đạt 88,1% trên các nhiệm vụ lập trình HumanEval và 85,6% trên các bài toán toán học đa ngôn ngữ.
Mô hình này thể hiện sức mạnh đặc biệt trong xử lý dữ liệu, với các công ty như Replit và Apollo báo cáo những cải thiện đáng kể trong việc tinh chỉnh mã và tạo nội dung.
Claude 3.5 Haiku rẻ chỉ $0,80 cho mỗi triệu token đầu vào.
Công ty tuyên bố người dùng có thể đạt được tiết kiệm chi phí lên đến 90% thông qua bộ nhớ cache lời nhắc và giảm thêm 50% bằng cách sử dụng API Batch Tin nhắn, định vị mô hình này là một lựa chọn hiệu quả về chi phí cho các doanh nghiệp muốn mở rộng hoạt động AI của họ và là một lựa chọn rất thú vị để xem xét so với OpenAI o1-mini có giá $3,00 cho mỗi triệu token đầu vào.
Được chỉnh sửa bởi Sebastian