Google tăng cường AI: Veo 3, Imagen 4 và Gemini Diffusion đẩy mạnh ranh giới sáng tạo

avatar
Decrypt
05-22
Bài viết này được dịch máy
Xem bản gốc

Google I/O 2025 chưa bao giờ là về sự tinh tế. Năm nay, công ty đã từ bỏ chủ nghĩa gia tăng, cung cấp một loạt các bản nâng cấp AI tạo ra nhằm mục đích vẽ lại bản đồ cho tìm kiếm, video và sáng tạo kỹ thuật số.

Chốt chặn: Gemini, dòng mô hình thế hệ tiếp theo của Google, hiện đang hỗ trợ mọi thứ, từ kết quả tìm kiếm đến tổng hợp video và tạo hình ảnh có độ phân giải cao — Staking ra lãnh thổ mới trong cuộc đua ngày càng được xác định bởi tốc độ và mức độ tự nhiên mà AI có thể tạo ra.

Showstopper là Veo 3 , trình tạo video AI đầu tiên của Google, không chỉ tạo ra hình ảnh mà còn tạo ra toàn bộ nhạc nền—tiếng ồn xung quanh, hiệu ứng, thậm chí cả lời thoại—đồng bộ trực tiếp với cảnh quay. Lời nhắc văn bản và hình ảnh sẽ được đưa vào, và video 4K được sản xuất hoàn chỉnh sẽ xuất hiện.

Đây là mô hình video quy mô lớn đầu tiên có khả năng tạo ra âm thanh và hình ảnh cùng lúc - một xu hướng bắt đầu với Showrunner Alpha , một mô hình chưa được phát hành, nhưng Veo3 cung cấp tính linh hoạt hơn nhiều, tạo ra nhiều phong cách khác nhau ngoài hoạt hình 2D đơn giản.

"Chúng tôi đang bước vào kỷ nguyên sáng tạo mới với sự kết hợp giữa thế hệ âm thanh và video", Phó chủ tịch Google Labs Josh Woodward cho biết trong buổi ra mắt. Đây là thách thức trực tiếp đối với các công ty dẫn đầu thế hệ video hiện tại—Kling, Hunyuan, Luma, Wan và Sora của OpenAI—định vị Veo như một giải pháp tất cả trong một thay vì yêu cầu nhiều công cụ.

Cùng với Veo3, Imagen 4—phiên bản mới nhất của mô hình tạo hình ảnh của Google—có tính chân thực cao, độ phân giải 2K và có lẽ quan trọng nhất là khả năng hiển thị văn bản thực sự phù hợp với biển báo, sản phẩm và mô hình kỹ thuật số.

Đối với bất kỳ ai từng phải chịu đựng những đoạn văn bản vô nghĩa do các mô hình hình ảnh AI trước đây tạo ra, Imagen 4 là một cải tiến đáng kể.

Những công cụ này không tồn tại riêng lẻ. Flow AI, một tính năng đăng ký mới dành cho người dùng chuyên nghiệp, kết hợp các khả năng ngôn ngữ của Veo, Imagen và Gemini thành một môi trường làm phim và biên tập cảnh thống nhất. Nhưng sự tích hợp này có giá là 125 đô la một tháng để truy cập toàn bộ bộ công cụ như một phần của thời gian khuyến mại cho đến khi mức giá đầy đủ là 250 đô la bắt đầu được tính.

Trí tuệ nhân tạo tạo ra không chỉ dành cho người sáng tạo nội dung. Gemini 2.5 hiện là xương sống của công cụ tìm kiếm được thiết kế lại của công ty, mà Google muốn phát triển từ một trình tổng hợp LINK (Chainlink) thành một giao diện đàm thoại năng động, xử lý các truy vấn phức tạp và cung cấp các câu trả lời tổng hợp từ nhiều nguồn.

Tổng quan về AI—nơi Google Gemini cố gắng cung cấp câu trả lời toàn diện cho các truy vấn mà không yêu cầu người dùng nhấp vào các trang web khác—hiện nằm ở đầu các trang tìm kiếm, với Google báo cáo có hơn 1,5 tỷ người dùng hàng tháng.

Một phát triển thú vị khác là "Gemini Diffusion", được xây dựng bằng công nghệ tiên phong của Inception Labs cách đây nhiều tháng. Cho đến gần đây, cộng đồng AI nói chung đều đồng ý rằng công nghệ tự hồi quy hoạt động tốt nhất cho việc tạo văn bản trong khi công nghệ khuếch tán lại vượt trội đối với hình ảnh.

Các mô hình hồi quy tự động tạo ra mỗi Token mới sau khi đọc tất cả các thế hệ trước đó để xác định Token tiếp theo tốt nhất — lý tưởng để tạo ra các phản hồi văn bản mạch lạc bằng cách liên tục xem xét lời nhắc và đầu ra trước đó.

Công nghệ khuếch tán hoạt động theo cách khác, bắt đầu bằng việc điền thông tin ngẫu nhiên vào toàn bộ bối cảnh và tinh chỉnh (khuếch tán) đầu ra ở mỗi bước để làm cho sản phẩm cuối cùng khớp với lời nhắc—hoàn hảo cho hình ảnh có khung cố định và tính thẩm mỹ.

OpenAI lần đầu tiên áp dụng thành công thế hệ tự hồi quy cho các mô hình hình ảnh và giờ đây Google đã trở thành công ty lớn đầu tiên áp dụng thế hệ khuếch tán cho văn bản. Điều này có nghĩa là mô hình bắt đầu bằng vô nghĩa và tinh chỉnh toàn bộ đầu ra với mỗi lần lặp, tạo ra hàng nghìn token mỗi giây trong khi vẫn duy trì độ chính xác—về mặt ngữ cảnh, Groq (không phải Grok của xAI), một trong những nhà cung cấp suy luận nhanh nhất thế giới, tạo ra gần 275 token mỗi giây và các nhà cung cấp truyền thống như OpenAI hoặc Anthropic không thể đạt được tốc độ đó.

Tuy nhiên, mô hình này vẫn chưa được công bố rộng rãi - những người dùng quan tâm phải tham gia danh sách chờ - nhưng những người dùng đầu tiên đã chia sẻ những kết quả ấn tượng cho thấy tốc độ và độ chính xác của mô hình.

Chúng tôi đã có cơ hội trải nghiệm một số tính năng AI mới của Google, với kết quả khác nhau tùy theo từng cấp độ.

Nghiên cứu sâu đặc biệt mạnh mẽ—thậm chí còn đánh bại giải pháp thay thế của ChatGPT. Công cụ nghiên cứu toàn diện này đánh giá hàng trăm nguồn và cung cấp thông tin đáng tin cậy với lỗi tối thiểu.

Điểm vượt trội của nó so với tác nhân nghiên cứu của OpenAI là khả năng tạo ra đồ họa thông tin. Sau khi tạo ra một văn bản nghiên cứu hoàn chỉnh, nó có thể cô đọng thông tin đó thành các slide hấp dẫn về mặt thị giác. Chúng tôi đã cung cấp cho mô hình mọi thứ về thông báo mới nhất của Google và nó trình bày thông tin chính xác thông qua biểu đồ, sơ đồ, đồ thị và sơ đồ tư duy.

Veo 3 vẫn độc quyền cho người dùng Gemini Ultra, mặc dù một số nhà cung cấp bên thứ ba như Freepik và Fal.ai đã cung cấp quyền truy cập thông qua API. Flow không khả dụng để dùng thử trừ khi bạn mua gói Ultra.

Flow chứng tỏ là một trình chỉnh sửa video trực quan với các mô hình của Veo làm cốt lõi, cho phép người dùng chỉnh sửa, cắt, mở rộng và sửa đổi các cảnh AI bằng cách sử dụng lời nhắc văn bản đơn giản.

Tuy nhiên, ngay cả Veo2 cũng được yêu thích một chút, giúp cuộc sống của người dùng Pro dễ dàng hơn. Các thế hệ với Veo2 hiện có thể truy cập nhanh hơn đáng kể—chúng tôi đã tạo ra 8 giây video trong khoảng 30 giây. Mặc dù Veo2 không có âm thanh và hiện chỉ hỗ trợ chuyển văn bản thành video (sắp có chức năng chuyển hình ảnh thành video), nhưng nó hiểu được lời nhắc của chúng tôi và thậm chí tạo ra văn bản mạch lạc.

Veo2 đã hoạt động tương đương với Kling 2.0—được coi rộng rãi là chuẩn mực chất lượng trong ngành công nghiệp video tạo hình. Các thế hệ mới với Veo3 dường như thậm chí còn thực tế hơn, mạch lạc hơn, với âm thanh nền tốt và lời thoại và giọng nói giống như thật.

Đối với Imagen, thoạt nhìn rất khó để xác định liệu Google có tích hợp phiên bản 4 hay vẫn sử dụng phiên bản 3 trên giao diện chatbot Gemini hay không, mặc dù người dùng có thể xác nhận điều này thông qua Whisk. Các thử nghiệm ban đầu của chúng tôi cho thấy Imagen 4 ưu tiên tính hiện thực trừ khi có quy định khác, với khả năng tuân thủ lời nhắc tốt hơn và hình ảnh vượt trội hơn phiên bản trước.

Chúng tôi tạo ra một hình ảnh với các yếu tố khác nhau thường không phù hợp với nhau trong cùng một cảnh. Yêu cầu của chúng tôi là "Ảnh một người phụ nữ có làn da làm bằng thủy tinh, được bao quanh bởi hàng ngàn mảnh lấp lánh và thanh thoát trong một căn phòng theo phong cách baroque với từ 'Giải mã' được viết bằng đèn neon, chân thực".

Mặc dù cả Imagen 3 và Imagen 4 đều hiểu khái niệm và các yếu tố, nhưng Imagen 3 không thể nắm bắt được phong cách thực tế—mà Imagen 4 đã làm một cách dễ dàng. Nhìn chung, Imagen 4 có thể so sánh với các trình tạo hình ảnh SOTA, đặc biệt là khi xét đến việc nó dễ nhắc nhở như thế nào.

Tổng quan âm thanh cũng được cải thiện, với các mô hình hiện dễ dàng cung cấp hơn 20 phút tranh luận đầy đủ về Gemini thay vì buộc người dùng phải chuyển sang NotebookLM. Điều này làm cho Gemini trở thành một giao diện hoàn thiện hơn, giảm sự phân mảnh mà trước đây yêu cầu người dùng phải chuyển đổi giữa các trang web khác nhau cho các dịch vụ khác nhau.

Chất lượng tương đương với NotebookLM , với thời gian xuất ra trung bình dài hơn một chút. Tuy nhiên, tính năng chính không phải là mô hình tốt hơn mà là nó hiện được nhúng vào giao diện người dùng chatbot của Gemini.

Google không giấu chiến lược kiếm tiền của mình. Gói " Ultra " của công ty có giá 250 đô la mỗi tháng, bao gồm quyền truy cập ưu tiên vào các mô hình mạnh mẽ nhất, các công cụ Flow AI và 30 terabyte dung lượng lưu trữ—rõ ràng là nhắm đến các nhà làm phim, nhà sáng tạo nghiêm túc và doanh nghiệp. Gói "AI Pro" có giá 20 đô la mở khóa mô hình Veo2 trước đây của Google, cùng với các tính năng hình ảnh và năng suất cho cơ sở người dùng rộng hơn. Các công cụ tạo cơ bản—như Gemini Live đơn giản và tạo hình ảnh—vẫn miễn phí, nhưng có những hạn chế như giới hạn mã Token và chỉ 10 nghiên cứu mỗi tháng.

Cách tiếp cận theo từng cấp độ này phản ánh xu hướng thị trường AI rộng hơn: thúc đẩy việc áp dụng rộng rãi bằng các sản phẩm miễn phí, sau đó khóa các chuyên gia bằng các tính năng quá hữu ích để bỏ qua. Google đặt cược rằng hành động thực sự (và biên lợi nhuận) nằm ở công việc sáng tạo cao cấp và quy trình làm việc tự động của doanh nghiệp—không chỉ là lời nhắc thông thường và tạo meme .

Biên tập bởi Andrew Hayward

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận