Gần đây, Google liên tục tung ra các phần mềm trí tuệ nhân tạo với tốc độ chóng mặt. Chỉ trong tuần trước, chúng ta đã chứng kiến Gemini 3.1, Lyria và Pali, với tính năng chụp ảnh được nhiều người yêu thích. Và giờ đây, phiên bản kế nhiệm của phần mềm tạo ảnh thành công nhất năm ngoái đã ra mắt.
Nano Banana 2, ra mắt hôm thứ Năm, "mang đến trí thông minh tốc độ cao của Gemini Flash cho việc tạo hình ảnh, giúp chỉnh sửa và lặp lại nhanh chóng", Google cho biết trong một bài đăng trên blog chính thức, đồng thời bổ sung rằng "nó giúp các tính năng trước đây chỉ dành riêng cho người dùng chuyên nghiệp trở nên dễ tiếp cận hơn với nhiều người."
Đây là tóm tắt ngắn gọn. Phiên bản Nano Banana đầu tiên thực chất có tên là Gemini 2.5 Flash Image, và về cơ bản nó là một trình tạo ảnh dựa trên Gemini 2.5 Flash. Sau đó, Nano Banana Pro ra đời, vốn là Gemini 3 Pro Image, và nó đã trở thành tiêu chuẩn vàng cho việc chỉnh sửa ảnh bằng AI khi ra mắt vào tháng 11 năm ngoái.
Về mặt kỹ thuật, Nano Banana 2 là Gemini 3.1 Flash Image — vì vậy nó không phải là phiên bản kế nhiệm trực tiếp của Pro, mà giống như một phiên bản nâng cấp đáng kể của bản gốc, hiện đang chạy trên nền tảng Gemini 3 Flash mới hơn. Khó hiểu phải không? Đúng vậy.
Ý tưởng ở đây rất đơn giản: hãy lấy tất cả những điểm đặc biệt của Nano Banana Pro và tăng tốc độ xử lý lên mức Flash.
Nano Banana 2 mới chính thức được triển khai trên toàn bộ hệ sinh thái của Google từ hôm nay. Trong ứng dụng Gemini , nó sẽ thay thế Nano Banana Pro làm thiết bị mặc định trên các phiên bản Fast, Thinking và Pro. Người dùng đăng ký Google AI Pro và Ultra vẫn có thể truy cập Nano Banana Pro cho các tác vụ chuyên biệt bằng cách tái tạo thông qua menu ba chấm.
Tính năng này cũng đã được tích hợp vào Chế độ AI và Lens của Google Search, có sẵn thông qua API Gemini trong AI Studio và trên Vertex AI ở dạng bản xem trước, đồng thời là mô hình tạo ảnh mặc định mới trong Flow mà không tốn phí cho tất cả người dùng. Google cũng đang mở rộng tính năng đóng dấu bản quyền SynthID và bổ sung hỗ trợ Chứng chỉ Nội dung C2PA để cung cấp cho các nền tảng công cụ tốt hơn trong việc xác định phương tiện truyền thông do AI tạo ra. Tính năng xác minh SynthID đã được sử dụng hơn 20 triệu lần kể từ tháng 11 .
Điểm nổi bật nhất là kiến thức toàn cầu. Nano Banana 2 có thể lấy dữ liệu từ tìm kiếm web theo thời gian thực trong quá trình tạo ảnh, điều này có nghĩa là nó có thể hiển thị các đối tượng cụ thể với độ chính xác cao. Logo, địa danh, sự kiện gần đây, nhận diện thương hiệu—nó biết những thứ đó trông như thế nào vì nó có thể tra cứu chúng, chứ không chỉ đoán từ dữ liệu huấn luyện.
Tính năng hiển thị văn bản cũng được nâng cấp đáng kể. Giờ đây, bạn có thể tạo văn bản chính xác, dễ đọc bên trong hình ảnh, cho dù bạn tự viết văn bản trong lời nhắc hay để mô hình tự động quyết định nội dung dựa trên ngữ cảnh. Nó cũng xử lý việc dịch thuật trong hình ảnh, cho phép bạn bản địa hóa chiến dịch quảng cáo trên nhiều ngôn ngữ mà không cần phải xây dựng lại hình ảnh từ đầu.
Tính nhất quán về chủ thể cũng đang được nâng lên một tầm cao mới. Theo Google, mô hình có thể duy trì sự tương đồng về tính cách giữa tối đa năm chủ thể và giữ được độ chân thực về mặt hình ảnh của tối đa 14 đối tượng trong một quy trình làm việc duy nhất. Điều này rất quan trọng đối với bất kỳ ai đang xây dựng câu chuyện, kịch bản phân cảnh hoặc tài sản thương hiệu nhất quán.
Về mặt sản xuất, bạn có thể tạo video với độ phân giải từ 512px đến 4K, hỗ trợ nhiều tỷ lệ khung hình khác nhau. Khả năng thực thi lệnh cũng chính xác hơn so với các phiên bản Flash trước đây, điều này có nghĩa là sẽ có ít lời nhắc chỉ thực hiện một phần yêu cầu của bạn, và nhiều lời nhắc thực sự thực hiện chính xác những gì bạn yêu cầu.
Quá trình suy luận giờ đây cũng có thể được cấu hình. Các nhà phát triển có thể thiết lập các cấp độ suy luận từ Tối thiểu (mặc định) cho đến Cao hoặc Năng động, cho phép mô hình suy luận qua các yêu cầu phức tạp trước khi đưa ra kết quả hiển thị. Sự kết hợp giữa tốc độ và khả năng cân nhắc tùy chọn chính là nguồn gốc của nhiều cải tiến về chất lượng.
Những tuyên bố về tốc độ là có thật. Chúng tôi đã yêu cầu Nano Banana 2 tạo ra một dòng thời gian hoàn chỉnh của hệ sinh thái Bitcoin, bao gồm cả nghiên cứu và thiết kế cuối cùng. Toàn bộ quá trình mất khoảng thời gian tương đương với thời gian mà Nano Banana Pro cần chỉ để hoàn thành dòng thời gian Bitcoin. Khi chúng tôi tiếp tục với yêu cầu tạo dòng thời gian Ethereum, thời gian bổ sung hầu như không đáng kể. Đó là một sự khác biệt đáng kể đối với bất kỳ ai đang sử dụng các quy trình lặp đi lặp lại hoặc xây dựng ở quy mô lớn.
Khả năng nắm bắt kiến thức toàn cầu thực sự thay đổi cảm nhận về sản phẩm đầu ra. Khi chúng tôi yêu cầu một dòng thời gian lịch sử về tiền điện tử, mô hình đã tìm kiếm từ nhiều nguồn, chọn ra những sự kiện phù hợp nhất và sắp xếp bố cục xung quanh chúng. Sản phẩm không hề chung chung. Mô hình đã đưa ra các quyết định biên tập. Lỗi duy nhất mà chúng tôi phát hiện là thiếu LINK (Chainlink) trực quan giữa phần cuối của một phần và phần đầu của phần khác. Mọi thứ khác đều được kết nối chặt chẽ. Ngược lại, Nano Banana Pro tạo ra một sản phẩm mang tính nghệ thuật chung chung hơn và không có nỗ lực rõ ràng nào trong việc tìm nguồn hoặc ưu tiên các sự kiện.
Ví dụ, đây là kết quả mà Nano Banana 2 tạo ra khi được yêu cầu “Tạo một dòng thời gian về lịch sử Bitcoin, làm nổi bật các sự kiện quan trọng nhất từ khi ra đời đến nay. Định dạng màn hình rộng, phong cách vẽ tranh trẻ em” bằng cách sử dụng tư duy.
Để so sánh, đây là cùng một thế hệ sử dụng Nano Banana Pro:
Tính nhất quán về ký tự và khả năng xử lý văn bản là những điểm ấn tượng nhất trong kết quả thử nghiệm của chúng tôi. Chúng tôi yêu cầu mô hình tạo ra trang bìa tạp chí, và mọi dòng văn bản đều được hiển thị chính xác và rõ nét. Không có ký tự bị méo mó, không có hiện tượng lệch chữ.
Nano Banana Pro cũng khá tốt ở điểm này, nhưng nó hay gặp trục trặc hơn, và chất lượng ảnh bìa tạp chí mà nó tạo ra có vẻ như được dựng 3D một cách giả tạo.
Kết quả của Nano Banana 2 trông rất chân thực. Nó cũng hiển thị ít ký tự bị lỗi hơn khi tạo văn bản bằng cách tự suy luận, chứ không chỉ khi được chỉ dẫn rõ ràng phải viết gì.
Tuy nhiên, mô hình này có giới hạn nội dung rõ ràng. Chúng tôi đã yêu cầu Nano Banana 2 chỉnh sửa một bức ảnh thật và thay đổi trang phục thành đồ lót. Sau một quá trình suy luận dài, nó đã từ chối. Điều đó có thể dự đoán được, nếu không phải vì nó từ chối chỉnh sửa ảnh của một người phụ nữ, nhưng lại có thể chỉnh sửa ảnh của một người đàn ông.
Việc đề nghị đổi đồ bơi diễn ra suôn sẻ. Mức độ kiểm duyệt dường như tương đương với Nano Banana Pro, có nghĩa là bất cứ nội dung nào hướng đến sự khiêu dâm hoặc thao túng người thật trong bối cảnh gợi dục sẽ bị chặn. Điều này quan trọng hơn bạn nghĩ, và chúng ta sẽ hiểu lý do tại sao trong chốc lát.
Điều đáng chú ý về việc ra mắt một mẫu thiết bị hình ảnh chủ lực vào cuối tháng 2 năm 2026 là: ByteDance đã ra mắt Seedream 5 ngay trong cùng tuần đó.
Seedream đã trở thành một nền tảng được cộng đồng yêu thích trong năm qua, và điều đó hoàn toàn có lý. Nó linh hoạt, tiết kiệm chi phí — khoảng 0,035 đô la mỗi hình ảnh thông qua API, chỉ bằng khoảng một phần ba giá của Google — và khả năng kiểm duyệt nội dung của nó tự do hơn đáng kể so với Google. Điểm cuối cùng này đã giúp nó có được lượng người dùng trung thành trong số những người sáng tạo cần nhiều không gian hơn để làm việc với người thật hoặc vượt qua những giới hạn về mặt hình ảnh.
Seedream 5 tích hợp tìm kiếm web thời gian thực vào quy trình tạo video, cải thiện khả năng suy luận, tăng cường tính nhất quán tham chiếu và hỗ trợ tối đa 14 hình ảnh tham chiếu trong một quy trình chỉnh sửa nhiều vòng. Nó tạo video ở độ phân giải 2K và 4K chỉ trong vài giây. Seedream 5 cũng có thể chạy cục bộ, điều mà Google không cho phép, và có sẵn trong CapCut và Jianying của ByteDance, cũng như thông qua API tiêu chuẩn.
Tóm Short, cả Google và ByteDance đều phát hành các mô hình hình ảnh dựa trên tìm kiếm web và được tăng cường khả năng suy luận trong cùng một tuần. Điều đó cho thấy xu hướng phát triển của toàn bộ lĩnh vực này.




