Hôm nay, Google đã giới thiệu Gemini 3.1 Flash Lite, một mô hình trí tuệ nhân tạo mới được thiết kế để mang lại tốc độ phản hồi nhanh hơn và chi phí vận hành thấp hơn trong dòng sản phẩm Gemini 3 của công ty.
Mô hình này hiện đang được triển khai thử nghiệm cho các nhà phát triển thông qua API Gemini trong Google AI Studio và cho khách hàng doanh nghiệp thông qua Vertex AI.
Google mô tả Gemini 3.1 Flash Lite là mẫu nhanh nhất và tiết kiệm chi phí nhất trong dòng Gemini 3, được thiết kế đặc biệt cho các khối lượng công việc lớn, nơi độ trễ và chi phí là yếu tố quan trọng.
Mức giá của mô hình này bắt đầu từ 0,25 đô la cho mỗi triệu token đầu vào và 1,50 đô la cho mỗi triệu token đầu ra, đưa nó trở thành một trong những lựa chọn có chi phí thấp nhất trong dòng mô hình AI hiện tại của Google.
Theo các số liệu chuẩn do Google công bố, Gemini 3.1 Flash Lite cho thời gian Token hồi đầu tiên nhanh hơn 2,5 lần so với Gemini 2.5 Flash và tạo ra kết quả nhanh hơn 45% trong khi vẫn duy trì chất lượng tương đương hoặc tốt hơn.
Các bài kiểm tra hiệu năng cũng cho thấy mô hình này có khả năng cạnh tranh tốt với các mô hình AI nhẹ khác. Gemini 3.1 Flash Lite đạt điểm Elo 1432 trên bảng xếp hạng Arena AI và ghi được 86,9% trên bài kiểm tra khả năng suy luận GPQA Diamond và 76,8% trên bài kiểm tra đa phương thức MMMU Pro.
Google cho biết mô hình này được thiết kế để xử lý các tác vụ phát triển có tần suất cao như dịch thuật, kiểm duyệt nội dung và theo dõi hướng dẫn quy mô lớn, đồng thời vẫn hỗ trợ các khối lượng công việc phức tạp hơn như tạo giao diện, tạo mô phỏng và các tác vụ dữ liệu có cấu trúc.
Bản phát hành này cũng giới thiệu các cấp độ tư duy có thể điều chỉnh trong AI Studio và Vertex AI, cho phép các nhà phát triển kiểm soát mức độ suy luận mà mô hình thực hiện tùy thuộc vào độ phức tạp của nhiệm vụ. Tính linh hoạt này nhằm mục đích giúp các nhóm cân bằng chi phí, tốc độ và độ chính xác khi triển khai các ứng dụng AI trên quy mô lớn.





