"Google vừa giảm giới hạn yêu cầu hàng ngày cho API Gemini miễn phí từ 250 xuống còn 20, và các tập lệnh tự động hóa n8n của tôi về cơ bản hiện không sử dụng được. Đây là một đòn giáng mạnh vào bất kỳ ai đang phát triển các dự án nhỏ", người dùng Nilvarcus bình luận.
Gần đây, một số cư dân mạng tiết lộ rằng Google thắt chặt các hạn chế đối với các gói miễn phí của API Gemini : sê-ri Pro đã bị ngừng sử dụng, và sê-ri Flash chỉ được giới hạn 20 lần mỗi ngày. Điều này vẫn chưa đủ đối với các nhà phát triển.
Một số cư dân mạng cũng phát hiện ra rằng Google đã xóa API miễn phí Gemini khỏi danh sách "Giới hạn tốc độ API hàng loạt". "Mọi chuyện đã hoàn toàn kết thúc."
Trong cuộc cạnh tranh khốc liệt về các mô hình quy mô lớn, Google cũng đã sử dụng các chính sách miễn phí và chi phí thấp để thu hút người dùng. Ví dụ, vào tháng 1 năm nay, Google đã ra mắt gói Gemini 1.5 Flash miễn phí cho API Gemini , cung cấp cho các nhà phát triển tới 1,5 tỷ token miễn phí mỗi ngày. Gói miễn phí này bao gồm lần yêu cầu mỗi phút, 1 triệu token mỗi phút và lần yêu cầu mỗi ngày. Ngoài ra, các nhà phát triển cũng có thể tận hưởng dịch vụ lưu trữ bộ nhớ đệm ngữ cảnh miễn phí, lưu trữ tới 1 triệu token mỗi giờ. Các tính năng tinh chỉnh cũng hoàn toàn miễn phí.
Bên cạnh việc giảm giá đáng kể, điều khiến một số nhà phát triển tức giận là chính sách này được thực hiện mà không có bất kỳ thông báo trước nào.
“Tôi luôn cho rằng không có bữa trưa nào là miễn phí. Nhưng cách tiếp cận của Google lần thực sự không thể chấp nhận được. Mặc dù hệ thống và các trường hợp sử dụng của tôi đều mang tính thử nghiệm, nhưng việc mọi thứ đột ngột ngừng hoạt động mà không có cảnh báo vẫn rất đáng thất vọng. Lẽ ra họ có thể nói điều gì đó như, ‘Nhân tiện, khi mô hình mới ra mắt , chúng tôi sẽ hủy bỏ hạn mức gọi API miễn phí dành cho nhà phát triển trong hai tuần nữa,’ khi họ phát hành Gemini 3? Một công ty có trách nhiệm và đáng tin cậy nên làm như vậy,” một nhà phát triển cho biết.
"Đúng vậy, Google đã thu thập đủ dữ liệu để vượt mặt các đối thủ cạnh tranh, vì vậy họ đang thay đổi chiến lược và thúc đẩy kiếm tiền. Chúng ta đều biết gói miễn phí ban đầu quá hào phóng, nhưng chúng tôi đã trả tiền bằng dữ liệu của chính mình và giúp họ đào tạo mô hình." Một nhà phát triển cho biết: "AI, nhà hảo tâm nhỏ bé, những người hâm mộ miền công cộng đã không còn nữa, giờ là lúc trả tiền cho chuyển đổi."
Tuần này có thể chứng kiến một cuộc đối đầu khác với OpenAI.
Gần đây, Google đã thu hút được một lượng lớn người dùng với Gemini 3. Hơn nữa, theo dữ liệu Financial Times, tính đến cuối năm lần, thời gian trung bình người dùng dành cho Gemini trên máy tính để bàn và web di động sẽ đạt khoảng 7,2 phút, vượt qua mức khoảng 6 phút của ChatGPT lần đầu tiên và vượt một chút so với mức khoảng 6 phút của Anthropic Claude.
Nhưng cuộc chiến khốc liệt cho các mô hình quy mô lớn vẫn tiếp diễn. OpenAI được cho là đang lên kế hoạch cho phản ứng đầu tiên của mình đối với Gemini 3 của Google bằng GPT-5.2 sắp ra mắt. Ban đầu dự kiến phát hành vào cuối tháng 12, GPT-5.2 dự kiến sẽ được phát hành sớm hơn, vào ngày 9 tháng 12. Kết quả benchmark của GPT-5.2 đã được lan truyền trực tuyến. Nếu dữ liệu này cuối cùng được xác nhận, lợi thế cạnh tranh sẽ một lần nữa nằm trong tay OpenAI.
Ngay khi tin đồn về việc phát hành GPT-5.2 lan truyền trực tuyến, cư dân mạng phát hiện ra rằng Gemini 3 Flash đã có mặt trên LM Arena, thậm chí một số người còn khẳng định rằng "Gemini 3 Flash có vẻ là sản phẩm của Google để cạnh tranh với GPT 5.2".
Điều này khiến cư dân mạng phấn khích: "Thật tuyệt vời! OpenAI và Google đã phối hợp thành công các chiến lược tấn công và phòng thủ. Nano Banana Pro và Gemini 3 Flash là phương án dự phòng của Google để đối phó với bản phát hành GPT-5.2 của OpenAI trong tuần này."
"Có thể thực sự có bong bóng ở một số lĩnh vực của ngành công nghiệp AI, chẳng hạn như các vòng gọi vốn hạt giống cao ngất ngưởng, nhưng tôi tin tưởng hơn ai hết rằng AI là công nghệ mang tính chuyển đổi nhất, và những khoản đầu tư này là xứng đáng về lâu dài. Nhiệm vụ của tôi là DeepMind và Google phải luôn dẫn đầu, bất kể bong bóng có vỡ hay không", Demis Hassabis, đồng sáng lập kiêm CEO của Google DeepMind, phát biểu tại một sự kiện của Axios, thể hiện quyết tâm cạnh tranh trực diện với OpenAI.
Google hài lòng với hiệu suất của Gemini 3.
Trong cuộc thi này, Google, vốn có khởi đầu không tốt, đã giành được một điểm với Gemini 3.
“Chúng tôi rất hài lòng với tính cách, phong cách và khả năng của Gemini 3. Tôi thích cách phản hồi súc tích của nó, và cách nó sẽ bác bỏ bạn khi cần thiết, thay vì chỉ đồng ý với mọi thứ. Nếu quan điểm của bạn không hoàn toàn hợp lý, nó sẽ nhẹ nhàng phản bác lại. Tôi nghĩ mọi người có thể cảm nhận được đây là một bước tiến vượt bậc về trí tuệ, và do đó hữu ích hơn”, Hassabis nói.
Điều này chắc chắn gợi nhớ đến việc OpenAI đã từng ngừng sử dụng GPT-4o do cách tiếp cận quá nịnh hót của ChatGPT. Rõ ràng là Google đã cố tình né tránh vấn đề này.
Hassabis rất thích thú khi chứng kiến người dùng trải nghiệm Gemini 3. " Một khi bạn tung ra một công nghệ mới, hàng triệu, thậm chí hàng tỷ người dùng sẽ ngay lập tức áp dụng nó. Chúng tôi luôn ngạc nhiên trước những ứng dụng thú vị mà người dùng nhanh chóng sáng tạo ra. Đó là lý do tại sao chúng tôi yêu thích thời đại này, nơi nghiên cứu và sản phẩm được tích hợp chặt chẽ với nhau."
Tính năng mà ông yêu thích nhất là Gemini 3 có thể hoàn thành tạo ra trò chơi "chỉ trong một lần".
"Quay trở lại những ngày đầu tôi làm việc với AI trò chơi, tôi cho rằng hiện tại chúng ta đã rất gần với khả năng tạo ra các trò chơi thương mại với mô hình chỉ trong vài giờ, điều mà trước đây phải mất nhiều năm. Điều này chứng minh độ sâu và khả năng đáng kinh ngạc của mô hình: chúng có thể hiểu các lệnh ở cấp độ rất cao và tạo ra kết quả rất chi tiết. Một lĩnh vực đặc biệt mạnh mẽ khác Gemini 3 là phát triển front-end và phát triển web; nó xuất sắc về mặt thẩm mỹ, sáng tạo và công nghệ."
“Điều này cũng đúng với tất cả các mô hình. Tốc độ đổi mới quá nhanh đến nỗi chúng tôi dành quá nhiều thời gian để xây dựng các phiên bản mới đến nỗi không có thời gian để khám phá dù chỉ một phần mười khả năng của các mô hình hiện có”, Hassabis nói. “Lần chúng tôi phát hành một phiên bản mới, tôi lại có cảm giác rằng mình thậm chí còn chưa kịp khám phá một phần mười hệ thống hiện có trước khi phải ngay lập tức chuyển sang phát triển thế hệ tiếp theo và đảm bảo tính bảo mật, độ tin cậy, v.v. Vì vậy, thực ra chính người dùng mới là những người sử dụng chúng sâu sắc hơn cả nội bộ chúng tôi.”
Đẩy Luật Mở rộng đến mức cực đoan
Liên quan đến lần API Gemini miễn phí bị hạn chế đột ngột, một số cư dân mạng bày tỏ sự nghi ngờ: "Có phải do tỷ lệ băm không đủ không? Tôi đã dùng Nano Banana Pro trong AI Studio mấy ngày nay, tốc độ rất chậm kể từ hôm kia, phải mất rất lâu mới tải được một hình ảnh." Những người khác lại đoán: "Mô hình mới đã được phát hành, nhưng mô hình cũ chưa được tải xuống, nên bộ nhớ bị đầy."
Mặc dù lý do chính xác vẫn chưa được biết, nhưng như Hassabis đã nói, Google sẽ luôn cần tỷ lệ băm: "Chúng tôi tại Google, tại DeepMind, chắc chắn có rất nhiều nguồn lực, nhưng chúng không phải là vô hạn. Chúng tôi sẽ luôn cần thêm tỷ lệ băm, bất kể hiện tại tỷ lệ băm có bao nhiêu. Lý do chúng tôi có thể tiến hành nghiên cứu sâu rộng như vậy là vì chúng tôi có những nguồn lực này."
Ông vẫn ủng hộ Luật Mở rộng Quy mô. Khi được hỏi liệu AGI có thể đạt được chỉ thông qua việc cải tiến các mô hình lớn và AI sinh sản hay không, Hassabis trả lời: "Chúng ta phải đẩy hệ thống hiện tại đến giới hạn của nó, và ít nhất nó sẽ trở thành một thành phần chủ chốt của AGI. Cũng có thể chỉ riêng việc mở rộng quy mô là đủ, nhưng tôi ngờ rằng khi nhìn lại, chúng ta sẽ thấy rằng vẫn cần một lần đột phá tương tự như Transformer hoặc AlphaZero."
Hassabis cho rằng sẽ mất khoảng năm đến mười năm để đạt được AGI, nhưng ông đặt ra tiêu chuẩn rất cao cho AGI: nó phải sở hữu mọi khả năng nhận thức của con người, bao gồm cả khả năng sáng tạo và phát minh.
Ông giải thích rằng các LLM hiện nay giống như các tiến sĩ hoặc nhà vô địch Olympic ở một số khía cạnh, nhưng vẫn còn yếu ở những khía cạnh khác, chẳng hạn như tính nhất quán, học tập liên tục, lập kế hoạch dài hạn và tư duy phức tạp. Họ là những người có trí thông minh hình răng cưa. Cuối cùng, họ sẽ đạt được những khả năng này, nhưng có thể cần một lần bước đột phá lớn.
Hassabis nhớ lại rằng trong năm 2017 và 2018, Google đã có rất nhiều dự án: mô hình ngôn ngữ riêng, Chinchilla, và Sparrow được sử dụng nội bộ. Đội ngũ cũng là những người đầu tiên khám phá ra một số quy tắc mở rộng, cụ thể là Luật Mở rộng Chinchilla. Ngoài ra còn có các hướng khác: chẳng hạn như AlphaZero dựa trên AlphaGo, các hệ thống học tăng cường thuần túy, và các kiến trúc lấy cảm hứng từ khoa học nhận thức và khoa học thần kinh. "Vào thời điểm đó, chúng tôi không chắc con đường nào sẽ dẫn đến AGI nhanh nhất và an toàn nhất. Nhiệm vụ của tôi là xây dựng AGI."
“Tôi thực sự rất thực tế về con đường này: nó phải hiệu quả. Khi chúng tôi thấy việc mở rộng quy mô thực sự bắt đầu có hiệu quả, chúng tôi sẽ tiếp tục đầu tư thêm nguồn lực vào lĩnh vực nghiên cứu và phát triển đó,” Hassabis nói. “Đó chính là vẻ đẹp của phương pháp khoa học. Nếu bạn là một nhà khoa học thực thụ, bạn không thể cứng nhắc bám vào ý tưởng của riêng mình; bạn phải tuân theo bằng chứng thực nghiệm.”
Lợi thế của việc trở thành một nhà khoa học
Là một nhà khoa học, cách tiếp cận mặc định của Hassabis đối với mọi vấn đề là phương pháp khoa học. Ông cho rằng rằng phương pháp khoa học có lẽ là một trong những tư tưởng quan trọng nhất trong lịch sử nhân loại, vì nó đã khai sinh ra Thời kỳ Khai sáng, khoa học hiện đại và định hình nên nền văn minh hiện đại. Tinh thần thực nghiệm, việc cập nhật giả thuyết và bản chất dựa trên bằng chứng của phương pháp khoa học tạo nên một lối tư duy cực kỳ mạnh mẽ, không chỉ áp dụng cho khoa học mà còn cho cuộc sống hàng ngày và thậm chí cả kinh doanh.
“Chúng tôi đang ở trong cuộc cạnh tranh có lẽ là khốc liệt nhất trong lịch sử khoa học và công nghệ, nhưng chúng tôi nổi bật nhờ sự nghiêm ngặt và chính xác, và phương pháp khoa học là trọng tâm trong công việc của chúng tôi. Chúng tôi kết hợp nghiên cứu tiên tiến, kỹ thuật tiên tiến và cơ sở hạ tầng tiên tiến, và trong lĩnh vực AI hàng đầu, bạn phải có cả ba. Tôi cho rằng có rất ít tổ chức có năng lực đẳng cấp thế giới trong cả ba lĩnh vực, và chúng tôi là một trong đó”, Hassabis nói. “Tôi luôn nỗ lực hết mình, và tôi cho rằng đó là thế mạnh của chúng tôi với tư cách là một tổ chức nghiên cứu và đội ngũ kỹ sư.”
Về cuộc cạnh tranh nhân tài AI, Hassabis thẳng thắn tuyên bố: "Gần đây mọi thứ thật sự điên rồ, giống như một số hoạt động của Meta." Tuy nhiên, ông cho biết Google đang tìm kiếm những cá nhân "có sứ mệnh". "DeepMind có sứ mệnh tốt nhất, năng lực toàn diện, và nếu bạn muốn thực hiện công việc có tác động lớn nhất, đây chính là nơi tốt nhất. Các nhà khoa học và kỹ sư giỏi nhất muốn tham gia vào các hệ thống tiên tiến, điều này sẽ thu hút thêm nhiều nhân tài hàng đầu."
Ba hướng đi chính của Google trong tương lai
Là một trong những gã khổng lồ AI hàng đầu thế giới, trọng tâm của Google rất đáng được chú ý trong ngành.
Theo Hassabis, Google đang phát triển theo ba hướng.
Đầu tiên là sự kết hợp đa phương thức. Gemini đã là một mô hình đa phương thức ngay từ đầu, có khả năng tiếp nhận hình ảnh, video, văn bản và âm thanh, và ngày càng có khả năng tạo nội dung trên các phương thức này. Google đang chứng kiến sự kết hợp đa phương thức. Một ví dụ là mô hình hình ảnh mới nhất, Nano Banana Pro, thể hiện khả năng hiểu thị giác đáng kinh ngạc, tạo ra các infographic có độ chính xác cao. Hassabis cho rằng trong năm tới, chúng ta sẽ thấy những sự kết hợp rất thú vị giữa các khả năng trong việc kết hợp mô hình video và mô hình ngôn ngữ.
Trong số các công nghệ mà Google đang phát triển và đã triển khai, Hassabis cho rằng điều đáng kinh ngạc nhưng chưa được đánh giá đúng mức chính là khả năng hiểu đa phương thức của các mô hình này, đặc biệt là khả năng xử lý đa phương thức đối với video, hình ảnh và âm thanh, trong đó biệt chú trọng đến xử lý video.
“Nếu bạn để Gemini xử lý một video YouTube, bạn có thể hỏi nó đủ thứ câu hỏi, và khả năng hiểu nội dung video của nó thường khiến tôi kinh ngạc. Mặc dù không phải lần nó cũng hiểu hoàn hảo, nhưng hầu hết thời gian, hiệu suất của nó đều rất ấn tượng.”
Hassabis đã dẫn chứng bộ phim yêu thích của mình, *Fight Club*, như một ví dụ, lưu ý đến một cảnh trong đó ai đó tháo nhẫn trước khi đánh nhau. Ông từng hỏi Gemini về ý nghĩa của cử chỉ này, và Gemini đã đưa ra một cách giải thích triết học rất thú vị: cử chỉ đó tượng trưng cho sự tách rời khỏi cuộc sống thường nhật, thể hiện thái độ buông bỏ những ràng buộc trần tục. "Sự thấu hiểu siêu nhận thức sâu sắc này là một trong những khả năng mạnh mẽ mà các hệ thống này sở hữu ngày nay."
Ngoài ra, Google còn có một tính năng gọi là Gemini Live, cho phép bạn hướng điện thoại vào một vật thể, chẳng hạn như nói với điện thoại rằng "bạn là thợ máy", và nó có thể xử lý nhiệm vụ liên quan trước mặt bạn. Lý tưởng nhất là tính năng này nên được áp dụng cho các thiết bị như kính, giúp bạn rảnh tay hơn. Tuy nhiên, Hassabis cho rằng mọi người vẫn chưa nhận thức đầy đủ về sức mạnh của khả năng đa phương thức này.
Thứ hai, có mô hình thế giới, mà Hassabis đang đích thân dẫn dắt. "Chúng tôi có một hệ thống gọi là Genie 3, một mô hình video tương tác. Bạn có thể tạo một video và sau đó nhập vào trong đó như thể bước vào một trò chơi hoặc thế giới mô phỏng, và nó có thể duy trì tính liên tục trong khoảng một phút, điều này rất thú vị."
Cuối cùng là hệ thống tác nhân thông minh. Hassabis chỉ ra rằng các tác nhân hiện tại chưa đủ tin cậy để hoàn thành mọi nhiệm vụ, nhưng dự kiến sẽ có những tiến bộ đáng kể trong năm tới.
"Chúng tôi có một viễn cảnh mong đợi gọi là 'trợ lý vạn năng', và chúng tôi hy vọng Gemini cuối cùng sẽ trở thành như vậy. Bạn sẽ thấy nó trên nhiều thiết bị hơn trong năm tới", Hassabis nói. "Vạn năng" ở đây không chỉ là máy tính, máy tính xách tay hay điện thoại, mà còn là kính hoặc các thiết bị khác.
"Chúng tôi muốn tạo ra một trợ lý giúp bạn mỗi ngày, một trợ lý mà bạn tham khảo lần trong ngày, trở thành một phần cuộc sống của bạn, nâng cao hiệu quả công việc và cải thiện đời sống cá nhân, chẳng hạn như đề xuất sách, phim hoặc các hoạt động bạn yêu thích. Tuy nhiên, trợ lý ảo hiện tại không cho phép bạn giao phó hoàn toàn một nhiệm vụ cho nó và tự tin rằng nó sẽ hoàn thành nhiệm vụ đó một cách đáng tin cậy. Nhưng tôi cho rằng trong một năm nữa, chúng ta sẽ thấy một trợ lý ảo tiến gần đến việc làm được điều đó."
Hassabis cũng đề cập rằng khi các tác nhân trở nên mạnh mẽ và tự chủ hơn, chúng sẽ trở nên hữu ích hơn, vì vậy các ngành công nghiệp khác nhau chắc chắn sẽ dựa vào chúng. Tuy nhiên, càng tự chủ, chúng càng dễ đi chệch khỏi hướng dẫn hoặc mục tiêu ban đầu của bạn. Do đó, việc đảm bảo các hệ thống học tập liên tục vẫn nằm trong giới hạn bạn đặt ra là một lĩnh vực nghiên cứu rất tích cực.
Ông nói rằng tin tốt là AI hiện sở hữu giá trị thương mại khổng lồ. Nếu bạn, với tư cách là nhà cung cấp mô hình, bán đại lý cho các công ty, các công ty đó sẽ yêu cầu đảm bảo về độ tin cậy, xử lý dữ liệu và hành vi khách hàng. Nếu có sự cố xảy ra, nó sẽ không "tuyệt chủng", nhưng bạn chắc chắn sẽ mất khách hàng. Các công ty sẽ chọn những nhà cung cấp có trách nhiệm hơn với các bảo đảm mạnh mẽ hơn. Do đó, bản thân chủ nghĩa tư bản ở một mức độ nào đó khích lệ hành vi có trách nhiệm hơn. Tất nhiên, nếu mọi thứ không được thực hiện đúng cách, việc đi ngược lại xu hướng là hoàn toàn có thể. Xác suất không phải là không, và đó là một trong những bất trắc lớn nhất. Vì xác suất không phải là không, nên cần phải nghiêm túc xem xét nó, và cần phải đầu tư nguồn lực để giảm thiểu nó.
Ngoài ra, Hassabis còn đề cập trong cuộc phỏng vấn rằng trong cạnh tranh toàn cầu, ông cho rằng Mỹ và phương Tây vẫn đang dẫn đầu, nhưng Trung Quốc cũng không hề kém cạnh. DeepSeek mới nhất và các mô hình khác rất mạnh mẽ, với đội ngũ rất năng lực. "Sự dẫn trước có thể chỉ là 'vài tháng' chứ không phải 'năm'."
Hassabis nhận định rằng, ngay cả sau khi loại bỏ yếu tố chip, phương Tây vẫn nắm giữ lợi thế trong việc đổi mới thuật toán AI. "Đội ngũ Trung Quốc rất giỏi trong việc nhanh chóng bắt kịp phương pháp tiên tiến nhất, nhưng chúng ta chưa thấy bất kỳ đột phá nào trong việc đề xuất các thuật toán hoàn toàn mới vượt qua các giới hạn hiện có."
Liên kết tham khảo:
https://www.youtube.com/watch?v=tDSDR7QILLg
https://x.com/legit_api/status/1997792538074436066
https://x.com/miantiao_me/status/1997491016467709981?s=46
Bài viết này được trích từ tài khoản công khai WeChat "AI Frontline" , do Chu Xingjuan biên soạn và được xuất bản với sự cho phép của 36Kr.





