Gemini 3.5 Pro lần đầu tiên bị rò rỉ trên mạng, cho thấy khả năng lập trình tương đương với GPT-5.5. Google cuối cùng cũng đã dốc toàn lực.

Bài viết này được dịch máy
Xem bản gốc

Mới đây, Gemini 3.5 đã bị rò rỉ sớm hơn dự kiến!

Theo thông tin mới nhất từ ​​người dùng Lentils, bản cập nhật Gemini 3.5 Pro có tên mã "Cappuccino" đã bắt đầu được sản xuất.

Chỉ vài giờ trước, tin đồn cho rằng đó là Gemini 3.2, nhưng bất ngờ thay, nó đã được thay thế bằng Gemini 3.5.

Bằng cách bỏ qua một thế hệ trong quy ước đặt tên từ 3.2 lên 3.5, Google rõ ràng muốn kể một câu chuyện lớn hơn về I/O.

Bản cập nhật lớn Gemini: Google tung ra ứng dụng "sát thủ" của mình.

Ngày hôm trước, Can, một người chuyên rò rỉ có tiếng, là người đầu tiên công bố lô sản phẩm đầu tiên.

Một là bản vẽ chi tiết tương tác về cách tháo rời bộ điều khiển DualShock 4, và cái còn lại là hình minh họa vector của một con bồ nông đang đạp xe, hoàn chỉnh với bảng điều khiển tùy chỉnh 7D nơi người dùng có thể thay đổi màu khung, đèn chiếu sáng, mũ bảo hiểm, nội dung giỏ và tốc độ đạp xe trong thời gian thực.

Dựa vào ảnh chụp màn hình, đây không còn là một file SVG đơn giản nữa, mà là một ứng dụng web tương tác hoàn chỉnh được tạo ra bằng lệnh!

CEO của Abacus.AI, Bindu Reddy, sau đó đã công bố thêm nhiều dữ liệu gây chấn động hơn nữa—

3.2 Flash đạt được 92% hiệu năng của GPT-5.5 trong mã hóa và suy luận, nhưng với chi phí rẻ hơn từ 15 đến 20 lần.

Thêm vào đó, trợ lý ảo mới nhất của Google, "Gemini Spark," cũng đã được tiết lộ.

Như bạn thấy, nó không chỉ có thể hoạt động liên tục 24/7 để giúp bạn quản lý email và thực hiện nhiệm vụ, mà thậm chí còn có thể đặt lệnh thay bạn mà không cần bạn yêu cầu.

Tuy nhiên, ngay lúc này, tiết lộ độc quyền của Alex Heath đã dội gáo nước lạnh vào tình hình —

Hiệu năng của Gemini mới ở mức tốt nhất cũng chỉ có thể sánh ngang với GPT-5.5 của OpenAI...

Một đề bài với bốn giải pháp: "Tính lười biếng"Gemini đã được chữa khỏi.

Trước tiên, hãy cùng xem tin tốt.

Trước đây, khi Gemini tạo ảnh SVG, lời phàn nàn phổ biến nhất trong cộng đồng chỉ đơn giản là "lười biếng". Khi được cung cấp thông tin, nó sẽ tạo ra một kết quả qua loa.

Nhưng lần thì khác.

Chỉ với một gợi ý đơn giản, người dùng Lentils đã cung cấp cho Gemini bốn hình ảnh SVG robot riêng biệt và rất chi tiết.

Thông tin rò rỉ về bộ nhớ Flash 3.5GB cùng thời điểm đó cũng xác nhận xu hướng này.

Kết quả so sánh hiệu nặc danh do LM Arena thực hiện cho thấy Flash đã vượt trội hơn 3.1 Pro về khả năng tạo SVG, mã hóa 3D tương tác và xử lý hoạt ảnh.

Nói cách khác, các kỹ thuật chưng cất và làm thưa của Google đang phát huy hiệu quả, nén các mô hình tiên tiến thành các phiên bản nhẹ hơn mà không gây ra sự suy giảm chất lượng đáng kể.

Google Agent vô cùng táo bạo, quản lý email của bạn và kiếm tiền thay bạn.

Một thông tin rò rỉ quan trọng khác vào cùng ngày là "Gemini Spark BETA".

Theo thông tin rò rỉ, Spark được định vị là "trợ lý AI hàng ngày của bạn, luôn sẵn sàng 24/7".

Một trợ lý AI hoạt động 24/7 giúp bạn quản lý hộp thư đến, thực hiện nhiệm vụ trực tuyến và quản lý quy trình làm việc nhiều bước.

Danh sách các nguồn dữ liệu của Spark thật sụp đổ.

Các ứng dụng Google được kết nối, mô-đun kỹ năng, lịch sử trò chuyện, nhiệm vụ đã lên lịch, các trang web bạn đã đăng nhập, Trí tuệ cá nhân và thông tin vị trí.

Gemini sẽ chia sẻ tên, thông tin liên hệ, tệp tin, tùy chọn và các thông tin khác của bạn với bên thứ ba để hoàn thành nhiệm vụ.

Ngoài ra, để duy trì tính liên tục của phiên làm việc, hệ thống cũng lưu trữ dữ liệu trình duyệt từ xa, bao gồm thông tin đăng nhập và dữ liệu thực thi mã từ xa.

Tuy nhiên, cần lưu ý rằng mặc dù Spark được thiết kế để yêu cầu sự cho phép trước khi thực hiện các thao tác nhạy cảm, nhưng nó "có thể chia sẻ thông tin của bạn hoặc hoàn tất giao dịch mua hàng mà không cần hỏi ý kiến."

Nói cách khác, nó có thể đặt lệnh mà không cần hỏi ý kiến ​​bạn, hoặc nó có thể chia sẻ thông tin mà không cần hỏi ý kiến ​​bạn.

Spark ban đầu là phiên bản nâng cấp của Google Agent, có tên mã là "Remy," trước đây chỉ dành cho người đăng ký gói AI Ultra.

Từ Remy đến Spark, Agent của Gemini đã phát triển từ "một chức năng đơn lẻ" thành "trợ lý cá nhân kỹ thuật số 24/7".

Điều này cạnh tranh trực tiếp với Conway, tác nhân được quản lý sắp ra mắt của Anthropic, và nền tảng tác nhân 24/7 đã được OpenAI ra mắt.

Sáu tháng trước, họ đứng đầu; sáu tháng sau, họ thậm chí không thể chạm tới vị trí dẫn đầu.

Vậy là hết phần tin vui rồi.

Theo xác nhận từ nhiều nguồn tin mà Alex Heath thu thập được, Gemini mới, dự kiến ​​ra mắt vào thứ Ba tới, có khả năng sẽ nằm trong phạm vi GPT-5.5, thấp hơn đáng kể so với Mythos.

Thời điểm đó, chiếc Gemini 3 mới ra mắt, với bộ xử lý LMARaena 1501 Elo, gần như chiếm trọn vị trí dẫn đầu trên tất cả các bảng xếp hạng lớn.

Sáu tháng sau, với sự ra mắt của GPT-5.5, Opus 4.7 và Mythos, cục diện đã hoàn toàn thay đổi.

Theo đánh giá của Viện An ninh AI Vương quốc Anh, Mythos là mô hình đầu tiên vượt qua đồng thời cả hai phạm vi kiểm thử an ninh mạng, trong khi GPT-5.5 chỉ vượt qua một phạm vi.

AISI thậm chí còn thừa nhận rằng khung đánh giá của họ đang tụt hậu so với khả năng của Mythos.

Quay trở lại với Google, theo giao diện mới nhất của trình chọn mô hình do người dùng Fandu phát hiện, Gemini mới có khả năng sẽ hỗ trợ tích hợp các công cụ của bên thứ ba như MCP, và chế độ Tư duy cũng sẽ được thiết kế lại hoàn toàn.

Như bạn thấy, bên cạnh các mẫu quen thuộc như 3.1 Flash-Lite, 3 Flash và 3.1 Pro, còn có một danh mục mới mà chúng ta chưa từng thấy trước đây: "Kiểm tra công cụ MCP", nghĩa là "các mẫu có thể được sử dụng để kiểm tra công cụ MCP".

Chế độ tư duy cũng đã thay đổi từ chế độ tư duy độc lập ban đầu sang chế độ chuyển đổi toàn cục, với hai cấp độ: Tiêu chuẩn (phù hợp với hầu hết các vấn đề) và Mở rộng (để giải quyết các vấn đề phức tạp).

Lập trình, chiến trường gây ra nhiều lo lắng nhất cho DeepMind.

Những tiết lộ của Heath tập trung mạnh vào khía cạnh lập trình.

Ông cho biết DeepMind đang phải đối mặt với áp lực thực sự, đặc biệt là trong việc bắt kịp về khả năng lập trình.

Mục tiêu rất rõ ràng: Anthropic. Trong năm qua, Claude đã khẳng định vị thế là lựa chọn mặc định của các nhà phát triển.

Phiên Gemini mới sẽ bao gồm những cải tiến về lập trình, nhưng không ai trong số những người mà Heath quen biết cho rằng nó sẽ mang lại sự thay đổi về chất lượng.

Nền tảng lập trình trí tuệ nhân tạo Antigravity của Google được sử dụng rộng rãi nội bộ, nhưng lại không thành công trong việc thâm nhập thị trường bên ngoài.

Tỷ lệ nhà phát triển sử dụng đạt 6% trong 4 tháng không phải là chậm đối với một IDE, nhưng chậm hơn đáng kể so với đà phát triển của Claude Code và Codex.

Vấn đề nằm ở đâu?

Một bài đánh giá hàng tháng của XDA đã thử nghiệm ba công cụ để thực hiện cùng một nhiệm vụ.

Claude Code đã hiểu chính xác những gợi ý sáng tạo phức tạp ngay từ lần. Ngược lại, sản phẩm của Antigravity lại giống như một bức vẽ nguệch ngoạc bằng Microsoft Paint.

Ngoài ra, chiến lược định giá của Antigravity cũng là một vấn đề nan giải đối với các nhà phát triển.

Google đã điều chỉnh mô hình định giá của mình lần, từ bản dùng thử miễn phí đến hệ thống tín dụng, và các khiếu nại trên các diễn đàn cộng đồng về việc không nhận được thông báo khi hết tín dụng vẫn liên tục xuất hiện.

Nhưng điểm quan trọng nhất là lập trình AI giờ đây đã hoàn toàn vượt ra khỏi phạm vi hẹp của nó.

Dù là Claude Cowork hay Codex của OpenAI, cả hai đều rất dễ sử dụng ngay cả đối với những người không biết lập trình, và chúng có thể hoạt động cực kỳ mượt mà.

Các quản lý sản phẩm mô tả yêu cầu bằng ngôn ngữ tự nhiên và trực tiếp nhận được một nguyên mẫu hoạt động. Sau đó, các nhà thiết kế gửi bản nháp Figma của họ và nhận được mã giao diện người dùng.

Tuy nhiên, cho đến nay, chưa có sản phẩm nào của Google có thể tham gia vào cuộc thảo luận này.

Có tiếng, những bình luận của Haider đã đưa ra một góc nhìn khác.

Google có thể không đặt mục tiêu chiến thắng bằng cách cạnh tranh trên cùng một đường đua với những đối thủ khác; trọng tâm lớn hơn của họ là xây dựng một hệ thống đa phương thức mạnh mẽ hơn, điều này sẽ cần thời gian.

Động lực thúc đẩy ASI: cả ba công ty cùng lúc tăng tốc.

Mặc dù mô hình này không thể bắt kịp, Google sở hữu một cổng phân phối quy mô hàng tỷ người dùng và đội ngũ hỗ trợ 24/7.

Sau khi Spark được triển khai, email, sự kiện lịch, dữ liệu mua sắm và dữ liệu duyệt web của người dùng sẽ được sử dụng để huấn luyện thế hệ Gemini tiếp theo.

Đây là một chiến lược mà OpenAI và Anthropic khó có thể sao chép.

Nhưng các đối thủ cạnh tranh không hề ngồi yên.

Mới hôm qua, OpenAI đã bổ sung chế độ UltraFast vào Codex, tăng tốc độ lên gấp 2-3 lần, đồng thời khởi động chiến dịch trợ giá, tặng hai tháng dịch vụ miễn phí cho các công ty chuyển đổi trong vòng 30 ngày. Chỉ trong vòng 3 giờ, đã có 2.000 nhà phát triển hưởng ứng.

Anthropic cũng phát hành Opus 4.7 Chế độ nhanh, tăng giới hạn tín dụng của Claude Code lên 50%.

Cuộc chiến trợ cấp này có vẻ như là một cuộc cạnh tranh để thu hút các nhà phát triển, nhưng logic tiềm ẩn đằng sau nó sâu xa hơn nhiều.

Việc phát triển GPT-5.6 gần như chắc chắn được thực hiện với sự tham gia độ sâu từ GPT-5.5. Mã do AI viết ra sẽ được sử dụng để huấn luyện AI, và ai kiểm soát người dùng các công cụ lập trình thì sẽ kiểm soát được accelerator của chu kỳ này.

Ba công ty này đều đang tăng tốc trên ba hướng khác nhau cùng một lúc.

OpenAI áp đảo các đối thủ cạnh tranh nhờ tốc độ phát triển nhanh chóng, phát hành phiên bản mới cứ sau ba tuần. Anthropic đạt được danh tiếng huyền thoại nhờ chất lượng mô hình, trong khi Mythos định nghĩa lại công nghệ tiên tiến. Google, thông qua phân phối và bao vây dựa trên tác nhân, đã đưa trí tuệ nhân tạo vào điện thoại của một tỷ người.

Không ai có ý định chậm lại. Bánh đà dẫn đến ASI đã bắt đầu quay.

Đối với những người sử dụng các công cụ này hàng ngày, cuộc chạy đua vũ trang giữa ba gã khổng lồ này có thể là điều đáng làm nhất trong năm 2026.

Các khoản trợ cấp đang được tăng lên, số tiền trợ cấp cũng tăng, các mẫu mã sản phẩm trở nên mạnh mẽ hơn, và giá cả thì đang giảm.

Câu hỏi duy nhất là, liệu bạn đã đặt cược vào quy trình làm việc của mình đúng hướng hay chưa?

Tham khảo:

https://x.com/alexeheath/status/2054747125616169229

Gemini

https://x.com/Lentils80/status/2054628116094501377

Bài viết này được lấy từ tài khoản chính thức WeChat "New Zhiyuan" , do Haokun biên tập và được đăng tải với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận