Gemini mới của Google bị rò rỉ, bài kiểm tra LMArena: AI duy nhất có thể hiểu biểu đồ, câu trả lời ngẫu nhiên của GPT-5

Bài viết này được dịch máy
Xem bản gốc

Gemini 3.0 của Google được cho là sẽ ra mắt LMArena! Nhiều thử nghiệm thực tế đã được công bố trước đó, nhưng kết quả vẫn khó đánh giá.

Gemini 3.0 đã được đồn đoán từ rất lâu, nhưng cuối cùng thì thông tin này cũng đã được tiết lộ.

Vẫn trong đấu trường LMAreana , hai "hình hài" của Gemini 3.0 đã bị vạch trần.

  • Áo vest Gemini 3.0 Pro: lithiumflow
  • Gemini 3.0 Flash biệt danh: orionmist

Điều này đã trở thành một "kỹ năng truyền thống". Lần một mô hình mới ra mắt, chúng tôi phải đến LMArena để tạo đà cho nó.

Tuy nhiên, sau khi xem kết quả thử nghiệm thực tế tại đấu trường, Gemini 3 quả thực rất mạnh. Hy vọng lần Google sẽ không đi theo OpenAI nữa mà thể hiện sức mạnh của mình!

Một số hình ảnh mặt trước của Gemini 3 đã bị rò rỉ trước đó và cư dân mạng đã đưa tin rằng mẫu flagship thế hệ tiếp theo của Google sẽ được ra mắt vào ngày 22 tháng 10 .

Một số nhà phát triển đã đạt được tư cách kiểm tra nội bộ đã phát hành một số bản demo.

Nhưng lần nó được ra mắt trực tiếp trên đấu trường LMArena.

Những người dùng may mắn tìm thấy bản hack Gemini 3 đã chia sẻ trải nghiệm của họ. Nếu bạn cũng may mắn, hãy chia sẻ xem hiệu suất của Gemini 3 có được cải thiện đáng kể không.

AI lần hiểu được đồng hồ

Việc đo lường thực tế "đọc đồng hồ" luôn là một thách thức lớn đối với AI , liên quan đến nhiều yếu tố, bao gồm kiểu dáng của đồng hồ, chiều dài và hướng của kim đồng hồ, khả năng phán đoán khoảng thời gian phút, v.v.

Tuy nhiên, thử nghiệm thực tế với Gemini 3 Pro (lithiumflow) cho thấy mẫu máy này có thể chính xác đến từng giờ (6), phút (02) và giây (30).

Với cùng một vấn đề, GPT-5 Thinking đã trở nên hơi điên rồ và nhận dạng trực tiếp là 12:30, khiến kim giờ và kim phút bị nhầm lẫn.

Điều tương tự cũng xảy ra khi tôi thử nghiệm với Gemini 2.5 Pro. Thật sự rất khó để biết giờ trên đồng hồ với mô hình này.

So sánh mà nói, những người mẫu không phải top đầu khác trong LMArena thậm chí còn "điên rồ" hơn.

Ngoài ra, tôi đã thử nghiệm nhiều lần trên LMArena và chưa bao giờ gặp áo vest Gemini 3.

Nếu khả năng mặc áo giáp của Gemini 3 trong đấu trường là sự thật thì Gemini 3 thực sự đáng để mong đợi!

SVG: Một con bồ nông đang đạp xe

Lần một mô hình mới ra đời, việc thử nghiệm SVG là điều không thể tránh khỏi.

Kết quả thử nghiệm SVG của Gemini 3 Pro thoạt nhìn rất tốt.

Hiệu suất hình ảnh đã được cải thiện nhiều hơn trước và thậm chí có thể thấy rằng nó có phong cách hơi "trừu tượng".

Tất nhiên, bạn không bao giờ có thể tránh được con bồ nông trên xe đạp, nhưng ít nhất lần chiếc xe đạp được vẽ rất đẹp.

Tuy nhiên, có một điều cần phải phàn nàn là meme trên internet "Bồ nông trên xe đạp" có thể đã trở thành meme để thử nghiệm các mẫu xe mới.

Do đó, mỗi mô hình dường như đã âm thầm điều chỉnh từ gợi ý này.

Ví dụ, hai ví dụ về đấu trường sau đây không nhấn mạnh vào việc sử dụng SVG.

Mặc dù SVG được nhấn mạnh, hiệu ứng vẫn "hoàn hảo". So sánh với bản vẽ của Gemini 3 thì không được đẹp mắt và hiệu ứng chỉ ở mức trung bình.

Mô hình thành phần tử tế đầu tiên

Một bản cập nhật quan trọng khác là Gemini 3 Pro có thể soạn nhạc.

Có thể bắt chước các phong cách âm nhạc, giữ nhịp trong thời gian dài và mang lại năng lượng và sự biến tấu.

Bạn nghĩ gì về hiệu ứng âm nhạc này?

Hiện tại, hầu hết các bài kiểm tra thực tế vẫn được thực hiện trên LMArena.

(Nhân tiện, tôi đã chạy qua gần 100 lời nhắc và vẫn không gặp Gemini 3)

Vậy tại sao chúng ta lại đánh giá rằng hai chiếc áo vest này chính là mã thử nghiệm thực tế của Gemini 3?

Một số người cho rằng "Orion" có thể liên quan đến Gemini 3 và Google sẽ sử dụng phương pháp kết hợp hai từ " orionmist ".

Trước khi Gemini 3 được phát hành trên LMArena, nhiều thử nghiệm nội bộ đã cho thấy trò chơi này rất mạnh mẽ.

Ngay cả HTML cũng có thể tương thích với giao diện người dùng của toàn bộ hệ thống MacOS và Windows.

Chỉ trong 1 phút, Gemini 3 Pro có thể tạo ra toàn bộ hoạt ảnh theo phong cách bằng SVG.

Tôi đã ghi lại một phần hoạt ảnh và hiệu ứng này trông khá "hư cấu".

Tuy nhiên, một số người đã gặp phải kết quả xét nghiệm không như mong muốn.

Đã gần một năm kể từ khi Google phát hành Gemini 2.5 và hiện tại tất cả các công ty công nghệ lớn đều đang theo dõi động thái của OpenAI.

Sau khi OpenAI chơi GPT-5 và phiên bản mới của Sora 2, Google chỉ tiếp tục chơi Veo 3.1.

Làn sóng ra mắt LMArena có lẽ là một cuộc thử nghiệm trước khi phát hành, Gemini 3 sẽ sớm ra mắt!

Nhìn chung, mặc dù các mô hình đã trở nên mạnh mẽ hơn nhiều, chẳng hạn như có khả năng đọc bảng, vẽ SVG và soạn nhạc, nhưng "kỹ năng truyền thống" của toàn bộ nhóm AI đang ngày càng trở nên cố định.

Đầu tiên tin đồn lan truyền, sau đó xuất hiện trên LMArena, và sau đó một nhóm người cố gắng xác định thứ thật và kiểm tra SVG để xem thứ nào trông giống thứ thật hơn.

Bullish thì hơi chán.

Suy cho cùng, dù là Gemini 3, GPT-5 hay phiên bản mới của Claude thì cuối cùng vẫn là cùng một tập hợp "ảnh chụp màn hình thực tế + so sánh nhanh + mô tả hình ảnh".

Các mô hình đang trở nên thông minh hơn, nhưng phương pháp đánh giá của chúng ta dường như vẫn mắc kẹt theo cách cũ.

Tôi hy vọng rằng lần sau, mô hình không chỉ mạnh hơn mà chúng ta còn có thể nghĩ ra một số thủ thuật mới.

Tham khảo

https://x.com/synthwavedd/status/1979969871921225881

https://x.com/ai_for_success/status/1979980654713696340

https://x.com/scaling01/status/1979996937743954101

https://x.com/scaling01/status/1979996937743954101

Bài viết này trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Dinghui và được 36Kr cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận