Mẫu phiên bản dùng thử Gemini Burst của Google trở lại vị trí dẫn đầu danh sách cạnh tranh, phiên bản mới GPT-4o chỉ còn 1 ngày nữa

11-22

Bài viết này được dịch máy

Xem bản gốc

Google và OpenAI lại đối đầu.

Chỉ 1 ngày sau khi phiên bản mới nhất của GPT-4o lên đầu bảng xếp hạng, họ đã nhanh chóng phát hành phiên bản thử nghiệm mới nhất Gemini-Exp-1121 để giành lại ngôi vị số 1.

Hãy nhớ rằng, phiên bản trước đó Gemini-Exp-1114 chỉ được phát hành cách đây 1 tuần.

Có vẻ như họ đã chuẩn bị sẵn để đối đầu với OpenAI.

Đây có thể là một chiến lược để lôi kéo OpenAI phát hành phiên bản mới của GPT-4o, sau đó sử dụng mô hình tốt hơn để đánh bại nó.

Các nhà nghiên cứu của Google rõ ràng rất tự hào.

Jack Rae, Giám đốc Khoa học trưởng của Google DeepMind, gọi đây là một "trận chiến chớp nhoáng" thú vị sau khi đào tạo, gợi ý rằng tốc độ lặp sau khi đào tạo nhanh hơn nhiều so với quá trình đào tạo ban đầu.

Oriol Vinyals, Phó Chủ tịch Nghiên cứu của DeepMind, cũng gửi câu hỏi đến OpenAI: "Gần đây có kế hoạch nộp không?"

Có vẻ như họ rất tự tin và đầy khí thế.

Vậy "1121" mạnh đến mức nào? Hãy xem xét các tính năng cụ thể.

Cải thiện mã hóa/suy luận/hiểu biết về thị giác

Theo thông tin chính thức, Gemni-Exp-1121 tập trung cải thiện ba khía cạnh sau:

Đáng kể cải thiện khả năng lập trình

Khả năng suy luận mạnh hơn

Khả năng hiểu biết về thị giác mạnh hơn

Ngoài kiểm soát phong cách, nó đang dẫn đầu trong tất cả các lĩnh vực khác.

Về khả năng thị giác, Gemini-Exp-1121 đã cải thiện so với phiên bản trước.

Trong việc kiểm soát phong cách với các lời nhắc phức tạp, Gemini-Exp-1121 tương đương với o1-preview và New Sonnet 3.5.

Tỷ lệ thắng trong cuộc thi như sau.

Bây giờ bạn cũng có thể trực tiếp trải nghiệm.

Ví dụ, hãy để Gemini-Exp-1121 và GPT-4o-lastest-1120 hiểu cùng một bức tranh truyện tranh.

Gemini-Exp-1121 trả lời toàn diện và chi tiết hơn, sử dụng các tiêu đề phụ và nhấn mạnh các điểm chính.

Phiên bản mới của 4o trả lời ngắn gọn và tổng quát hơn.

Trong bài toán logic về việc đưa sói, cừu và rau diếp qua sông, Gemini-Exp-1121 trả lời hoàn toàn chính xác, trong khi phiên bản mới của 4o có một số sai sót, kết hợp lần đưa qua sông thứ ba và thứ tư.

Câu hỏi: Người nông dân cần đưa sói, cừu và rau diếp qua sông, nhưng chỉ có thể mang một thứ qua mỗi lần, và sói không thể ở một mình với cừu, cừu cũng không thể ở một mình với rau diếp. Người nông dân phải làm thế nào để qua sông?

Một điều nữa

Đáng chú ý là, phía OpenAI cũng có tin mới.

Có người đã phát hiện ra mã nguồn của tính năng "Camera trực tiếp" (Live Camera) trong phiên bản thử nghiệm mới nhất của ChatGPT.

Tính năng này bao gồm quay video trực tiếp, xử lý video trực tiếp, tích hợp chế độ giọng nói và khả năng nhận dạng thị giác.

Khi ra mắt chế độ giọng nói nâng cao, một số người dùng đã trải nghiệm được khả năng này.

Điều này có nghĩa là OpenAI đã sẵn sàng ra mắt tính năng này.

Ở phía bên kia, Google cũng đã trình diễn một demo tương tự, nhưng chưa ra mắt. Với phong cách của OpenAI, rất có thể họ sẽ nhanh chóng triển khai tính năng này trước Google.

Có thể đến năm sau, cách chính chúng ta trao đổi với Chatbot sẽ chuyển từ văn bản sang giọng nói và trợ lý. Live Camera có thể là bước khởi đầu, bạn nghĩ sao?

Tham khảo:

[1]https://x.com/OfficialLoganK/status/1859667244688736419

[2]https://x.com/adonis_singh/status/1859682100569571399

[3]https://x.com/OriolVinyalsML/status/1859730969600852222

[4]https://x.com/rowancheung/status/1859301345993556277

Bài viết này đến từ trang WeChat chính thức "Lượng tử", tác giả: Quan tâm đến công nghệ tiên tiến, được 36Kr ủy quyền đăng tải.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan