Google và OpenAI lại đối đầu.
Chỉ 1 ngày sau khi phiên bản mới nhất của GPT-4o lên đầu bảng xếp hạng, họ đã nhanh chóng phát hành phiên bản thử nghiệm mới nhất Gemini-Exp-1121 để giành lại ngôi vị số 1.
Hãy nhớ rằng, phiên bản trước đó Gemini-Exp-1114 chỉ được phát hành cách đây 1 tuần.
Có vẻ như họ đã chuẩn bị sẵn để đối đầu với OpenAI.
Đây có thể là một chiến lược để lôi kéo OpenAI phát hành phiên bản mới của GPT-4o, sau đó sử dụng mô hình tốt hơn để đánh bại nó.
Các nhà nghiên cứu của Google rõ ràng rất tự hào.
Jack Rae, Giám đốc Khoa học trưởng của Google DeepMind, gọi đây là một "trận chiến chớp nhoáng" thú vị sau khi đào tạo, gợi ý rằng tốc độ lặp sau khi đào tạo nhanh hơn nhiều so với quá trình đào tạo ban đầu.
Oriol Vinyals, Phó Chủ tịch Nghiên cứu của DeepMind, cũng gửi câu hỏi đến OpenAI: "Gần đây có kế hoạch nộp không?"
Có vẻ như họ rất tự tin và đầy khí thế.
Vậy "1121" mạnh đến mức nào? Hãy xem xét các tính năng cụ thể.
Cải thiện mã hóa/suy luận/hiểu biết về thị giác
Theo thông tin chính thức, Gemni-Exp-1121 tập trung cải thiện ba khía cạnh sau:
Đáng kể cải thiện khả năng lập trình
Khả năng suy luận mạnh hơn
Khả năng hiểu biết về thị giác mạnh hơn
Ngoài kiểm soát phong cách, nó đang dẫn đầu trong tất cả các lĩnh vực khác.
Về khả năng thị giác, Gemini-Exp-1121 đã cải thiện so với phiên bản trước.
Trong việc kiểm soát phong cách với các lời nhắc phức tạp, Gemini-Exp-1121 tương đương với o1-preview và New Sonnet 3.5.
Tỷ lệ thắng trong cuộc thi như sau.
Bây giờ bạn cũng có thể trực tiếp trải nghiệm.
Ví dụ, hãy để Gemini-Exp-1121 và GPT-4o-lastest-1120 hiểu cùng một bức tranh truyện tranh.
Gemini-Exp-1121 trả lời toàn diện và chi tiết hơn, sử dụng các tiêu đề phụ và nhấn mạnh các điểm chính.
Phiên bản mới của 4o trả lời ngắn gọn và tổng quát hơn.
Trong bài toán logic về việc đưa sói, cừu và rau diếp qua sông, Gemini-Exp-1121 trả lời hoàn toàn chính xác, trong khi phiên bản mới của 4o có một số sai sót, kết hợp lần đưa qua sông thứ ba và thứ tư.
Câu hỏi: Người nông dân cần đưa sói, cừu và rau diếp qua sông, nhưng chỉ có thể mang một thứ qua mỗi lần, và sói không thể ở một mình với cừu, cừu cũng không thể ở một mình với rau diếp. Người nông dân phải làm thế nào để qua sông?
Một điều nữa
Đáng chú ý là, phía OpenAI cũng có tin mới.
Có người đã phát hiện ra mã nguồn của tính năng "Camera trực tiếp" (Live Camera) trong phiên bản thử nghiệm mới nhất của ChatGPT.
Tính năng này bao gồm quay video trực tiếp, xử lý video trực tiếp, tích hợp chế độ giọng nói và khả năng nhận dạng thị giác.
Khi ra mắt chế độ giọng nói nâng cao, một số người dùng đã trải nghiệm được khả năng này.
Điều này có nghĩa là OpenAI đã sẵn sàng ra mắt tính năng này.
Ở phía bên kia, Google cũng đã trình diễn một demo tương tự, nhưng chưa ra mắt. Với phong cách của OpenAI, rất có thể họ sẽ nhanh chóng triển khai tính năng này trước Google.
Có thể đến năm sau, cách chính chúng ta trao đổi với Chatbot sẽ chuyển từ văn bản sang giọng nói và trợ lý. Live Camera có thể là bước khởi đầu, bạn nghĩ sao?
Tham khảo:
[1]https://x.com/OfficialLoganK/status/1859667244688736419
[2]https://x.com/adonis_singh/status/1859682100569571399
[3]https://x.com/OriolVinyalsML/status/1859730969600852222
[4]https://x.com/rowancheung/status/1859301345993556277
Bài viết này đến từ trang WeChat chính thức "Lượng tử", tác giả: Quan tâm đến công nghệ tiên tiến, được 36Kr ủy quyền đăng tải.