Đợt thử nghiệm GPT-5.6 đầu tiên đã có mặt, nhắm mục tiêu chính xác vào Mythos.

avatar
36kr
06-10
Bài viết này được dịch máy
Xem bản gốc

Mới đây, Anthropic đã tung ra "át chủ bài" mà họ đã giấu kín suốt hai tháng qua – Claude Fable 5Mythos 5 , điều này chẳng khác nào việc thả một quả bom.

Áp lực hiện đang dồn trực tiếp lên OpenAI.

Cùng lúc đó, GPT-5.6 cũng bị rò rỉ.

Bắt đầu từ tuần trước, OpenAI đã thử nghiệm hai điểm kiểm tra mới có tên mã nội bộ là keplerkindle . Kindle-alpha được cho là đã được chọn làm ứng cử viên phát hành.

Phiên bản thử nghiệm nội bộ của GPT-5.6 đã bắt đầu được các nhà phát triển nước ngoài và cộng đồng rò rỉ thông tin thử nghiệm rộng rãi. Tên mã, phiên bản ứng cử viên, kết quả kiểm tra hiệu năng và trải nghiệm người dùng đều đã được hé lộ.

Dù là cạnh tranh để niêm yết cổ phiếu lần đầu ra công chúng (IPO) hay cùng sở hữu một mẫu xe chủ lực, hai công ty này liên tục "nộp đơn đăng ký và tôi cũng sẽ nộp đơn" và "ra mắt mẫu xe mới và tôi cũng sẽ ra mắt mẫu xe mới".

Họ đã chiến đấu rất quyết liệt.

Nhưng câu hỏi đặt ra là, liệu GPT-5.6 có thực sự đánh bại được Mythos?

GPT-5.6 nổi lên

Tính đến thời điểm hiện tại, OpenAI vẫn chưa đưa ra bất kỳ thông báo chính thức nào về GPT-5.6, và phiên bản này vẫn chưa được phát hành chính thức.

Tuy nhiên, nhiều cư dân mạng nước ngoài đã tiến hành các thử nghiệm thăm dò tại các "điểm kiểm soát nội bộ" chưa được công bố.

Điểm kiểm tra là một ảnh chụp nhanh các tham số của mô hình tại một thời điểm cụ thể trong quá trình huấn luyện.

OpenAI lưu trữ nhiều phiên bản nội bộ, so sánh chúng theo chiều ngang, và sau đó chọn một phiên bản cho rằng"đủ tốt để phát hành". Phiên bản này được gọi là phiên bản ứng cử viên phát hành (RC).

Bắt đầu từ tuần trước, OpenAI đã tiến hành thử nghiệm nội bộ hai điểm kiểm tra mới, có tên mã là kindle và kepler. Trong đó -alpha đã được chọn làm ứng cử viên phát hành.

Dựa trên phản hồi bị rò rỉ từ người dùng, nâng cấp được nhắc đến nhiều nhất lần GPT-5.6 là việc tạo giao diện người dùng (UI) mới .

Theo Pankaj Kumar, khả năng tạo giao diện người dùng của Kindle Alpha đã được cải thiện đáng kể, và nó có thể trực tiếp tạo ra giao diện mạnh mẽ hơn mà không cần đến các lời nhắc phức tạp hoặc kỹ thuật bổ sung .

Ngoài ra, khả năng xử lý hình ảnh của nó cũng rất mạnh, hoạt động tốt trong nhiệm vụ hiểu và tham chiếu hình ảnh, đồng thời cho thấy sự cải thiện đáng kể trong khả năng suy luận, lập trình và tạo giao diện người dùng nói chung.

Đây là bài kiểm tra do người dùng Chris thực hiện trên Kindle, sử dụng thiết lập mức độ trung bình:

Đây là kết quả thử nghiệm trước đó của một người dùng khác trên phiên bản Joule không có chức năng trừ lãi:

Rõ ràng là cái trước tinh tế hơn nhiều.

Tuy nhiên, người dùng Leo đã sử dụng cùng một câu lệnh để kiểm tra cả phiên bản Kepler và Kindle ở chế độ xhigh.

Tôi phát hiện ra rằng Kindle thực sự đã thụt lùi so với hệ điều hành Kepler.

Ừm... thật khó để đánh giá hiệu quả.

Ông thậm chí còn dự đoán rằng OpenAI có thể sẽ tiếp tục hoàn thiện thiết kế của mình và cuối cùng có thể sẽ từ bỏ phiên bản Kindle .

Tin tức mới nhất là Kindle đã bị xóa khỏi Arena, và một mẫu mới có tên Levi đã xuất hiện.

Một số cư dân mạng suy đoán rằng Levi có thể là tên mã của một phiên bản nội bộ của GPT-5.6, và so sánh khả năng giao diện người dùng của nó với GPT-5.5:

Rõ ràng là phần đầu xe của Levi's khá ấn tượng, với phong cách gọn gàng, đơn giản và tinh tế, cùng sự chú trọng tuyệt vời đến từng chi tiết.

Tuy nhiên, một số cư dân mạng sau khi điều tra đã phát hiện ra rằng Levi có thể đến từ Meta, chứ không phải GPT-5.6.

Vậy, liệu GPT-5.6 có thực sự đánh bại được Mythos?

Người dùng mark_k tuyên bố rằng GPT-5.6 "vượt trội hơn Mythos trên nhiều tiêu chuẩn đánh giá mã hóa tác nhân".

Tuy nhiên, bằng chứng thuyết phục hơn hiện nay đến từ bài kiểm tra do người dùng Leo thực hiện, như đã trình bày trước đó. Anh ấy cho rằng tình hình với GPT-5.6 không mấy khả quan:

So với Kepler, Kindle là một bước thụt lùi. Ở dạng hiện tại, nó sẽ dễ dàng bị Mythos đánh bại .

Vào tháng Sáu, bộ ba phim "Fast and Furious" sẽ được trưng bày.

Tháng Sáu mang đến sự khởi đầu của mùa hè, và thế giới của những bộ mô hình cỡ lớn đang trở nên sôi động hơn.

Ngày ra mắt các mô hình từ ba công ty AI hàng đầu nước ngoài đều trùng nhau: Fable 5, Gemini 3.5 Pro và GPT-5.6, tạo nên một "cuộc đua với thời gian".

Hơn nữa, chúng đều nhắm đến cùng một nhóm khả năng—suy luận, tác nhân thông minh, lập trình và tạo giao diện người dùng.

Điều thú vị là, mặc dù cả ba công ty đều đặt nút vào tháng Sáu, nhưng cho đến nay chỉ có Công ty A thực sự đã nộp bài báo của mình .

Gemini 3.5 Pro đã được ra mắt tại Google I/O vào ngày 19 tháng 5, nổi bật với khả năng xử lý 2 triệu token và công nghệ suy luận Deep Think.

Tuy nhiên, sản phẩm này vẫn chưa được ra mắt, và ngày phát hành chính thức dự kiến ​​là vào tháng Sáu.

Có tin đồn rằng GPT-5.6 sẽ được phát hành vào cuối tháng này .

Điều này càng làm tăng thêm áp lực cho tình hình của OpenAI: các đối thủ cạnh tranh của họ đã công bố điểm số, trong khi nội bộ họ có thể vẫn đang loay hoay lựa chọn phiên bản RC nào để gửi đi.

Nhưng bên cạnh điểm số chuẩn, giá cả cũng là một yếu tố quan trọng.

Fable 5 và Mythos 5 có giá 10 đô la cho mỗi triệu token đầu vào và 50 đô la cho mỗi triệu token đầu ra.

Nó có kích thước gấp đôi so với Opus hiện có.

Nếu GPT-5.6 có thể sánh ngang hoặc thậm chí vượt trội hơn Mythos về khả năng, nhưng lại có giá thành rẻ hơn đáng kể, nó có thể lấy lại được thị phần về mặt ứng dụng thực tế.

Hiện tại, OpenAI vẫn chưa đưa ra bất kỳ thông báo chính thức. Cuộc đối đầu thực sự sẽ phải chờ đến khi GPT-5.6 được phát hành chính thức và bài kiểm tra so sánh hiệu năng giữa Fable và GPT-5.6 được tiến hành.

Kết quả rất có thể sẽ được công bố trong tháng này, vì vậy hãy đón chờ nhé!

Liên kết tham khảo:

[1]https://x.com/mark_k/status/2063922897341567488?s=20

[2]https://x.com/AiBattle_/status/2064078302394917157?s=20

[3]https://x.com/pankajkumar_dev/status/2063272015214354908?s=20

[4]https://x.com/synthwavedd/status/2063245096951160865?s=20

[5]https://x.com/ChrissGPT/status/2063135842906808579?s=20

[6]https://x.com/koltregaskes/status/2062806155139912164?s=20

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Quantum Bit" , tác giả: Tingyu, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận