Chỉ cách một ngày, OpenAI lại tiếp tục tung ra một đòn lớn:
Một lúc, o3 và o4 mini được ra mắt đồng thời.
Vẫn là mô hình suy luận được ưa thích nhất, và lần này, cuối cùng chúng đã có thể gọi các công cụ trong ChatGPT, bao gồm tìm kiếm trên mạng, Python, phân tích hình ảnh, giải thích tệp và tạo hình ảnh.
Nghĩa là, bây giờ bạn cũng có thể sử dụng o3 để tạo hình ảnh Ultraman theo phong cách Ghibli (doge).
Không chỉ có thể hiểu và tạo hình ảnh, chính thức cho biết, o3 và o4-mini là những mô hình đầu tiên của OpenAI có thể tích hợp hình ảnh được tải lên vào chuỗi suy nghĩ —
Điều này có nghĩa là, chúng có thể suy nghĩ dựa trên hình ảnh, như sau:
OpenAI cho biết, o3 là mô hình suy luận mạnh nhất của họ hiện tại, đã làm mới SOTA trong nhiều thang đo như lập trình, toán học, khoa học, nhận thức hình ảnh, và đặc biệt xuất sắc trong các nhiệm vụ trực quan như phân tích hình ảnh, biểu đồ và đồ thị.
Trong đánh giá của các chuyên gia bên ngoài, o3 có thể giảm 20% lỗi nghiêm trọng so với o1 trong các nhiệm vụ thực tế khó khăn.
Còn o4-mini là một mô hình nhỏ được tối ưu hóa cho việc suy luận nhanh chóng và hiệu quả về chi phí.
Trong đánh giá của chuyên gia, o4-mini vượt trội hơn thế hệ trước o3-mini trong các nhiệm vụ phi STEM và lĩnh vực khoa học dữ liệu.
Trong AIME 2024 và AIME 2025, thậm chí còn có hiệu suất vượt trội hơn o3.
Từ ngay hôm nay, người dùng Plus, Pro và Team của ChatGPT có thể trải nghiệm trực tiếp o3, o4-mini và o4-mini-high, trong khi o1, o3-mini và o3-mini-high đã được hủy niêm yết.
Thử nghiệm o3/o4-mini
Vậy, o3 và o4-mini có hiệu suất mạnh mẽ như vậy trong các bài kiểm tra chuẩn, những thay đổi về trải nghiệm cụ thể là gì?
Nói thì dễ, hãy xem các ví dụ thử nghiệm.
Trong buổi phát trực tiếp chính thức của OpenAI, các nhà nghiên cứu đã trình bày một cách sử dụng như sau:
Yêu cầu o3 đọc một poster học thuật chưa hoàn thiện, giúp ước tính vector đồng vị spin điện tích của proton dựa trên các manh mối nghiên cứu, và tìm kiếm các kết quả nghiên cứu mới nhất liên quan, so sánh sự khác biệt giữa các kết quả mới và giá trị ước tính.
Sau khi suy nghĩ chưa đầy 3 phút, o3 đã hoàn toàn không gặp khó khăn và đưa ra kết quả như sau:
Người dùng mạng cũng đã nhanh chóng thử nghiệm o3 và o4-mini:
△
Một giáo sư y học sau khi trải nghiệm sớm đã nói: Hoàn toàn không thể dừng lại.
Tôi cảm thấy mức độ thông minh của o3 đã đạt đến hoặc gần bằng mức độ thiên tài!
Vị chuyên gia y học này cho biết, khi anh đưa ra một số vấn đề lâm sàng hoặc y học khá thách thức, o3 có thể đưa ra câu trả lời như trực tiếp từ một bác sĩ chuyên khoa hàng đầu.
Chúng tôi cũng đã thử nghiệm đơn giản, chẳng hạn như yêu cầu o3 và o4-mini giải thích biểu tượng cảm xúc "Luo just finished".
o3:
o4-mini:
Bạn chọn câu trả lời nào?
(Phần còn lại của bản dịch tương tự, tuân theo các nguyên tắc dịch đã nêu)Bài viết này được lấy từ tài khoản WeChat "Lượng Tử Vị", tác giả: Theo dõi công nghệ tiên phong, được 36kr ủy quyền phát hành.



