Mô hình suy luận miễn phí OpenAI đầu tiên o3-mini được phát hành

Bài viết này được dịch máy
Xem bản gốc
Sau đây là bản dịch tiếng Việt:

DeepSeek thực sự đã đưa ra một thách thức lớn cho các mô hình lớn —

Vừa rồi, OpenAI đã khẩn cấp phát hành mô hình suy luận mới nhất, dòng sản phẩm o3-mini.

Bao gồm ba phiên bản: low, và high.

Trong đó, o3-mini và o3-mini-high đã ra mắt:

Theo thông tin chính thức, mục tiêu của dòng sản phẩm o3 là thúc đẩy ranh giới của suy luận giá rẻ.

Từ hôm nay, người dùng , đội ngũ và Pro có thể truy cập vào o3-mini của OpenAI, và truy cập dành cho doanh nghiệp sẽ được mở ra sau một tuần.

Người dùng miễn phí cũng có thể sử dụng o3-mini thông qua tính năng "Tìm kiếm + Lý luận" để trải nghiệm.

Có lẽ bị DeepSeek ép buộc, đây là lần đầu tiên OpenAI miễn phí cung cấp mô hình suy luận cho người dùng.

Thậm chí trong hoạt động "Hỏi và Đáp" sau đó trên Reddit, CEO Elon Musk cũng hiếm khi công khai phản tỉnh:

Về vấn đề mô hình AI có trọng số mã nguồn mở, (cá nhân tôi) cho rằng chúng tôi đã đứng về phía sai lầm của lịch sử.

Đồng thời, chỉ trong vài giờ, người dùng đã bắt đầu kiểm tra o3-mini một cách cuồng nhiệt...

Được tối ưu hóa cho suy luận STEM, nhưng giá vẫn cao hơn nhiều so với DeepSeek-R1

Hãy cùng xem kỹ hơn những gì được ghi trong báo cáo kỹ thuật.

Vào cuối năm ngoái, OpenAI đã ra mắt phiên bản xem trước của o3-mini, một lần nữa làm mới giới hạn năng lực của các mô hình nhỏ. (Tương đương với o1-mini về chi phí và độ trễ thấp)

Lúc đó, CEO Elon Musk đã dự báo rằng phiên bản chính thức sẽ được phát hành vào tháng 1 năm nay. Và đúng vào thời điểm cuối hạn chót, phiên bản chính thức o3-mini cuối cùng cũng đã ra mắt.

Nhìn chung, giống như thế hệ trước là o1-mini, nó cũng được tối ưu hóa cho STEM (Khoa học, Công nghệ, Kỹ thuật, Toán học), tiếp tục phong cách nhỏ nhưng đẹp của dòng mini.

Riêng o3-mini (), không chỉ có hiệu suất mã hóa toán học tương đương với dòng o1, mà còn phản hồi nhanh hơn.

Đánh giá của các chuyên gia cho thấy, trong hầu hết các trường hợp, o3-mini tạo ra câu trả lời chính xác và rõ ràng hơn o1-mini, đạt được 56% mức độ ưa thích, đồng thời giảm 39% tỷ lệ lỗi nghiêm trọng khi xử lý các vấn đề thực tế phức tạp.

Về năng lực toán học, o3-mini () ở cường độ suy luận thấp đạt được mức tương đương với o1-mini; ở cường độ suy luận trung bình, nó có khả năng tương đương với phiên bản đầy đủ của o1; và khi cường độ suy luận được đẩy lên tối đa (high), hiệu suất của nó vượt trội hẳn so với các mô hình trong dòng o1.

Trong bài kiểm tra các bài toán khó FrontierMath do hơn 60 nhà toán học hàng đầu chuẩn bị, o3-mini ở cường độ suy luận cao cũng đã có sự cải thiện đáng kể so với dòng o1.

Thậm chí, nhà chức trách còn đặc biệt lưu ý rằng, nếu sử dụng kết hợp với các công cụ Python, o3-mini (high) đã giải quyết được hơn 32% các vấn đề ngay lần thử đầu tiên, trong đó bao gồm hơn 28% các vấn đề cấp độ T3.

Về năng lực khoa học, ở các vấn đề cấp độ tiến sĩ về hóa học và sinh học, o3-mini ở cường độ suy luận thấp đã vượt trội hẳn so với o1-mini.

Tất nhiên, về khả năng lập trình - một kỹ năng quan trọng, o3-mini cũng dẫn đầu ở tất cả các cấp độ so với dòng o1.

Dựa trên hiệu suất của chúng trên LiveBench, có thể thấy khi cường độ suy luận tăng lên, lợi thế của o3-mini vẫn tiếp tục mở rộng.

Cần lưu ý rằng, trong khi đạt được những ưu thế trên, o3-mini phản hồi nhanh hơn, với thời gian phản hồi trung bình là 7,7 giây, nhanh hơn 24% so với 10,16 giây của o1-mini.

Cuối cùng, về đánh giá an toàn, o3-mini đã vượt trội rõ ràng so với GPT-4o trong nhiều đánh giá an toàn.

Về giá cả, so với mức giá đầu vào/đầu ra lần lượt là 0,14/0,55 USD của DeepSeek-R1, o3-mini vẫn quá đắt.

Theo đánh giá của người dùng, DeepSeek-R1 vẫn là vua về giá trị, với hiệu suất nhanh hơn, tốt hơn và rẻ hơn.

BTW, lần này OpenAI cũng đã công bố đội ngũ đứng sau o3-mini. Có thể thấy, lần này do chính Elon Musk trực tiếp dẫn dắt, với các quản lý dự án là Carpus Chang và Kristen Ying (danh sách cũng có nhiều người quen như Ren Hongyu, Zhao Shengjia, v.v.).

Người dùng đang kiểm tra cuồng nhiệt

Như chúng ta vừa đề cập, hiện tại người dùng đã bắt đầu kiểm tra o3-mini một cách cuồng nhiệt.

Tuy nhiên, dựa trên các đánh giá, phản ứng của mọi người về hiệu suất của o3-mini là trái ngược.

Ví dụ, trong việc thực hiện "quả bóng di chuyển trong không gian bốn chiều" bằng Python, có người cho rằng o3-mini là LLM tốt nhất:

Kết quả như sau:

Sau đó, một người dùng khác thử sử dụng DeepSeek để thực hiện cùng nhiệm vụ, và nhận thấy o3-mini nhỉnh hơn một chút:

So sánh trực tiếp hơn, khi yêu cầu một quả bóng nhảy trong một lục giác xoay, chịu ảnh hưởng của trọng lực và ma sát, thì sự khác biệt giữa o3-mini và DeepSeek R1 trở nên rõ ràng hơn:

Bao gồm một số nhiệm vụ phức tạp hơn, như tạo 100 quả bóng vàng nhảy trong một quả cầu, o3-mini cũng có thể làm được:

Hoặc yêu cầu o3-mini thiết kế một trò chơi cạnh tranh giữa hai con rắn ăn mồi:

Ngoài DeepSeek, người dùng cũng so sánh hiệu suất của o1 và o3-mini, ví dụ như tạo ra một thành phố nổi khổng lồ, kỳ vĩ.

Một người dùng khác đã đưa ra một câu hỏi gây nhầm lẫn khiến hầu hết các mô hình lớn đều mắc lỗi, nhưng đáng ngạc nhiên là o3-mini lại trả lời đúng:

Tuy nhiên, nhà phát thanh nổi tiếng Lex Fridman lại đánh giá o3-mini như sau:

OpenAI o3-mini là một mô hình tốt, nhưng DeepSeek R1 có hiệu suất tương tự, giá rẻ hơn và tiết lộ quá trình suy luận của nó.

Sẽ có những mô hình tốt hơn xuất hiện (rất mong đợi o3-pro), nhưng "Thời điểm DeepSeek" là thực tế. Tôi tin rằng nó sẽ được ghi nhớ sau 5 năm, như một điểm nổi bật trong lịch sử công nghệ.

Một điều nữa

Chỉ vài giờ sau khi o3-mini ra mắt, Elon Musk cùng với đội ngũ cũng tham gia vào hoạt động "Hỏi và Đáp" trên Reddit.

Xét đến việc DeepSeek gây xáo trộn gần đây trong giới AI, Elon Musk đã hiếm khi công khai phản tỉnh:

Về vấn đề mô hình AI có trọng số mã nguồn mở, (cá nhân tôi) cho rằng chúng tôi đã đứng về phía sai lầm của lịch sử.

Thậm chí ông cũng thừa nhận rằng, lợi thế dẫn đầu của OpenAI sẽ không còn lớn như trước nữa.

DeepSeek thực sự rất tuyệt vời, chúng tôi sẽ tiếp tục phát triển các mô hình tốt hơn, nhưng lợi thế dẫn đầu sẽ nhỏ hơn.

Đồng thời, một số kế hoạch tương lai của OpenAI cũng được tiết lộ.

Ví dụ, chế độ giọng nói cao cấp sắp được cập nhật, OpenAI sẽ gọi trực tiếp là GPT-5, chứ không phải GPT-5o, mặc dù chưa có lịch trình cụ thể.

Ngoài ra, các mô hình suy

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
2
Thêm vào Yêu thích
1
Bình luận