O3-Mini của OpenAI là mô hình AI tinh gọn hơn có thể theo kịp DeepSeek

02-01

Bài viết này được dịch máy

Xem bản gốc

OpenAI đang tạo ra một phiên bản nhỏ hơn và hiệu quả hơn của mô hình trí tuệ nhân tạo thông minh nhất của họ, và cung cấp miễn phí khi họ tìm cách trả lời sự hype và nhiệt tình xoay quanh một sản phẩm mới mở mã nguồn từ công ty AI Trung Quốc DeepSeek.

WIRED trước đây đã báo cáo rằng OpenAI đang chuẩn bị mô hình mới, được gọi là o3-mini, để phát hành vào ngày 31 tháng 1. Các nhà nghiên cứu của công ty đã làm việc ngoài giờ để chuẩn bị nó cho thời điểm chính thức, theo các nguồn tin nói trên điều kiện ẩn danh.

o3-mini, mà OpenAI đã tiết lộ vào tháng 12, là một phiên bản nhỏ hơn của mô hình có các khả năng lập luận AI tiên tiến nhất trong bất kỳ sản phẩm OpenAI nào đến nay. Mô hình này có thể chia các vấn đề khó thành các bộ phận cấu thành để tìm ra cách tốt nhất để giải quyết chúng.

"Mô hình mạnh mẽ và nhanh chóng này đẩy lùi ranh giới những gì các mô hình nhỏ có thể đạt được," công ty cho biết trong một bài đăng trên blog thông báo về sự sẵn có của o3-mini.

OpenAI đang cung cấp o3-mini cho tất cả người dùng Plus, Team và Pro của ChatGPT. Người dùng phiên bản miễn phí của ChatGPT cũng sẽ có thể thử o3-mini nhưng sẽ không thể gửi nhiều truy vấn như vậy, công ty cho biết.

OpenAI rõ ràng đã sử dụng sinh viên tiến sĩ để giúp đào tạo một mô hình mới trong một thời gian. Vài tuần trước, công ty bắt đầu tuyển dụng sinh viên tiến sĩ khoa học máy tính với mức lương 100 đô la một giờ cho một "hợp tác nghiên cứu" sẽ "liên quan đến việc làm việc trên các mô hình chưa được phát hành", theo một email mà WIRED đã xem.

OpenAI cũng có vẻ đã tuyển dụng sinh viên tiến sĩ có chuyên môn trong các lĩnh vực khác thông qua một công ty có tên là Mercor mà họ thường sử dụng để tìm nhân viên cho việc đào tạo mô hình. Một bài đăng tuyển dụng gần đây từ Mercor trên LinkedIn nêu rõ: "Mục tiêu tổng thể của dự án này mà bạn có thể trở thành một phần là tạo ra các câu hỏi mã hóa khoa học đầy thách thức được thiết kế để kiểm tra khả năng của các mô hình ngôn ngữ lớn trong việc tạo mã để giải quyết các vấn đề nghiên cứu khoa học thực tế."

Bài đăng tuyển dụng còn đưa ra một ví dụ về một vấn đề rất giống với một vấn đề trong một bộ chuẩn đánh giá được gọi là SciCode, được thiết kế để kiểm tra khả năng của một mô hình ngôn ngữ lớn trong việc giải quyết các vấn đề khoa học phức tạp.

Tin tức này đến khi R1 của DeepSeek tiếp tục gây rối cho ngành công nghiệp công nghệ Mỹ. Sự thực tế rằng một mô hình mạnh mẽ như vậy có thể được phát hành miễn phí tạo áp lực lên Google và Anthropic để hạ giá của họ.

OpenAI đặc biệt mong muốn chứng minh rằng họ vẫn đứng đầu trong việc phát triển và thương mại hóa trí tuệ nhân tạo, theo các nguồn tin bên trong công ty.

Mô hình miễn phí của DeepSeek kết hợp các đổi mới đã làm cho nó hiệu quả hơn cả về đào tạo và phục vụ. Công ty có vẻ đã phát triển nó bằng ít tài nguyên hơn nhiều so với OpenAI và các công ty Mỹ khác hiện đang xây dựng các mô hình AI tiên tiến, mặc dù các chi tiết chính xác về chi phí của DeepSeek vẫn chưa được biết. OpenAI cho biết họ tin rằng R1 có thể đã kết hợp đầu ra từ các mô hình của họ vào quá trình đào tạo.

Bạn có phải là nhân viên hiện tại hoặc cũ của OpenAI không? Chúng tôi muốn nghe từ bạn. Sử dụng điện thoại hoặc máy tính không phải của công ty, hãy liên hệ với Will Knight tại will_knight@wired.com hoặc trên Signal qua tên người dùng của anh ấy là wak01.

Mô hình mới nhất của OpenAI có thể không vượt qua R1 về mặt giá cả, nhưng nó cho thấy công ty sẽ làm hiệu quả là một phần trong tiêu điểm của họ trong tương lai. OpenAI cũng cho biết mô hình này đặc biệt mạnh trong toán học, khoa học và lập trình.

Công ty cho biết mô hình mới nhất cũng sẽ bao gồm các tính năng mới, bao gồm khả năng truy cập vào các tìm kiếm trên web, gọi các hàm từ mã của người dùng và chuyển đổi giữa các cấp độ lập luận khác nhau có trao đổi tốc độ để có khả năng giải quyết vấn đề.

Sự trỗi dậy đột ngột của DeepSeek cũng đã đặt ra những câu hỏi về chiến lược của chính phủ Mỹ để kiềm chế sự trỗi dậy của Trung Quốc trong lĩnh vực trí tuệ nhân tạo. Hai chính quyền Mỹ gần đây đã giới thiệu một số lệnh trừng phạt để hạn chế khả năng của Trung Quốc tiếp cận các chip Nvidia tiên tiến nhất thường được sử dụng để xây dựng các mô hình AI tiên tiến. DeepSeek đã mô tả một số loại chip Nvidia trong nghiên cứu của họ, nhưng vẫn chưa rõ chính xác những gì đã được sử dụng.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan