OpenAI tung ra mẫu o1 mạnh nhất, phá vỡ nút thắt AI và mở ra một kỷ nguyên mới GPT-5 có thể không bao giờ đến

avatar
36kr
09-13
Bài viết này được dịch máy
Xem bản gốc

Không có bất kỳ cảnh báo nào, OpenAI bất ngờ tung ra sê-ri hình OpenAI o1. Theo blog công nghệ chính thức, o1 đại diện cho mức độ trí tuệ nhân tạo mạnh nhất về khả năng suy luận.

Giám đốc điều hành OpenAI Sam Altman cho biết: "OpenAI o1 là sự khởi đầu của một mô hình mới: AI có thể thực hiện các lý luận phức tạp có mục đích chung".

Mô hình mới này thể hiện một cấp độ mới về khả năng AI trong nhiệm vụ suy luận phức tạp. Dựa vào đó, OpenAI đã chọn đổi tên sê-ri này là OpenAI o1 và bắt đầu đếm lại từ đầu.

Tôi không biết điều này có nghĩa là tên GPT-5 sẽ không xuất hiện hay không.

Tóm tắt ngắn gọn các đặc điểm của mô hình mới:

OpenAI o1: hiệu năng mạnh mẽ, phù hợp xử lý nhiệm vụ suy luận phức tạp thuộc nhiều lĩnh vực khác nhau.

OpenAI o1 mini: Tiết kiệm chi phí và phù hợp với các ứng dụng yêu cầu suy luận nhưng không đòi hỏi kiến ​​thức sâu rộng về thế giới.

Giờ đây, mô hình đã được đẩy hoàn toàn và bạn có thể truy cập mô hình đó thông qua ứng dụng khách hoặc API web ChatGPT.

Trong đó, o1-preview vẫn là phiên bản xem trước và OpenAI sẽ tiếp tục cập nhật và phát triển phiên bản tiếp theo. Hiện tại có giới hạn sử dụng nhất định, o1-preview có 30 tin nhắn mỗi tuần và o1-mini có 50 tin nhắn mỗi tuần.

Giống như "Dâu tây" được đồn đại, mô hình mới có khả năng suy luận về nhiệm vụ phức tạp và giải quyết những vấn đề khó khăn hơn bao giờ hết trong khoa học, mã hóa và toán học. Chính thức cho biết những khả năng suy luận nâng cao này sẽ đặc biệt hữu ích nếu bạn cần giải các vấn đề phức tạp trong khoa học, mã hóa, toán học, v.v.

Ví dụ: các nhà nghiên cứu y tế có thể sử dụng nó để chú thích dữ liệu giải trình tự tế bào, các nhà vật lý có thể sử dụng nó để tạo ra các công thức quang học lượng tử phức tạp và các nhà phát triển có thể sử dụng nó để xây dựng và thực hiện quy trình làm việc gồm nhiều bước.

Ngoài ra, sê-ri OpenAI o1 còn vượt trội trong việc tạo và gỡ lỗi mã phức tạp.

Để cung cấp cho các nhà phát triển các giải pháp hiệu quả hơn, OpenAI cũng đã phát hành mô hình suy luận OpenAI o1-mini nhanh hơn và rẻ hơn, đặc biệt tốt về mã hóa.

Là phiên bản nhỏ hơn, o1-mini có giá thấp hơn 80% so với o1-preview và là mô hình mạnh mẽ và hiệu quả phù hợp với các tình huống ứng dụng đòi hỏi khả năng suy luận nhưng không đòi hỏi kiến ​​thức sâu rộng về thế giới.

Trong quá trình đào tạo, OpenAI huấn luyện những mô hình này suy nghĩ sâu sắc trước khi trả lời một câu hỏi. o1 tạo ra một Chuỗi suy nghĩ bên trong trước khi trả lời một câu hỏi, điều này cho phép nó đưa ra lý luận sâu sắc hơn.

Thông qua đào tạo, mô hình OpenAI o1 học cách hoàn thiện cách suy nghĩ của mình và tiếp tục cải thiện với việc học tăng cường nhiều hơn (tính trong thời gian đào tạo) và nhiều thời gian hơn để suy nghĩ (tính trong thời gian kiểm tra).

Nhà nghiên cứu OpenAI @yubai01 cũng chỉ ra lộ trình đào tạo của 01:

Chúng tôi sử dụng RL để huấn luyện mô hình suy luận mạnh mẽ hơn. Thật vui mừng khi được trở thành một phần của cuộc hành trình này và nó sẽ còn đi một chặng đường dài!

Theo báo cáo, trong các thử nghiệm, mô hình này thực hiện giống như một nghiên cứu sinh tiến sĩ trong nhiệm vụ như vật lý, hóa học và sinh học, đặc biệt là trong lĩnh vực toán học và mã hóa.

Trong kỳ thi tư cách Olympic Toán quốc tế (IMO), GPT-4o chỉ giải được 13% số bài, trong khi mô hình suy luận đạt điểm cao tới 83%. Trong cuộc thi lập trình Codeforces, hiệu suất của nó được xếp hạng trong top 89% của nhóm thuần tập.

Tuy nhiên, giống như những tiết lộ được đồn đại, là phiên bản đầu tiên, mô hình này chưa có một số chức năng phổ biến của ChatGPT, chẳng hạn như khả năng đa phương thức như duyệt web và tải tệp hoặc hình ảnh lên.

Ngược lại, GPT-4o có khả năng đáp ứng nhiều tình huống ứng dụng phổ biến hơn.

Để đảm bảo an toàn cho các mô hình mới, OpenAI đề xuất phương pháp đào tạo an toàn mới.

Trong thử nghiệm "bẻ khóa" nghiêm ngặt nhất, GPT-4o đạt 22 điểm (trên 100), trong khi mô hình o1-preview đạt 84 điểm, vượt xa về mặt bảo mật.

Người dùng ChatGPT Enterprise và Edu cũng sẽ có quyền truy cập vào cả hai mô hình bắt đầu từ tuần tới. Các nhà phát triển đủ điều kiện hiện có thể sử dụng cả hai mô hình thông qua API với giới hạn tốc độ mỗi phút.

Để rút ra một điểm quan trọng ở đây, OpenAI tuyên bố rằng họ sẽ cung cấp quyền truy cập vào o1-mini cho tất cả người dùng miễn phí ChatGPT trong tương lai. Tuy nhiên, khả năng cao là số lần sẽ bị hạn chế.

Thông tin chi tiết hơn về mẫu xe mới o1 sẽ được chia sẻ với các bạn ngay sau khi trải nghiệm chi tiết hơn. Nếu bạn có bất kỳ câu hỏi quan tâm nào, vui lòng cho chúng tôi biết trong khu vực tin nhắn.

Khả năng suy luận của tôi vượt xa nhưng tôi vẫn không thể phân biệt được cái nào lớn hơn, 9,11 hay 9,8.

Chính thức còn tung ra thêm nhiều video demo của OpenAI o1.

Ví dụ: sử dụng OpenAI o1 để viết trò chơi web tìm sóc. Mục tiêu của trò chơi này là điều khiển một chú gấu túi tránh số lượng dâu tây ngày càng tăng và tìm ra con sóc xuất hiện sau 3 giây.

Khác với các trò chơi cổ điển truyền thống như Snake, logic của loại trò chơi này tương đối phức tạp và kiểm tra khả năng suy luận logic của OpenAI o1.

Hoặc OpenAI o1 đã bắt đầu giải được một số bài toán vật lý đơn giản thông qua lý luận.

Cuộc biểu tình đưa ra một ví dụ trong đó một quả dâu tây nhỏ được đặt trong một chiếc cốc thông thường, chiếc cốc sụp đổ ngược trên bàn, sau đó chiếc cốc được nhấc lên và hỏi quả dâu tây sẽ ở đâu và yêu cầu giải thích quá trình suy luận. Điều này cho thấy mô hình có thể hiểu được sự thay đổi vị trí của các vật thể ở các trạng thái vật lý khác nhau.

Khi được triển khai trong các ứng dụng cụ thể, OpenAI o1 còn có thể trở thành trợ lý đắc lực của bác sĩ, như giúp bác sĩ sắp xếp và tóm tắt thông tin ca bệnh, thậm chí hỗ trợ chẩn đoán một số bệnh khó và phức tạp.

Mario Krenn, một nhà vật lý lượng tử đam mê kết hợp AI và khoa học, cũng đã đặt câu hỏi cho mô hình o1 của OpenAI về ứng dụng của một toán tử lượng tử cụ thể. Kết quả là OpenAI o1 cũng dễ dàng tìm ra.

Có bao nhiêu chữ "r" trong "Strawberry"? GPT-4o sẽ đưa ra câu trả lời sai nhưng sụp đổ OpenAI o1. Điều này đáng được khen ngợi.

Tuy nhiên, sau khi thử nghiệm thực tế, OpenAI o1 vẫn không giải được bài toán kinh điển “Cái nào lớn hơn, 9,11 hay 9,8?”, dẫn đến bị trừ điểm nghiêm trọng.

Về sự xuất hiện của OpenAI o1, Jim Fan, người đứng đầu bộ phận trí tuệ thể hiện tại NVIDIA, cho biết:

Cuối cùng chúng ta cũng thấy mô hình mở rộng thời gian suy luận đang được khái quát hóa và đưa vào sản xuất. Như Sutton (cha đỡ đầu của học tăng cường) đã nói trong "Bài học cay đắng", chỉ có hai kỹ thuật có thể mở rộng quy mô tính toán mà không có giới hạn: học và tìm kiếm. Đã đến lúc chuyển sự tập trung của chúng ta sang cái sau.

Theo quan điểm của ông, nhiều tham số trong các mô hình lớn được sử dụng để ghi nhớ các sự kiện, điều này thực sự hữu ích cho việc “tăng điểm” trong bài kiểm tra điểm chuẩn của câu hỏi và câu trả lời. Tuy nhiên, nếu khả năng suy luận logic bị tách khỏi kiến ​​thức (bộ nhớ sự kiện), hãy sử dụng một. nhỏ "Lõi suy luận" được sử dụng để gọi các công cụ như trình duyệt và trình xác minh mã, có thể giảm số lượng tính toán trước khi đào tạo.

Jim Fan cũng chỉ ra ưu điểm mạnh mẽ nhất của OpenAI o1, đó là mô hình 01 có thể dễ dàng trở thành một phần của bánh đà dữ liệu.

Nói một cách đơn giản, nếu mô hình đưa ra câu trả lời đúng thì toàn bộ quá trình tìm kiếm có thể được chuyển thành tập dữ liệu huấn luyện chứa các phần thưởng tích cực và tiêu cực. Dữ liệu như vậy có thể được sử dụng để huấn luyện các phiên bản tương lai của mô hình và khi dữ liệu huấn luyện được tạo ra trở nên tinh tế hơn, hiệu suất của mô hình sẽ tiếp tục được cải thiện. Bạn nên nhận ra vòng lặp bên trong của việc rèn luyện bản thân thông qua trò chơi của riêng bạn.

Tuy nhiên, cư dân mạng cũng nhận thấy một số vấn đề trong bài kiểm tra thực tế của họ, chẳng hạn như thời gian phản hồi mất nhiều thời gian hơn. Mặc dù phải mất nhiều thời gian hơn để suy nghĩ về một số câu hỏi, nhưng sẽ có những vấn đề như câu trả lời không đầy đủ và kết quả đầu ra không đầy đủ.

Cyber ​​Zen Heart suy đoán rằng lần o1 có thể là tác nhân của GPT-4o sau một số tinh chỉnh/căn chỉnh và hiệu suất tổng thể thấp hơn nhiều so với dự kiến.

Sam Altman cũng thừa nhận rằng o1 vẫn còn những sai sót, hạn chế, ấn tượng hơn khi bạn sử dụng lần lần và ít ấn tượng hơn sau khi bạn dành nhiều thời gian sử dụng hơn.

Mặc dù vậy, hiệu suất tổng thể của mô hình OpenAI o1 vẫn rất đáng chú ý.

Giờ đây, việc ra mắt mô hình OpenAI o1 có thể coi là ngòi nổ cho cuộc chiến mô hình AI trong nửa cuối năm nay. Nếu không có gì bất ngờ xảy ra, các công ty AI khác sẽ không giấu giếm.

Đúng vậy, tôi đang nhắm mục tiêu đến các đối thủ cũ như Anthropic, Meta AI và xAI, cũng như một số con ngựa đen AI có tiềm năng sâu sắc.

Hơn nữa, từ khi phát hành GPT-4 đến nay, ý nghĩa sâu sắc nhất của việc phát hành các mẫu mới của OpenAI không phải là sức mạnh hiệu suất mà là cung cấp chuẩn mực cho các tuyến đường kỹ thuật và dẫn dắt con người vào những vùng nước sâu chưa biết.

GPT-4 là thế này, và OpenAI o1 cũng mong được như thế này.

Bài viết này xuất phát từ tài khoản công khai WeChat "APPSO" , tác giả: APPSO, 36 Krypton được xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận