OpenAI công bố một mô hình 'Lý luận' thông qua các vấn đề, gọi đó là ' Paradigm mới'

09-13

Bài viết này được dịch máy

Xem bản gốc

OpenAI đã tạo ra bước đột phá lớn cuối cùng trong trí tuệ nhân tạo bằng cách tăng kích thước mô hình của mình lên đến mức chóng mặt, khi giới thiệu GPT-4 vào năm ngoái. Hôm nay, công ty đã công bố một tiến bộ mới báo hiệu sự thay đổi trong cách tiếp cận—một mô hình có thể "lý luận" một cách logic thông qua nhiều vấn đề khó khăn và thông minh hơn đáng kể so với AI hiện tại mà không cần mở rộng quy mô lớn.

Mô hình mới, được gọi là OpenAI-o1, có thể giải quyết các vấn đề mà các mô hình AI hiện có đang gặp khó khăn, bao gồm mô hình mạnh nhất hiện có của OpenAI, GPT-4o . Thay vì đưa ra câu trả lời trong một bước, như một mô hình ngôn ngữ lớn thường làm, nó lý giải vấn đề, suy nghĩ thành tiếng như một người có thể, trước khi đưa ra kết quả đúng.

"Đây là những gì chúng tôi coi là Paradigm mới trong các mô hình này", Mira Murati , giám đốc công nghệ của OpenAI, nói với WIRED. "Nó tốt hơn nhiều trong việc giải quyết các nhiệm vụ lý luận rất phức tạp".

Mô hình mới có tên mã là Strawberry trong OpenAI và công ty cho biết đây không phải là phiên bản kế nhiệm của GPT-4o mà là phiên bản bổ sung cho nó.

Murati cho biết OpenAI hiện đang xây dựng mô hình chính tiếp theo của mình, GPT-5, sẽ lớn hơn đáng kể so với mô hình tiền nhiệm. Nhưng trong khi công ty vẫn tin rằng quy mô sẽ giúp khai thác những khả năng mới từ AI, GPT-5 có khả năng cũng bao gồm công nghệ lý luận được giới thiệu ngày hôm nay. Murati cho biết: "Có hai mô hình". " Paradigm mở rộng quy mô và Paradigm mới này. Chúng tôi hy vọng rằng chúng tôi sẽ kết hợp chúng lại với nhau".

LLM thường đưa ra câu trả lời từ các mạng nơ-ron khổng lồ được cung cấp lượng lớn dữ liệu đào tạo. Họ có thể thể hiện khả năng ngôn ngữ và logic đáng chú ý, nhưng theo truyền thống lại gặp khó khăn với các vấn đề đơn giản đáng ngạc nhiên như các câu hỏi toán học cơ bản liên quan đến lý luận.

Murati cho biết OpenAI-o1 sử dụng học tăng cường, bao gồm việc cung cấp phản hồi tích cực cho mô hình khi nó trả lời đúng và phản hồi tiêu cực khi nó không trả lời đúng, để cải thiện quá trình lập luận của nó. "Mô hình làm sắc nét tư duy của nó và tinh chỉnh các chiến lược mà nó sử dụng để đưa ra câu trả lời", cô nói. Học tăng cường đã cho phép máy tính chơi trò chơi với kỹ năng siêu phàm và thực hiện các nhiệm vụ hữu ích như thiết kế chip máy tính . Kỹ thuật này cũng là một thành phần quan trọng để biến LLM thành một chatbot hữu ích và cư xử tốt.

Mark Chen, phó chủ tịch nghiên cứu tại OpenAI, đã trình diễn mô hình mới cho WIRED, sử dụng nó để giải quyết một số vấn đề mà mô hình trước đó của công ty, GPT-4o, không giải quyết được. Những vấn đề này bao gồm một câu hỏi hóa học nâng cao và câu đố toán học khó hiểu sau: "Một công chúa sẽ bằng tuổi hoàng tử khi công chúa gấp đôi tuổi hoàng tử khi tuổi của công chúa bằng một nửa tổng số tuổi hiện tại của họ. Tuổi của hoàng tử và công chúa là bao nhiêu?" (Câu trả lời đúng là hoàng tử 30 tuổi và công chúa 40 tuổi).

Chen cho biết: “Mô hình [mới] đang học cách tự suy nghĩ, thay vì cố gắng bắt chước cách con người suy nghĩ” như một LLM thông thường vẫn làm”.

OpenAI cho biết mô hình mới của họ hoạt động tốt hơn đáng kể đối với một số bộ bài toán, bao gồm các bài tập tập trung vào mã hóa, toán học, vật lý, sinh học và hóa học. Trong Kỳ thi Toán học mời của Mỹ (AIME), một bài kiểm tra dành cho học sinh toán, GPT-4o giải được trung bình 12 phần trăm các bài toán trong khi o1 giải đúng 83 phần trăm, theo công ty.

Mô hình mới chậm hơn GPT-4o và OpenAI cho biết nó không phải lúc nào cũng hoạt động tốt hơn - một phần là vì không giống như GPT-4o, nó không thể tìm kiếm trên web và không phải là đa phương thức, nghĩa là nó không thể phân tích hình ảnh hoặc âm thanh.

Cải thiện khả năng lý luận của LLM đã là chủ đề nóng trong giới nghiên cứu trong một thời gian. Thật vậy, các đối thủ cũng đang theo đuổi các hướng nghiên cứu tương tự. Vào tháng 7, Google đã công bố AlphaProof , một dự án kết hợp các mô hình ngôn ngữ với học tăng cường để giải các bài toán khó.

AlphaProof đã có thể học cách lý luận về các bài toán bằng cách xem xét các câu trả lời đúng. Một thách thức chính khi mở rộng loại hình học tập này là không có câu trả lời đúng cho mọi thứ mà một mô hình có thể gặp phải. Chen cho biết OpenAI đã thành công trong việc xây dựng một hệ thống lý luận tổng quát hơn nhiều. "Tôi nghĩ chúng tôi đã đạt được một số đột phá ở đó; Tôi nghĩ đó là một phần lợi thế của chúng tôi", Chen nói. "Nó thực sự khá tốt trong việc lý luận trên tất cả các lĩnh vực".

Noah Goodman , một giáo sư tại Stanford, người đã công bố công trình về việc cải thiện khả năng lý luận của LLM, cho biết chìa khóa để đào tạo tổng quát hơn có thể liên quan đến việc sử dụng "mô hình ngôn ngữ được nhắc nhở cẩn thận và dữ liệu thủ công" để đào tạo. Ông nói thêm rằng việc có thể liên tục đánh đổi tốc độ của kết quả để có độ chính xác cao hơn sẽ là một "tiến bộ tốt đẹp".

Yoon Kim , một trợ lý giáo sư tại MIT, cho biết cách LLM giải quyết các vấn đề hiện vẫn còn khá bí ẩn, và ngay cả khi họ thực hiện lý luận từng bước thì vẫn có thể có những khác biệt chính so với trí thông minh của con người. Điều này có thể rất quan trọng khi công nghệ này được sử dụng rộng rãi hơn. "Đây là những hệ thống có khả năng đưa ra các quyết định ảnh hưởng đến rất nhiều người", ông nói. "Câu hỏi lớn hơn là, chúng ta có cần phải tự tin về cách một mô hình tính toán đưa ra các quyết định không?"

Kỹ thuật do OpenAI giới thiệu ngày hôm nay cũng có thể giúp đảm bảo rằng các mô hình AI hoạt động tốt. Murati cho biết mô hình mới đã chứng minh được khả năng tránh tạo ra kết quả khó chịu hoặc có khả năng gây hại tốt hơn bằng cách lý giải về kết quả của các hành động của nó. Bà nói rằng "Nếu bạn nghĩ về việc dạy trẻ em, chúng sẽ học tốt hơn nhiều để phù hợp với các chuẩn mực, hành vi và giá trị nhất định khi chúng có thể lý giải lý do tại sao chúng làm một việc nào đó".

Chen của OpenAI cho biết phương pháp lý luận mới do công ty phát triển cũng cho thấy rằng việc phát triển AI không nhất thiết phải tốn quá nhiều sức mạnh tính toán. "Một trong những điều thú vị về Paradigm này là chúng tôi tin rằng nó sẽ cho phép chúng tôi cung cấp thông tin tình báo với giá rẻ hơn", ông nói, "và tôi nghĩ đó thực sự là sứ mệnh cốt lõi của công ty chúng tôi".

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan