Ultraman: ChatGPT chỉ là một tai nạn, còn AI toàn diện mới là tình yêu đích thực, Karpathy: Tôi đã nghĩ đến điều này cách đây 7 năm

avatar
36kr
08-04
Bài viết này được dịch máy
Xem bản gốc

Lịch sử thường được hình thành bởi vô số "tai nạn và sự trùng hợp ngẫu nhiên".

Vào năm 2022, khi nhà nghiên cứu Hunter Lightman gia nhập OpenAI , các đồng nghiệp của ông đang bận rộn phát triển ChatGPT , một hiện tượng toàn cầu chắc chắn là hiện tượng người dùng tăng trưởng nhanh nhất trong lịch sử.

Tuy nhiên, Lightman đã lặng lẽ gia nhập một đội ngũ có vẻ không mấy nổi bật: MathGen.

Nhiệm vụ của họ là đào tạo các mô hình AI để giải các cuộc thi toán khó ở cấp trung học .

Ngày nay, đội ngũ MathGen từng vô danh này được coi là lý do thực sự khiến OpenAI có thể thống trị ngành công nghiệp này!

Vào ngày 31 tháng 5 năm 2023, OpenAI đã phát hành một bài đăng trên blog nghiên cứu có tiêu đề "Cải thiện tư duy toán học bằng giám sát quy trình", chính thức đề xuất hiệu quả của đào tạo giám sát quy trình.

Hunter Lightman và các nhà nghiên cứu khác liên quan đến nhóm MathGen xuất hiện trong chữ ký của tác giả. Blog này là một trong những bài viết chính thức đầu tiên liên quan đến đội ngũ MathGen.

Cùng ngày, Ultraman đã đăng một tin nhắn chúc mừng trên X - đây là lần đầu tiên OpenAI đích thân xác nhận sự tồn tại chính thức của Nhóm MathGen.

"Khả năng suy luận AI" mà họ rèn luyện chính là cốt lõi của công nghệ tối thượng - AI Agent!

Loại tác nhân thông minh này sẽ tự động hoàn thành mọi nhiệm vụ mà bạn giao cho nó trên máy tính giống như con người!

“Vào thời điểm đó, khả năng suy luận toán học của AI rất kém!” Lightman nhớ lại. “Nhiệm vụ của chúng tôi là dạy nó cách suy nghĩ thực sự .”

Sự tiến hóa từ một "học sinh ngốc nghếch" thành "học sinh đạt huy chương vàng Olympic Toán học"!

Công bằng mà nói, các mô hình OpenAI ngày nay còn lâu mới hoàn hảo—chúng vẫn nói những điều vô nghĩa một cách nghiêm túc, và những tác nhân AI được gọi như vậy thường bất lực trước nhiệm vụ phức tạp.

Tuy nhiên, một sự thay đổi lớn đang diễn ra!

Mô hình hàng đầu của OpenAI đã có sự trở lại đáng kinh ngạc trong lĩnh vực lý luận toán học!

Mới đây, một mô hình của OpenAI đã giành huy chương vàng tại cuộc thi Olympic Toán học quốc tế (IMO) hàng đầu thế giới!

OpenAI tin chắc rằng khả năng suy luận mạnh mẽ này có thể được sao chép trong bất kỳ lĩnh vực nào !

Đây chính là nền tảng cho việc xây dựng một cơ thể thông minh AI tổng quát và cũng chính là ước mơ cuối cùng mà họ ấp ủ kể từ khi thành lập!

Nếu chúng ta nói rằng thành công của ChatGPT là một "kiệt tác tình cờ", thì đó là một phép màu ban đầu được dự định thử nghiệm một cách kín đáo nhưng bất ngờ lại tạo nên một sự bùng nổ trên toàn cầu.

Sau đó, các tác nhân AI chính là kết tinh của quá trình lập kế hoạch chiến lược và cân nhắc cẩn thận trong nhiều năm của OpenAI!

“Trong tương lai, bạn chỉ cần ra lệnh cho máy tính và nó sẽ làm mọi việc cho bạn!”

Giám đốc điều hành của OpenAI, Altman, tuyên bố tại Hội nghị các nhà phát triển năm 2023: "Khả năng này chính là tác nhân AI. Sự lật đổ nó mang lại sẽ là chưa từng có!"

Liệu dự đoán của Altman có thành hiện thực không? Cả thế giới vẫn đang chờ đợi. Nhưng OpenAI đã hành động rồi!

Vào mùa thu năm 2024, mô hình suy luận AI đầu tiên o1 đã ra đời và trở thành một hiện tượng!

Trong vòng chưa đầy một năm, 21 nhà nghiên cứu cốt cán đã tạo ra huyền thoại này đã ngay lập tức trở thành những nhân vật hàng đầu mà Thung lũng Silicon đang tranh giành!

Zuckerberg không tiếc tiền khi đưa ra mức lương cao ngất ngưởng lên tới hơn 100 triệu đô la để chiêu mộ năm thành viên cốt cán của đội ngũ o1 từ OpenAI để thành lập đội quân "siêu trí tuệ" của Meta.

Một trong đó, cựu sinh viên Thanh Hoa Zhao Shengjia, đã được bổ nhiệm trực tiếp làm nhà khoa học trưởng của Phòng thí nghiệm Siêu trí tuệ!

Cuộc chiến giành nhân tài cho "bộ não AI" đã đạt đến đỉnh điểm!

Học tăng cường: Kỹ năng cổ xưa đã thúc đẩy cuộc cách mạng thông minh

Đằng sau cuộc cách mạng suy luận của OpenAI là sự tái sinh của một công nghệ cũ có tên là học tăng cường (RL).

Nó giống như một huấn luyện viên nghiêm khắc, liên tục khen thưởng và trừng phạt những lựa chọn của AI trong hoàn cảnh mô phỏng, qua đó dạy cho AI điều gì là "đúng".

Công nghệ này không phải là mới.

Ngay từ năm 2016, AlphaGo của Google DeepMind đã sử dụng công nghệ này để đánh bại nhà vô địch cờ vây thế giới và trở nên nổi tiếng trên toàn thế giới.

Vào thời điểm đó, Andrej Karpathy, một nhân viên kỳ cựu của OpenAI, đã bắt đầu hình dung cách sử dụng học tăng cường (RL) để tạo ra một tác nhân AI có thể vận hành máy tính một cách thành thạo.

Tuy nhiên, OpenAI phải mất nhiều năm để biến lý tưởng này thành hiện thực.

Vào năm 2018, OpenAI đã ra mắt sê-rimô hình ngôn ngữ lớn mang tính đột phá GPT.

Địa chỉ bài báo: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

Dựa vào dữ liệu khổng lồ và cụm GPU, nó đã trở thành một thiên tài trong xử lý văn bản và cuối cùng đã cho ra đời ChatGPT.

Nhưng điểm yếu của nó cũng nguy hiểm không kém - nó thậm chí không thể xử lý được các phép toán cơ bản .

Cho đến năm 2023, một bước đột phá mang tính đột phá đã diễn ra!

Một dự án có tên mã là "Q*" (sau này gọi là " Strawberry ") tích hợp các mô hình ngôn ngữ lớn, học tăng cường (RL) và một công nghệ có tên là "tính toán thời gian kiểm tra" !

Nó cung cấp cho mô hình thêm thời gian để suy nghĩ, cho phép AI lập kế hoạch, suy diễn và xác minh nhiều lần trước khi đưa ra câu trả lời.

Kết quả là công nghệ Chuỗi Tư duy (CoT)! Hiệu suất của AI được cải thiện đáng kể khi giải quyết các bài toán chưa từng có!

“Tôi đã chứng kiến mô hình thực sự suy luận,” nhà nghiên cứu El Kishky hào hứng nói. “Nó sẽ phát hiện ra lỗi sai và quay lại sửa. Thậm chí nó còn thể hiện sự thất vọng. Cứ như thể đọc được suy nghĩ của người khác vậy!

Những công nghệ này không phải là mới khi xét riêng lẻ.

Nhưng điều kỳ diệu của OpenAI nằm ở việc kết hợp chúng theo một cách chưa từng có, trực tiếp tạo ra quân át chủ bài sau này - o1 .

Vào lúc đó, OpenAI đột nhiên nhận ra: Khả năng lập kế hoạch và kiểm tra thực tế này không phải là động cơ hoàn hảo để thúc đẩy các tác nhân AI sao?

"Chúng tôi đã giải quyết được một vấn đề mà tôi đã trăn trở suốt nhiều năm!" Lightman nói. "Đó là khoảnh khắc hồi hộp nhất trong sự nghiệp khoa học của tôi!"

Lý luận bùng nổ: Một canh bạc từ dưới lên

Với mô hình lý luận AI, tham vọng của OpenAI đã hoàn toàn bùng cháy.

Họ đã phát hiện ra hai con đường tiến hóa hoàn toàn mới:

1. Đầu tư nhiều tỷ lệ băm hơn vào các giai đoạn sau của quá trình đào tạo mô hình!

2. Cho mô hình nhiều thời gian và tỷ lệ băm hơn để suy nghĩ khi trả lời câu hỏi!

Lightman cho biết: "OpenAI là một công ty không chỉ nghĩ đến hiện tại mà còn nghĩ đến cách mở rộng vô hạn lợi thế của mình trong tương lai! "

Sau bước đột phá của dự án "Strawberry" vào năm 2023, OpenAI đã nhanh chóng thành lập một đội đặc nhiệm "điệp viên AI" do nhà nghiên cứu Daniel Selsam chỉ huy.

Họ chỉ có một mục tiêu duy nhất: đưa khả năng mới này lên mức tối đa!

Lúc đầu, thậm chí còn không có sự phân biệt rõ ràng giữa "mô hình lý luận" và "tác nhân AI" trong công ty.

Chỉ có một mục tiêu chung: tạo ra một siêu AI có thể hoàn thành nhiệm vụ phức tạp!

Cuối cùng, công việc của nhóm lực lượng đặc biệt này đã được sáp nhập vào dự án mô hình O1 lớn hơn, do một nhóm các nhà lãnh đạo cấp cao bao gồm cả người đồng sáng lập Ilya Sutskever đứng đầu.

Để xây dựng o1, OpenAI phải đặt cược vào nguồn lực giá trị nhất của mình - nhân tài hàng đầu và GPU.

Tại OpenAI, nguồn lực không bao giờ dựa trên thâm niên mà dựa trên sức mạnh.

Các nhà nghiên cứu phải tạo ra những đột phá đáng kinh ngạc để đổi lấy sự hỗ trợ toàn diện của công ty.

Lightman giải thích: “ Tại OpenAI, mọi đổi mới nghiên cứu đều đến từ tuyến đầu, từ dưới lên ”.

"Khi chúng tôi đưa ra bằng chứng đáng kinh ngạc cho O1, toàn bộ công ty đều đồng ý ngay lập tức: Đúng vậy, hãy dốc toàn lực!"

Nhiều cựu nhân viên cho rằng rằng chính sự theo đuổi gần như ám ảnh của OpenAI về trí tuệ nhân tạo tổng quát (AGI) đã dẫn đến cuộc cách mạng lý luận này.

Họ tập trung vào việc xây dựng bộ não AI mạnh mẽ nhất, không bị ảnh hưởng bởi việc phát triển sản phẩm ngắn hạn. Loại canh bạc này, bất kể chi phí, gần như bất khả thi đối với các ông lớn AI khác.

Nhìn lại bây giờ, quyết định này thực sự vô cùng sáng suốt!

Đến cuối năm 2024, nhiều gã khổng lồ AI đã phát hiện ra rằng mô hình truyền thống "tích lũy dữ liệu, tích lũy tỷ lệ băm" ngày càng mang lại hiệu quả thấp hơn.

Nhịp đập thú vị nhất trong lĩnh vực AI đến từ sự tiến bộ của "lý luận AI"!

AI có thực sự có thể "suy nghĩ"? Sự kết thúc của triết học

Liệu AI có thực sự "lý luận" không? Nó có thực sự "suy nghĩ" không?

Kể từ khi o1 ra đời, giao diện của ChatGPT đã tràn ngập những từ ngữ mang tính nhân hóa như "suy nghĩ" và "lý luận" , như thể báo hiệu sự xuất hiện của một kỷ nguyên mới.

Khi được hỏi về điều này, nhà nghiên cứu Kishky khéo léo trả lời: "Chúng tôi đang dạy mô hình cách sử dụng tỷ lệ băm hiệu quả nhất để tìm ra câu trả lời. Nếu bạn định nghĩa nó từ góc độ khoa học máy tính, thì đúng, đó là lập luận. "

Quan điểm của Lightman thực tế hơn và hướng đến kết quả:

Đừng bận tâm đến những gì nó làm bên trong! Nếu một mô hình có thể giải quyết một bài toán cực kỳ khó, thì nó đã nắm vững các kỹ năng suy luận gần đúng cần thiết để đạt được mục tiêu.”

Ông kết luận: “ Chúng ta có thể gọi đó là lý luận vì nó trông giống vậy, nhưng thực ra nó chỉ là phương tiện để đạt được mục đích. Mục tiêu thực sự của chúng tôi là xây dựng những công cụ AI cực kỳ mạnh mẽ cho toàn thể nhân loại!

Các nhà khoa học của OpenAI thừa nhận rằng mọi người không nhất thiết phải đồng ý với định nghĩa "lý luận" của họ.

Đã có nhiều lời chỉ trích từ lâu, nhưng họ cho rằng rằng việc tranh luận về các thuật ngữ không quan trọng bằng khả năng của chính mô hình.

Nhà nghiên cứu AI Nathan Lambert đưa ra một phép so sánh tuyệt vời: Lý luận của AI giống như một chiếc máy bay.

Máy bay được lấy cảm hứng từ loài chim, nhưng nguyên lý bay của chúng hoàn toàn khác so với loài chim .

Điều này không hề ảnh hưởng đến độ lớn của máy bay, nó vẫn có thể đưa chúng ta lên bầu trời.

Điều tương tự cũng có thể đúng với "suy nghĩ" của AI - nguồn cảm hứng đến từ bộ não con người, nhưng cơ chế lại hoàn toàn khác, nhưng điều này không ngăn cản AI đạt được kết quả tương tự hoặc thậm chí vượt qua con người.

Chiến trường tối thượng: Cho phép các tác nhân AI làm chủ nhiệm vụ chủ quan

Các tác nhân AI trên thị trường hiện nay đã chứng minh được khả năng của chúng trong các lĩnh vực có quy tắc rõ ràng, chẳng hạn như lập trình.

Codex của OpenAI có thể giúp các lập trình viên xử lý các mã đơn giản, và mô hình của Anthropic rất được ưa chuộng trong các công cụ lập trình AI như Cursor, trở thành một trong những tác nhân AI đầu tiên mà người dùng sẵn sàng trả tiền.

Tuy nhiên, thách thức thực sự nằm ở thế giới chủ quan!

Khi bạn muốn AI giúp bạn mua sắm trực tuyến hoặc tìm chỗ đậu xe dài hạn, các tác nhân AI thông thường (như ChatGPT Agent) thường làm bạn thất vọng - chúng phản hồi chậm và mắc một số lỗi ngu ngốc.

Đây là rào cản cuối cùng trước khi các tác nhân AI có thể trở nên phổ biến: làm thế nào chúng ta có thể dạy AI xử lý nhiệm vụ không có câu trả lời chuẩn và đầy tính chủ quan ?

Về cơ bản, đây là một vấn đề dữ liệu ,” Lightman nói thẳng thừng. “Nghiên cứu thú vị nhất của chúng tôi hiện nay là làm thế nào để huấn luyện các mô hình một cách hiệu quả cho nhiệm vụ không thể xác minh. Chúng tôi đã tìm thấy một số manh mối!”

Noam Brown, một nhà nghiên cứu cốt lõi khác tại OpenAI, tiết lộ rằng họ đã làm chủ được công nghệ học tăng cường tổng quát mới có thể dạy các kỹ năng AI không thể đo lường bằng đúng hay sai đơn giản.

Huy chương vàng Olympic Toán học IMO đã được giành được bằng phương pháp này!

Mô hình AI giành huy chương vàng là một hệ thống tiên tiến hơn: nó có thể điều động nhiều tác nhân AI cùng lúc, khám phá các ý tưởng giải quyết vấn đề khác nhau một cách riêng biệt và cuối cùng chọn ra ý tưởng tốt nhất.

Ngày nay, các mô hình mới nhất từ Google và xAI cũng áp dụng chiến lược "trí tuệ bầy đàn" này.

“Khả năng toán học của AI sẽ tiếp tục được cải thiện, cũng như các lĩnh vực tư duy khác,” Brown bày tỏ sự tự tin. “Tốc độ tiến bộ cực kỳ nhanh chóng, và tôi không thấy bất kỳ dấu hiệu nào cho thấy nó sẽ chậm lại!”

Tham vọng của GPT-5: tầm nhìn cuối cùng hướng tới AI toàn cầu

Những tiến bộ công nghệ nhanh chóng này có thể sẽ được chứng minh đầy đủ trong mô hình GPT-5 sắp tới của OpenAI.

OpenAI chỉ có một mục tiêu duy nhất: sử dụng lợi thế tuyệt đối của GPT-5 để bảo vệ vị thế thống trị của mình trong lĩnh vực tác nhân thông minh AI!

Nhưng tham vọng của họ còn hơn thế nữa.

Kishky vẽ nên một bức tranh hoàn hảo: các tác nhân AI trong tương lai sẽ có thể hiểu được ý định của bạn một cách trực quan mà không cần bạn phải trải qua các bước thiết lập phức tạp.

Nó sẽ tự động xác định khi nào cần gọi công cụ nào và cần "suy nghĩ" đến mức nào, giống như một trợ lý siêu việt có khả năng hiểu ngầm.

Đây là hình thức cuối cùng của ChatGPT: một tác nhân AI toàn diện có thể xử lý mọi hoạt động Internet của bạn và hiểu được suy nghĩ của bạn!

Điều này khác xa so với ChatGPT ngày nay, nhưng không còn nghi ngờ gì nữa, nghiên cứu của OpenAI đang tiến triển nhanh chóng hướng tới tương lai này.

Tuy nhiên, đường đua đã đông đúc rồi!

Vị vua tuyệt đối vài năm trước giờ đây bị bao vây bởi những đối thủ mạnh. DeepSeek, Google, Anthropic, xAI, Meta... tất cả đều đang để mắt đến nó.

Câu hỏi không còn là liệu OpenAI có thể hiện thực hóa tương lai của các tác nhân thông minh của mình hay không, mà là—

Liệu nó có thể là người đầu tiên về đích trong trận chiến đẫm máu giữa các anh hùng này không?

Tham khảo:

https://techcrunch.com/2025/08/03/inside-openais-quest-to-make-ai-do-anything-for-you/

Bài viết này được trích từ tài khoản công khai WeChat "Xinzhiyuan" , tác giả: Xinzhiyuan, biên tập viên: Dinghui, Haokun, 36Kr được phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận