Người đứng đầu nhóm GPT 4o-mini người Trung Quốc đã rời OpenAI: Động lực thực sự thúc đẩy sự tiến bộ của AI không phải là kiến trúc mô hình mà là Internet

avatar
36kr
08-19
Bài viết này được dịch máy
Xem bản gốc

Cựu nhà nghiên cứu OpenAI Kevin Lu gia nhập Thinking Machines Lab do cựu CTO OpenAI Mira Murati sáng lập. Công ty nhận khoảng 2 tỷ đô la đầu tư giai đoạn đầu vào tháng 7/2025, với mức định giá khoảng 12 tỷ đô la. Kevin Lu từng lãnh đạo GPT-4o mini, nghiên cứu lâu dài về học tăng cường, mô hình nhỏ và dữ liệu tổng hợp.

Vừa rồi, OpenAI lại mất đi một nhân vật gốc Hoa.

Cựu nhà nghiên cứu OpenAI Kevin Lu tuyên bố gia nhập startup AI Thinking Machines Lab.

Kevin Lu đã lãnh đạo việc phát hành GPT-4o mini, và tham gia công việc các mô hình o*-mini, o3.

Thinking Machines Lab được sáng lập bởi cựu CTO OpenAI Mira Murati.

Tháng 7/2025, công ty đã hoàn thành khoản đầu tư giai đoạn đầu khoảng 2 tỷ đô la (a16z dẫn đầu), với mức định giá khoảng 12 tỷ đô la.

Sau đó, các thành viên chính của nhóm đã tương tác trên các nền tảng xã hội để chào đón.

Kevin Lu là nhà nghiên cứu về học tăng cường và mô hình nhỏ, tốt nghiệp cử nhân tại Đại học California, Berkeley, trong thời gian làm việc tại OpenAI, ông tập trung vào học tăng cường, Mô hình nhỏ và dữ liệu tổng hợp.

Trước khi gia nhập Thinking Machines, ông đã nghiên cứu về quyết định tuần tự và học sâu tại Hudson River Trading và MetaAI.

Internet mới thực sự thúc đẩy sự tiến bộ của AI

Kinh nghiệm thực tiễn của Kevin Lu về mô hình nhỏ và dữ liệu tổng hợp sẽ giúp Thinking Machines rút ngắn khoảng cách từ nghiên cứu đến giá trị người dùng.

Đặc biệt là bài blog của anh vào tháng 7 đã rất nổi tiếng: Internet mới thực sự thúc đẩy sự tiến bộ của AI.

Giải thích một cách dễ hiểu: Thay vì cứ mãi bận tâm đến kiến trúc, hãy mở rộng, làm phong phú và tiếp cận các nguồn dữ liệu (như Internet) và cách tiêu thụ dữ liệu gần với thực tế hơn, nếu không mô hình sẽ mãi "thấy ít, hiểu ít".

Địa chỉ blog: https://kevinlu.ai/the-only-important-technology-is-the-internet

Dưới đây là một phần trích dịch từ blog:

Mặc dù sự tiến bộ của AI thường được ghi công cho một số bài báo mốc - như transformers, RNNs, diffusion - nhưng điều này đã bỏ qua nút thắt cơ bản nhất của AI: dữ liệu.

Vậy, 「dữ liệu tốt」 thực sự có nghĩa là gì?

Nếu chúng ta thực sự muốn thúc đẩy AI, thay vì nghiên cứu tối ưu hóa học sâu, chúng ta nên nghiên cứu 「Internet」.

Internet mới là công nghệ then chốt giúp các mô hình AI của chúng ta mở rộng quy mô.

(Phần còn lại của bản dịch tương tự như trên, tuân theo các nguyên tắc dịch đã nêu)

Những mô hình khốn khổ! Chúng biết quá ít, vẫn còn quá nhiều điều bị che giấu.

Kể từ GPT-2, toàn cầu bắt đầu chú ý đến OpenAI, và thời gian đã chứng minh ảnh hưởng của nó.

Nếu có Transformer nhưng không có internet?

Dữ liệu thấp. Trong mô hình dữ liệu thấp, Transformer có thể không có giá trị gì: "kiến trúc tiên nghiệm" của nó không bằng CNN hay RNN, do đó hiệu suất sẽ kém hơn.

Sách. Trường hợp ít cực đoan hơn là: nếu không có internet, chúng ta có thể sử dụng sách/giáo trình để tiền huấn luyện. Giáo trình thường được coi là đỉnh cao của trí tuệ con người: các tác giả được đào tạo tốt, từng chữ từng câu được cân nhắc. Điều này thể hiện một niềm tin: "Dữ liệu chất lượng cao hơn dữ liệu số lượng lớn".

Giáo trình và Phi. Loạt Phi ("Giáo trình là tất cả những gì bạn cần") hoạt động tốt trên các mô hình nhỏ, nhưng vẫn phụ thuộc vào GPT-4 được huấn luyện trên internet để lọc và tổng hợp.

Nhìn chung, Phi rất tốt, nhưng chưa chứng minh được khả năng tiệm cận của các mô hình tiền huấn luyện bằng dữ liệu internet; và giáo trình thiếu nhiều kiến thức thế giới thực và đa ngôn ngữ (tuy nhiên, chúng rất mạnh trong điều kiện hạn chế về tỷ lệ băm).

(Phần dịch tiếp theo sẽ tuân theo các quy tắc tương tự)

Hiện tại có một số ý tưởng, nhưng đều có khuyết điểm. Chúng không phải là "nghiên cứu thuần túy" và đều liên quan đến xây dựng sản phẩm xung quanh RL.

Các thuộc tính chúng tôi mong đợi là: đa dạng, khóa học tự nhiên, PMF, tính khả thi về kinh tế.

Nhận xét cuối cùng: có thể hy sinh một số tính đa dạng - tối ưu hóa các chỉ số RL trong sản phẩm của riêng mình (trò chơi, máy bán hàng tự động, giữ chân/lợi nhuận/mức độ tham gia, v.v.).

Điều này có thể hiệu quả, nhưng khó khăn nằm ở chỗ: làm thế nào để nâng cấp nó thành một vũ trụ phần thưởng đa dạng, có thể mở rộng, từ đó kích hoạt sự chuyển đổi mang tính bước ngoặt.

Tóm lại, chúng tôi vẫn còn rất xa việc tìm ra một "đối trọng RL" tinh tế và năng suất như "Internet đối với NTP".

Cuối cùng, Kevin Lu một lần nữa nhấn mạnh rằng trong quá trình đào tạo, mô hình chỉ "nhìn thấy" những thứ trong tập dữ liệu; thế giới bên ngoài bị bỏ qua (trọng số 0).

Hy vọng một ngày nào đó chúng ta sẽ tìm ra cách để giải quyết vấn đề này.

Tài liệu tham khảo:

https://x.com/_kevinlu/status/1942977315031687460

Bài viết này đến từ trang WeChat "Trí tuệ mới", tác giả: Trí tuệ mới, được 36Kr xuất bản với sự cho phép.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận