Mô hình ngôn ngữ đầu tiên của He Kaiming: 105 triệu tham số, tránh được lối mòn cũ của hồi quy tự tương quan GPT.

Bài viết này được dịch máy
Xem bản gốc

He Kaiming cũng đã tham gia vào lĩnh vực mô hình hóa ngôn ngữ.

Tuy nhiên, lần nhóm do ông dẫn đầu đã không sử dụng mô hình tự hồi quy quen thuộc về "dự đoán token tiếp theo" đằng sau ChatGPT.

Thay vào đó, một phương pháp mới khác đã trở nên vô cùng phổ biến trong lĩnh vực xử lý hình ảnh trong vài năm qua và hiện đang được áp dụng ngày càng nhiều cho việc tạo văn bản: Mô hình Ngôn ngữ Khuếch tán (Diffusion Language Model - DLM).

Trong bài báo mới nhất, đội ngũ của Kaiming He đã công bố một mô hình ngôn ngữ khuếch tán liên tục mới: ELF: Embedded Language Flows (Luồng Ngôn ngữ Nhúng ).

Không giống như nhiều mô hình ngôn ngữ vẫn dựa vào sự lan truyền ở cấp độ token, ELF giữ toàn bộ quá trình tạo ngôn ngữ trong không gian nhúng liên tục cho đến bước cuối cùng, khi nó phân tách lại biểu diễn thành token .

Với thiết kế này, ELF đã vượt trội hơn một số mô hình ngôn ngữ khuếch tán chính thống chỉ với 105 triệu tham số, 45 tỷ token huấn luyện và 32 bước lấy mẫu.

Chỉ báo trực quan nhất là nó đã giảm độ phức tạp tạo sinh xuống còn 24 trên OpenWebText.

Dưới đây là phổ cập ngắn gọn về độ phức tạp của quá trình tạo văn bản: về cơ bản, nó liên quan đến việc một mô hình ngôn ngữ mạnh mẽ "kiểm tra" các kết quả được tạo ra để xem văn bản đó giống với ngôn ngữ viết thật của con người đến mức nào.

Giá trị càng thấp thì chất lượng dữ liệu được tạo ra càng cao, và kết quả đầu ra của mô hình càng ít giống AI và càng tự nhiên hơn.

So với các mô hình ngôn ngữ khuếch tán thông thường, ELF đạt được độ phức tạp tạo sinh thấp hơn mặc dù yêu cầu số lượng token huấn luyện và số bước lấy mẫu ít hơn gần 10 lần .

Có thể nói rằng, trong một thời gian dài trước đây, sự phát triển của các mô hình ngôn ngữ khuếch tán hầu như chỉ diễn ra ở phía mô hình ngôn ngữ khuếch tán rời rạc (Discrete DLM) .

ELF đã chứng minh lần rằng phương pháp liên tục không chỉ chạy được mà còn hoạt động tốt.

ELF đã làm chính xác những gì?

Để hiểu ELF, trước tiên bạn phải hiểu mô hình ngôn ngữ khuếch tán thực sự đang làm gì.

Có hai phương pháp kỹ thuật chính để xây dựng mô hình ngôn ngữ khuếch tán. Một là phương pháp rời rạc , được thể hiện bởi MDLM và Duo, thực hiện khuếch tán trực tiếp trong không gian token, xử lý các biến ngẫu nhiên rời rạc ở mỗi bước.

Loại thứ hai bao gồm các phương pháp liên tục như Diffusion-LM, CDCD và DiffuSeq, ánh xạ các token vào các embedding liên tục và khử nhiễu chúng trong không gian liên tục.

Các nghiên cứu trước đây đã chỉ ra rằng các phương pháp riêng biệt như MDLM, LLaDA và Dream 7B chiếm ưu thế. Lý do rất đơn giản: bản thân ngôn ngữ là rời rạc.

Về nhận định tưởng chừng như hiển nhiên này, đội ngũ của Kaiming lại đưa ra đánh giá hoàn toàn trái ngược—

Vấn đề có thể không phải là "ngôn ngữ phải rời rạc", mà là các nhà nghiên cứu trước đây đơn giản là không cho phép theo đuổi một con đường liên tục.

Trong khi phương pháp như Diffusion-LM khử nhiễu không gian nhúng, chúng tính toán entropy chéo ở cấp độ token tại mỗi bước, liên kết các quỹ đạo liên tục với từ vựng.

Sau này, LD4LG và Cosmos đã áp dụng phương pháp khuếch tán tiềm ẩn, giúp quá trình khử nhiễu diễn ra liên tục, nhưng lại yêu cầu huấn luyện một bộ giải mã riêng để giải mã dữ liệu tiềm ẩn trở lại thành các token, điều này tương đương với việc thêm một mô-đun bổ sung.

Dựa trên điều này, ELF giữ lại toàn bộ quá trình khử nhiễu trong không gian nhúng liên tục; mã thông báo chỉ được trả về ở bước cuối cùng t=1.

Cụ thể, trong quá trình huấn luyện, các token rời rạc trong ELF trước tiên được mã hóa thành các embedding liên tục, sau đó nhiễu được thêm vào để tạo thành z_t. Mô hình có nhiệm vụ khôi phục nó thành một embedding sạch (MSE) hoặc trực tiếp dự đoán token (CE).

Trong quá trình suy luận, mô hình bắt đầu từ nhiễu Gaussian z_0 và khử nhiễu liên tục trong không gian cho đến bước cuối cùng, khi nó chuyển sang chế độ giải mã và đưa phần nhúng trở lại vào token.

Lần, ELF đã tách biệt hoàn toàn các vấn đề về "biểu diễn liên tục" và "đầu ra rời rạc", vốn trước đây được cho rằng là cần phải căn chỉnh lặp đi lặp lại:

Quá trình khử nhiễu trung gian được xử lý hoàn toàn bằng không gian liên tục; việc tạo ngôn ngữ cuối cùng được dành cho bước rời rạc hóa cuối cùng.

Không cần phải căn chỉnh chặt chẽ với từ vựng ở mỗi bước và không cần phải huấn luyện thêm bộ giải mã, toàn bộ quy trình tạo ra văn bản thực sự đạt được điều này lần đầu tiên:

Liên tục là liên tục, và rời rạc là rời rạc.

Đây chính là lý do then chốt tại sao ELF có thể vượt trội hơn nhiều mô hình ngôn ngữ khuếch tán với ít bước lấy mẫu và ít token huấn luyện hơn.

ELF không phải là "phát tán trước rồi mới giải mã".

Trong quá trình triển khai cụ thể, ELF cũng giải quyết ba vấn đề:

Làm thế nào để tạo ra một token liên tục? Làm thế nào để loại bỏ nhiễu khỏi token liên tục đó? Và cuối cùng, làm thế nào để chuyển nó trở lại thành một token?

Chuyển đổi token thành một embedding liên tục

Để áp dụng sự khuếch tán liên tục vào ngôn ngữ, bước đầu tiên là chuyển đổi các token rời rạc thành các biểu diễn liên tục.

Trong bài báo, ELF trước tiên phân đoạn nó thành một chuỗi token và sau đó ánh xạ nó vào một không gian nhúng liên tục. Trên thực tế có một số tùy chọn để thực hiện việc ánh xạ này.

Theo mặc định, ELF sử dụng bộ mã hóa T5 được huấn luyện trước để tạo ra các nhúng ngữ cảnh hai chiều . Bài báo cũng thử nghiệm các phương án khác nhau như nhúng được huấn luyện chung và nhúng ngẫu nhiên.

Cần lưu ý rằng bộ mã hóa này chỉ được sử dụng trong giai đoạn huấn luyện và không bổ sung thêm bất kỳ mô-đun nào trong quá trình suy luận.

Thực hiện khớp luồng trong không gian nhúng liền kề

Sau khi thu được biểu diễn liên tục, ELF thực hiện khớp luồng trong không gian nhúng.

Nói một cách đơn giản, Flow Matching định nghĩa một đường dẫn luồng liên tục từ nhiễu đến dữ liệu thực:

Tại thời điểm t=0, đó là nhiễu Gaussian;

Tại thời điểm t=1, phép nhúng đã hoàn tất;

Tất cả các trạng thái trung gian đều là phép nội suy tuyến tính của hai trạng thái kia, đó chính là dòng chảy được chỉnh lưu trong bài báo.

Trong phương pháp khớp dòng chảy truyền thống, mạng nơ-ron thường dự đoán trực tiếp "trường vận tốc" v.

Tuy nhiên, ELF đã không làm như vậy. Thay vào đó, họ đã áp dụng phương pháp do đội ngũ của Kaiming đề xuất sáu tháng trước trong bài báo "Trở lại những điều cơ bản: Hãy để các mô hình tạo sinh khử nhiễu thực hiện việc khử nhiễu"—

Dự đoán trực tiếp phần nhúng sạch x, đó chính là dự đoán x .

Mục tiêu huấn luyện là giảm thiểu sai số bình phương trung bình (MSE) giữa kết quả dự đoán và kết quả thực tế.

Về lý do tại sao sử dụng phương pháp dự đoán x, bài báo đưa ra hai lý do:

Thứ nhất, nó ổn định hơn trong các biểu diễn đa chiều—chẳng hạn như nhúng token 768 chiều hoặc thậm chí nhiều chiều hơn; thứ hai, nó phù hợp một cách tự nhiên với mục tiêu của bước cuối cùng, "dự đoán các token sạch".

Bài báo cũng đề cập cụ thể rằng mặc dù về mặt lý thuyết có thể dự đoán vận tốc v trước rồi chuyển đổi nó thành x, nhưng điều này sẽ gây khó khăn trong việc xác định sự phân chia tỷ trọng giữa quá trình khử nhiễu và giải mã.

Trong các thí nghiệm của mình, họ cũng phát hiện ra rằng khi tỷ trọng được chia sẻ, hiệu suất của thuật toán dự đoán v giảm sút đáng kể.

Từ phép nhúng liên tục trở lại các token rời rạc

Ngôn ngữ được tạo ra cuối cùng sẽ xuất ra các mã thông báo riêng biệt.

Do đó, ELF chỉ cần đưa các embedding liên tục trở lại không gian token ở bước thời gian cuối cùng (t = 1) .

Tuy nhiên, không giống như nhiều phương pháp khuếch tán tiềm ẩn, ELF không huấn luyện thêm bộ giải mã nào trong bước này. Thay vào đó, nó coi bước cuối cùng như một quá trình giải mã từ liên tục sang rời rạc.

Nói cách khác, bộ giải mã và bộ khử nhiễu được đề cập trước đó thực chất là cùng một mạch mạng.

Để tránh bước huấn luyện cuối cùng trở nên quá đơn giản (vì về mặt lý thuyết, khi t→1, đầu vào đã rất gần với một embedding sạch), ELF thêm một bước làm nhiễu ở cấp độ token trong bước cuối cùng để xây dựng đầu vào bị nhiễu.

Tiếp theo, mạng lưới đó sẽ xuất ra một embedding sạch, sau đó được chiếu vào logit token thông qua ma trận giải embedding có thể học được W.

Mục tiêu huấn luyện là sử dụng hàm mất mát entropy chéo cấp token tiêu chuẩn. Toàn bộ mạng chia sẻ cùng một tập hợp tham số và bổ sung thêm một token chế độ nhị phân: chế độ khử nhiễu/chế độ giải mã.

Trong quá trình suy luận, ELF bắt đầu với nhiễu Gaussian và khử nhiễu liên tục trong không gian cho đến bước cuối cùng t = 1, tại thời điểm đó nó chuyển sang chế độ giải mã và xuất ra token cuối cùng thông qua argmax.

Điều đáng chú ý là CFG (classifier-free guidance), một trong những kỹ thuật được sử dụng phổ biến nhất trong tạo ảnh, cũng đã được tích hợp vào ELF.

ELF sử dụng tự điều chỉnh làm tín hiệu điều kiện và áp dụng CFG trong quá trình huấn luyện (mô phỏng lần suy luận với một suy luận thuận, không có chi phí suy luận bổ sung), trực tiếp chuyển giải pháp từ phía hình ảnh.

So sánh thực nghiệm

Trong phần thử nghiệm, ELF về cơ bản đã trả lời một câu hỏi đã tồn tại suốt hai năm qua:

Liệu các mô hình ngôn ngữ khuếch tán liên tục có thực sự chiến thắng? Câu trả lời là: chúng không chỉ chiến thắng mà lần đầu tiên, chúng chiến thắng đồng thời trên ba khía cạnh: chất lượng, tốc độ và chi phí đào tạo.

Như đã đề cập ở phần đầu, trong nhiệm vụ tạo OpenWebText, nếu không sử dụng phương pháp chưng cất, ELF chỉ sử dụng 32 bước lấy mẫu để giảm độ phức tạp của quá trình tạo xuống còn 24.

Trước đây, các mô hình khuếch tán rời rạc thông thường thường cần tới 1024 bước để đạt đến mức độ này.

Điều đáng kinh ngạc hơn nữa là ELF đã đạt được kết quả này chỉ với 45 byte dữ liệu huấn luyện.

Trong khi đó, các đối thủ cạnh tranh cùng cấp độ thường đạt được hơn 500 tỷ lượt lấy mẫu. Nói cách khác, số bước lấy mẫu ít hơn một bậc và lượng dữ liệu huấn luyện cũng ít hơn một bậc, nhưng kết quả lại tốt hơn.

Và ELF cũng thể hiện rất tốt trong nhiệm vụ tạo câu có điều kiện, nơi mà nhiều mô hình khuếch tán thường bị tụt hậu.

Dù là dịch máy WMT14 hay tóm tắt văn bản XSum, ELF luôn thể hiện hiệu quả vượt trội so với các mô hình ngôn ngữ khuếch tán hiện có, thậm chí còn vượt qua nhiều mô hình tự hồi quy cơ bản.

Bài báo kết luận bằng một tuyên bố khá thận trọng: ELF đạt được sự cân bằng tốt giữa chất lượng tạo ra dữ liệu, hiệu quả lấy mẫu và chi phí huấn luyện.

Nói một cách đơn giản: phương pháp "tấn công liên tục" không phải là không thể thành công. Chỉ là trước đây họ chưa duy trì được sự liên tục đó một cách nhất quán.

Lời giới thiệu của tác giả

Cuối cùng, chúng ta hãy cùng giới thiệu tác giả của bài viết này.

Hai tác giả đầu tiên của bài báo này có chung một đóng góp, và thứ tự xuất hiện của họ được quyết định bằng cách tung đồng xu.

Hu Keya là một trong hai tác giả chính của bài báo này. Cô là nghiên cứu sinh năm nhất chương trình Tiến sĩ ngành Kỹ thuật Điện và Khoa học Máy tính (EECS) tại MIT và là một trong những nghiên cứu sinh Tiến sĩ đầu tiên được Kaiming hướng dẫn tại MIT. Hiện tại, cô đang được KaimingJacob Andreas cùng hướng dẫn.

Cô tốt nghiệp chuyên ngành Khoa học Máy tính (ACM) tại Đại học Giao thông Thượng Hải với bằng cử nhân. Lĩnh vực nghiên cứu hiện tại của cô chủ yếu tập trung vào sự giao thoa giữa ngôn ngữ và thị giác, và cô đang nỗ lực xây dựng các tác nhân thông minh với hiệu quả dữ liệu cao hơn và khả năng khái quát hóa mạnh mẽ hơn.

Điều đáng chú ý là trên trang chủ của Kaiming MIT, Hu Keya được xếp hạng đầu tiên trong số các sinh viên đạt điểm cao, điều này cho thấy cô ấy có thể được coi là sinh viên thâm niên nhất trong nhóm.

Tác giả chính thứ hai, Linlu Qiu , cũng là nghiên cứu sinh tiến sĩ tại MIT, dưới sự hướng dẫn của Yoon Kim .

Cô tốt nghiệp Đại học Hồng Kông với bằng cử nhân và Viện Công nghệ Georgia với bằng thạc sĩ. Cô cũng từng làm việc với tư cách là chuyên viên trí tuệ nhân tạo tại Google.

Điều thú vị là đây không phải lần hợp tác lần của cô với Kaiming. Mới đây, cô và đội ngũ của Kaiming đã giành chiến thắng trong cuộc thi CVPR 2026 với bài báo "ARC Is a Vision Problem!", định nghĩa lại vấn đề suy luận ARC như một vấn đề về thị giác.

Một tác giả khác, Hanhong Zhao, là sinh viên đại học tại MIT. Anh từng theo học trường Trung học trực thuộc Đại học Nhân dân Trung Quốc và là người đoạt huy chương vàng tại Olympic Vật lý Quốc tế (IPhO).

Một tác giả khác , Lu Yiyang , có bối cảnh gợi nhớ đến những người tham gia "chương trình dành cho thanh thiếu niên tài năng".

Anh ấy là sinh viên năm hai lớp Yao tại Đại học Thanh Hoa và hiện đang thực tập tại Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) thuộc Viện Công nghệ Massachusetts (MIT) dưới sự hướng dẫn của Kaiming He. Lĩnh vực nghiên cứu chính của anh ấy là thị giác máy tính và các mô hình tạo sinh độ sâu.

Thời còn học trung học, anh ấy là một học sinh tham gia các cuộc thi vật lý. Anh ấy đứng đầu tỉnh Giang Tô và xếp thứ chín toàn quốc, giành huy chương vàng tại Olympic Vật lý Quốc gia dành cho học sinh trung học lần thứ 39 (CPhO) năm 2022.

Trước đó, ông đã đồng tác giả một bài báo với Kaiming có tựa đề "Luồng chuẩn hóa hai chiều: Từ dữ liệu đến nhiễu và ngược lại".

Một tác giả chính khác, Li Tianhong , là nghiên cứu sinh sau tiến sĩ trong nhóm của Kaiming.

Ông nhận bằng cử nhân từ Đại học Thanh Hoa, khoa Yao, và bằng tiến sĩ từ Viện Công nghệ Massachusetts (MIT). Ông là tác giả chính của bài báo "Trở lại những điều cơ bản: Hãy để các mô hình tạo sinh khử nhiễu tự khử nhiễu" được xuất bản cách đây nửa năm.

Ngoài ra, các tác giả khác của bài báo bao gồm Yoon KimJacob Andreas , hai giáo sư tại MIT EECS chuyên về mô hình ngôn ngữ, cũng như chính Kaiming He.

Liên kết tham khảo[1] https://arxiv.org/pdf/2605.10938

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Quantum Bit" , tác giả: henry, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận