Thế hệ tiếp theo của mô hình nhỏ 14B của Microsoft, Phi-4, đã ra đời! Chỉ sử dụng 40% dữ liệu tổng hợp, nó đã vượt qua GPT-4o về hiệu suất toán học, và báo cáo kỹ thuật mới gồm 36 trang đã được công bố.
140 tỷ tham số, 40% dữ liệu tổng hợp, vua SLM của năm đã ra đời!
Gần đây, mô hình nhỏ thế hệ tiếp theo của Microsoft, Phi-4, đã chính thức ra mắt. Trên các tiêu chuẩn GPQA và MATH, hiệu suất toán học của nó đã vượt trội so với GPT-4o và Gemini Pro 1.5.
Hơn nữa, Phi-4 đã vượt qua các mô hình nhỏ khác, và có hiệu suất tương đương với Llama-3.3-70B-Instruct.
Thậm chí, trong các bài toán thi đấu toán học ACM 2024, Phi-4 đạt được 91,8% độ chính xác.
Sebastien Bubeck, người trước đây phụ trách dòng Phi, rất ngạc nhiên khi thấy kết quả này.
Ví dụ dưới đây thể hiện khả năng lập luận toán học của Phi-4, không chỉ nhanh mà còn chính xác.
Đào sâu vào bên trong, Phi-4 kế thừa truyền thống của các thế hệ trước trong dòng Phi, cũng hoàn thành việc đào tạo trên "dữ liệu tổng hợp" ở cấp độ giáo trình.
Tỷ lệ dữ liệu tổng hợp lên đến 40%
Ngoài dữ liệu tổng hợp, nó cũng đã thực hiện ba đột phá công nghệ cốt lõi, bao gồm dữ liệu gốc được lựa chọn cẩn thận và công nghệ sau đào tạo tiên tiến, chẳng hạn như tìm kiếm Token Trọng yếu (Pivotal Tokens Search) trong DPO.
Thành công của Phi-4 đã gián tiếp lật đổ quan điểm về "bức tường dữ liệu" được nhiều nhà lãnh đạo lớn như Ilya và Alexander Wang tuyên bố.
Hiện tại, mô hình mới đang được cung cấp trên Azure AI Foundry của Microsoft, và sẽ ra mắt trên HuggingFace vào tuần tới.
01 Vượt qua GPT-4o về toán học, báo cáo kỹ thuật 36 trang
Khác với hầu hết các mô hình ngôn ngữ, trong đó việc tiền huấn luyện chủ yếu dựa trên các nguồn dữ liệu tự nhiên như nội dung mạng hoặc mã, Phi-4 đã chiến lược hòa nhập dữ liệu tổng hợp trong toàn bộ quá trình đào tạo.
Mặc dù hiệu suất của các mô hình Phi trước đây chủ yếu đến từ việc chưng cất khả năng của các mô hình giáo viên (đặc biệt là GPT-4), nhưng Phi-4 đã vượt trội so với các mô hình giáo viên của nó trong khả năng trả lời câu hỏi về STEM, chứng minh rằng việc tạo dữ liệu và công nghệ sau đào tạo có thể mang lại những cải thiện về năng lực hơn so với việc chưng cất mô hình.
Liên kết bài báo: https://arxiv.org/abs/2412.08905
Phi-4 chủ yếu由三部分核心技术构成:
- Dữ liệu tổng hợp trong tiền huấn luyện và huấn luyện trung gian
- Lọc và sàng lọc dữ liệu hữu cơ chất lượng cao
- Huấn luyện sau
Nhờ những đổi mới này, Phi-4 có hiệu suất tương đương hoặc vượt trội so với các mô hình lớn hơn trong các nhiệm vụ liên quan đến lập luận.
Ví dụ, trong nhiều bài kiểm tra chuẩn liên quan đến lập luận được sử dụng rộng rãi, hiệu suất của nó đạt hoặc vượt qua Llama-3.1-405B.
Từ bảng 1, có thể thấy Phi-4 vượt trội so với mô hình giáo viên GPT-4o trong các tiêu chuẩn GPQA (câu hỏi STEM cấp sau đại học) và MATH (thi đấu toán học).
Bảng 1 Hiệu suất của Phi-4 trên các tiêu chuẩn chuẩn
Để kiểm tra xem Phi-4 có bị quá khớp hoặc nhiễm bẩn dữ liệu hay không, các nhà nghiên cứu đã kiểm tra mô hình này trong các cuộc thi toán học AMC-10 và AMC-12 vào tháng 11 năm 2024.
Dữ liệu của hai cuộc thi này chưa từng được thu thập trong quá trình đào tạo, vì vậy hiệu suất thi đấu của nó có thể là một chỉ số hiệu quả để kiểm tra khả năng khái quát hóa của mô hình.
Từ hình dưới đây, có thể thấy rằng mặc dù chỉ có 14B tham số, điểm trung bình của Phi-4 thậm chí còn vượt xa mô hình giáo viên GPT-4o của nó.
Phi-4 vượt trội so với nhiều mô hình lớn hơn, bao gồm cả Gemini Pro 1.5, trong các bài toán thi đấu toán học.
02 Lợi thế của dữ liệu tổng hợp
Dữ liệu tổng hợp chiếm phần lớn dữ liệu đào tạo của Phi-4, được tạo ra thông qua nhiều kỹ thuật, bao gồm gợi ý đa tác nhân (multi-agent prompting), quy trình tự sửa (self-revision workflows) và đảo ngược hướng dẫn (instruction reversal).
Những phương pháp kỹ thuật này có thể xây dựng các tập dữ liệu thúc đẩy mô hình có khả năng lập luận và giải quyết vấn đề mạnh hơn, giải quyết một số điểm yếu trong các tập dữ liệu không có giám sát truyền thống.
Dữ liệu tổng hợp không phải là một sự thay thế rẻ tiền cho dữ liệu hữu cơ, mà nó có một số ưu điểm trực tiếp so với dữ liệu hữu cơ.
Cấu trúc dữ liệu và hỗ trợ học tập tiệm tiến
Trong các tập dữ liệu hữu cơ, mối quan hệ giữa các Token thường phức tạp và gián tiếp. Có thể cần nhiều bước suy luận để liên kết Token hiện tại với Token tiếp theo, điều này khiến mô hình khó học hiệu quả từ mục tiêu dự đoán Token tiếp theo.
Ngược lại, do mỗi Token được dự đoán dựa trên các Token trước đó, cấu trúc hóa Token này cũng có thể giúp việc đào tạo mô hình trở nên hiệu quả hơn.
Căn chỉnh bối cảnh đào tạo và suy luận
Dữ liệu tổng hợp có thể tránh được việc mô hình học được một số đặc tính dữ liệu từ các tập dữ liệu hữu cơ không phù hợp với việc đào tạo sau này.
Ví dụ, các diễn đàn trực tuyến thường có phong cách giao tiếp, thói quen sử dụng ngôn ngữ riêng, trong khi con người tương tác với các mô hình ngôn ngữ lớn lại có một phong cách ngôn ngữ và logic tương tác khác.
Nếu trực tiếp sử dụng dữ liệu từ các diễn đàn trực tuyến để đào tạo, giả sử một số nội dung có phong cách khá đặc trưng, mô hình sẽ cho rằng khả năng xuất hiện nội dung đó trong các cuộc đối thoại sau này là rất thấp. Do đó, khi suy luận trong các cuộc đối thoại sau, mô hình sẽ không thể khớp nội dung đối thoại với nội dung tương ứng trên diễn đàn một cách chính xác.
Trong khi đó, dữ liệu tổng hợp sẽ chuyển đổi nội dung từ các diễn đàn trực tuyến thành phong cách ngôn ngữ phù hợp với bối cảnh tương tác với các mô hình ngôn ngữ lớn, giúp nó dễ dàng khớp hơn trong quá trình suy luận.
Dữ liệu tổng hợp cũng đóng vai trò then chốt trong việc huấn luyện sau của Phi-4, trong đó sử dụng các phương pháp mới như lấy mẫu từ chối và tối ưu hóa ưu tiên trực tiếp (DPO) để tối ưu hóa đầu ra của mô hình.
03 Nguồn gốc của dữ liệu tổng hợp
Dữ liệu tiền huấn luyện và huấn luyện
Để làm điều này, nhóm nghiên cứu đã tạo ra 50 loại tập
Dưới đây là bản dịch tiếng Việt của văn bản, với các từ đã được dịch như yêu cầu:3. Tạo cặp hỏi-đáp từ nhiều nguồn: Sử dụng các mô hình ngôn ngữ để trích xuất cặp hỏi-đáp từ các nguồn hữu cơ như sách, bài báo khoa học và mã nguồn. Phương pháp này không chỉ dựa vào việc nhận dạng các cặp hỏi-đáp rõ ràng trong văn bản. Thay vào đó, nó liên quan đến một pipeline nhằm phát hiện các chuỗi suy luận hoặc quy trình logic trong văn bản. Các mô hình ngôn ngữ nhận dạng các bước then chốt trong quá trình suy luận hoặc giải quyết vấn đề, và sau đó lại diễn đạt chúng thành các câu hỏi và câu trả lời tương ứng. Các thử nghiệm cho thấy, nếu được thực hiện đúng cách, việc huấn luyện trên nội dung được tạo ra (cải thiện về mặt chuẩn nội bộ và học thuật) có thể hiệu quả hơn so với huấn luyện trên nội dung gốc.
Viết lại và tăng cường: Các mẫu giống như hạt giống được chuyển đổi thành dữ liệu tổng hợp thông qua một quy trình làm việc nhiều bước. Điều này bao gồm việc viết lại phần lớn nội dung hữu ích trong đoạn văn cho các bài tập, thảo luận hoặc nhiệm vụ suy luận có cấu trúc.
Tự sửa chữa: Phản hồi ban đầu sẽ được tối ưu hóa lặp đi lặp lại thông qua một vòng phản hồi, trong đó mô hình sẽ tự đánh giá dựa trên các tiêu chí tập trung vào suy luận và tính chính xác của sự kiện, và sau đó cải thiện nội dung đầu ra của chính nó.
Đảo ngược chỉ dẫn để sử dụng cho mã và các nhiệm vụ khác: Để cải thiện khả năng của mô hình trong việc tạo đầu ra từ các chỉ dẫn, nhóm đã sử dụng kỹ thuật đảo ngược chỉ dẫn. Ví dụ, họ chọn các đoạn mã hiện có từ tập dữ liệu mã nguồn và sử dụng chúng để tạo ra các chỉ dẫn tương ứng có chứa mô tả vấn đề hoặc lời nhắc nhiệm vụ. Chỉ những chỉ dẫn có độ tương tự cao giữa mã gốc và mã được tạo lại theo chỉ dẫn mới được giữ lại, để đảm bảo rằng chỉ dẫn khớp với nội dung đầu ra.
Dữ liệu sau huấn luyện
Trong giai đoạn huấn luyện sau, tập dữ liệu chủ yếu bao gồm hai phần:
- Tập dữ liệu Giám sát Vi Tinh (SFT): Sử dụng các lời nhắc của người dùng được lựa chọn cẩn thận từ các tập dữ liệu công khai và dữ liệu tổng hợp, sau đó tạo ra nhiều phản hồi của mô hình và chọn phản hồi tốt nhất thông qua quá trình đánh giá dựa trên LLM.
- Tối ưu hóa Ưu tiên Trực tiếp (DPO): Dựa trên lấy mẫu từ chối và đánh giá LLM để tạo ra các cặp DPO, trong đó một số dựa trên phương pháp tạo các cặp Token.
Các nhà nghiên cứu sử dụng các cặp dữ liệu SFT và DPO được tạo ra để giảm thiểu vấn đề ảo giác của mô hình.
Như kết quả trong Hình 6 cho thấy, phương pháp này đã giảm đáng kể hiện tượng ảo giác trong SimpleQA.
04 Huấn luyện trước
Phi-4 cũng được xây dựng dựa trên kiến trúc Transformer, có 14B Token và độ dài ngữ cảnh mặc định là 4096. Trong quá trình huấn luyện, nó được mở rộng lên 16K ngữ cảnh.
Do mô hình được huấn luyện trước không giỏi trong việc tuân theo chỉ dẫn, nên việc sử dụng đánh giá zero-shot với yêu cầu kết quả phải ở định dạng cụ thể (ví dụ như đánh giá đơn giản) không mang lại nhiều tham khảo.
Do đó, nhóm đã sử dụng các bộ kiểm tra chuẩn nội bộ để đánh giá quá trình huấn luyện trước, sử dụng hỗn hợp của対数khả năng và một số ít ví dụ có sẵn.
Cụ thể, họ sử dụng đánh giá対数khả năng cho MMLU (5-shot), MMLU-pro và ARCC (1-shot), trong khi sử dụng lần lượt 1, 3, 4 và 8 ví dụ có sẵn cho TriviaQA (TQA), MBPP, MATH và GSM8k để giúp mô hình tuân theo định dạng câu trả lời.
Bảng 2 Sự cải thiện của Phi-4 so với Phi-3-Medium trong các bộ kiểm tra chuẩn sau huấn luyện trước
Trong bộ kiểm tra ngữ cảnh dài HELMET, Phi-4 gần như đạt được ưu thế dẫn đầu về các chỉ số như tỷ lệ thu hồi, ngữ cảnh tối đa, v.v.
05 Huấn luyện sau
Như đã nói ở trên, trong quá trình huấn luyện sau, một kỹ thuật quan trọng nhất là Tìm kiếm Token Trọng yếu (PTS), vậy nó là gì?
Tìm kiếm Token Trọng yếu (Pivotal Token Search)
Khi mô hình tạo ra phản hồi cho một lời nhắc từng token, mỗi token tương ứng với một tiền tố của câu trả lời của mô hình.
Đối với mỗi tiền tố như vậy, có thể xem xét hai token trọng yếu: một là xác suất có điều kiện để câu trả lời chính xác dưới tiền tố đó; token kia là gia tăng xác suất do token đó mang lại, tức là sự khác biệt về xác suất chính xác trước và sau khi tạo ra token đó.
Thực tế, khi mô hình AI tạo ra câu trả lời, thường chỉ có vài token trọng yếu quyết định tính chính xác của toàn bộ câu trả lời.
Trong nghiên cứu, nhóm đã quan sát một hiện tượng thú vị là: khi mô hình giải quyết các bài toán toán học, chỉ cần tạo ra token "negative" (âm), nó đã có thể chuyển một lời giải ban đầu có thể thất bại thành thành công.
Tuy nhiên, sau đó, việc tạo ra token "(a" lại có thể khiến tỷ lệ chính xác giảm mạnh.
Bây giờ, khi kết hợp phương pháp này với phương pháp DPO, họ đã tìm ra một số vấn đề đáng chú ý.
Như minh họa trong Hình 3, trong thử nghiệm có nhiều token có xác suất xa dưới 0,31 của token trọng yếu "negative", những token này sẽ tạo ra nhiễu trong quá trình huấn luyện, làm loãng tín hiệu hiệu quả từ các token trọng yếu.
Tệ hơn, những token như "(a" gây ra sự không ổn định trong việc giải quyết bài toán lại nhận được tín hiệu học tập tích cực mạnh mẽ do xác suất thấp (0,12) của chúng.
Ngoài ra, direct intuition cho thấy, khi hai nội dung văn bản có sự khác biệt đáng kể, so sánh xác suất token tiếp theo của chúng (như cách DPO làm) có thể trở nên vô nghĩa.
Tóm lại, tín hiệu có ý nghĩa hơn nên đến từ những token đầu tiên khi văn bản bắt đầu lệch khỏi.
Để giải quyết các vấn đề trước đó, nhóm nghiên cứu của Microsoft đã đề xuất một phương pháp sáng tạo - Tìm kiếm Token Trọng yếu (PTS).
Phương pháp này tập trung vào việc tạo dữ liệu ưu tiên cho từng token trọng yếu, sử dụng DPO để tối ưu hóa hiệu quả chính xác tác động lên các token cụ thể.
Nhiệm vụ cốt lõi của PTS là tìm ra những token trọng yếu trong chuỗi token đầy đủ (T_full = t1, t2, ...).
Cụ thể, nó cần tìm ra những token có thể ảnh hưởng đáng kể đến tỷ lệ thành công, tức là p(success | t1, ..., ti).
PTS sẽ chuyển các token trọng yếu được tìm thấy thành dữ liệu huấn luyện, lấy Q + t1, ..., ti-1 làm cơ sở truy vấn, sau đó chọn các token riêng lẻ có thể tăng/giảm tỷ lệ thành công làm mẫu "chấp nhận" và "từ chối".
Mặc dù thuật toán tìm kiếm nhị phân của PTS không thể đảm bảo tìm ra tất cả các token trọng yếu, nhưng nó có hai đặc điểm quan trọng.
- Những gì được tìm thấy chắc chắn là các token trọng yếu
- Nếu xác suất thành công thay đổi gần như đơn điệu trong quá trình giải quyết, nó có thể tìm ra tất cả các token trọng yếu
Hình 5 dưới đây minh họa một ví dụ về dữ liệu ưu tiên được tạo ra bằng PTS.
Trong ví dụ về trả lời câu hỏi toán học, nghiên cứu đã phát hiện một
Trong các lĩnh vực mà Phi-4 có kết quả chưa được tốt, bao gồm SimpleQA, DROP và IFEval.
Đối với hai lĩnh vực đầu tiên, các nhà nghiên cứu cho rằng các con số được báo cáo trong simple-evals quá đơn giản, không thể phản ánh chính xác hiệu suất của mô hình trên các bài toán chuẩn.
Tuy nhiên, IFEval đã tiết lộ một điểm yếu thực sự của Phi-4 - khó khăn trong việc tuân thủ chặt chẽ các hướng dẫn.
Trong nghiên cứu tiếp theo, các nhà nghiên cứu tin rằng thông qua dữ liệu tổng hợp có mục tiêu, khả năng tuân thủ hướng dẫn của các mô hình Phi sẽ được cải thiện đáng kể.
Tiếp theo, chúng tôi cũng rất mong đợi sự ra mắt của mô hình Phi nhỏ tiếp theo.
Tài liệu tham khảo:
https://x.com/iScienceLuvr/status/1867377384145727635
https://x.com/peteratmsr/status/1867375567739482217
https://x.com/VentureBeat/status/1867376462589739098
Bài viết này được chia sẻ từ trang WeChat của "Tân Trí Tuệ", tác giả: Tân Trí Tuệ, được 36Kr ủy quyền đăng tải.