Nếu áp dụng khả năng suy luận sâu của DeepSeek-R1 đã gây chấn động Thung lũng Silicon vào các tình huống đa phương thức, thì sẽ như thế nào?
Trước đây, Janus-Pro-7B của DeepSeek không kết hợp khả năng suy luận, nhưng bây giờ, một nhóm nghiên cứu trong nước đã làm được điều đó -
Dựa trên khung đa phương thức tự phát triển Align-Anything, nhóm nghiên cứu liên kết giữa Đại học Bắc Kinh và Đại học Khoa học và Công nghệ Hong Kong đã giới thiệu phiên bản đa phương thức của DeepSeek-R1:
Align-DS-V, nó vượt qua GPT-4o trong một số đánh giá hiểu biết về thị giác.
Khi hỏi nó về việc giảm cân và loại đồ uống phù hợp, Align-DS-V chính xác chỉ ra số lượng đồ uống trong hình, tên đồ uống, và "sữa đậu nành không đường" là loại phù hợp nhất để giảm cân.
Hơn nữa, nó còn chỉ ra rằng sữa đậu nành nguyên chất trong hình cũng phù hợp để uống trong thời gian giảm cân.
Quan trọng hơn, trong quá trình "cho DeepSeek-R1 đôi mắt", nhóm nghiên cứu còn phát hiện ra sự thâm nhập đa phương thức có tác dụng nâng cao khả năng suy luận dựa trên văn bản của mô hình.
Cụ thể, trong quá trình đa phương thức hóa DeepSeek-R1, nhóm phát hiện ra rằng sau khi được đào tạo đa phương thức, mô hình không chỉ cải thiện hiệu suất trong các nhiệm vụ dựa trên văn bản, mà còn cải thiện hiệu suất trong các lĩnh vực như nhiệm vụ khoa học, suy luận phức tạp, mã toán học, v.v.
Đáng chú ý nhất là, trên ARC-Challenge (5-shot), điểm số đã tăng từ 21,4 ở chế độ đơn phương thức lên 40,5 ở chế độ đa phương thức.
Dựa trên điều này, nhóm cho rằng các mô hình đa phương thức lớn hiện tại đã có khả năng thâm nhập và kết hợp đa phương thức mạnh mẽ, có thể thông qua việc kết hợp kiến thức về thế giới và khả năng học ngữ cảnh, để thực hiện suy luận và đầu ra hiệu quả trên nhiều phương thức (như hình ảnh, văn bản, âm thanh, video, v.v.).
Thông qua việc kết hợp sâu kiến thức về thế giới, ranh giới suy luận của mô hình trong phương thức văn bản đã được mở rộng.
Align-Anything, sự xuất hiện của khả năng thâm nhập đa phương thức
Trong cuộc sống hàng ngày, con người tiếp nhận thông tin thường là đa phương thức, việc mở rộng "suy luận mạnh, suy nghĩ chậm" từ phương thức văn bản đơn lẻ sang nhiều phương thức thậm chí là toàn bộ các phương thức là xu hướng tất yếu.
Trên cơ sở này, việc làm thế nào để làm cho các mô hình đa phương thức lớn được căn chỉnh với ý định của con người cũng là một thách thức có tầm nhìn xa và vô cùng quan trọng.
Trong các tình huống phương thức văn bản đơn lẻ, nhiều nhiệm vụ suy luận phức tạp có thể được thực hiện thông qua tín hiệu giám sát dựa trên các quy tắc thưởng, làm phương tiện cho ý định và sở thích của con người.
Khi mở rộng từ phương thức văn bản sang đa phương thức thậm chí là toàn bộ các phương thức, nhiều vấn đề sẽ nảy sinh:
Khi số lượng phương thức tăng lên, liệu các ưu tiên nhị phân hoặc quy tắc thưởng truyền thống có thể nắm bắt được sự đa dạng của ý định và sở thích phân cấp của con người?
Khi mở rộng đa phương thức sang toàn bộ không gian đa phương thức, sự tương tác giữa các phương thức trở nên phức tạp hơn, phương pháp RL cần phải cải tiến như thế nào?
Trong các phương thức khác nhau, làm thế nào để thống nhất thông tin đặc trưng của từng phương thức và thông tin chung giữa các phương thức trong việc mô hình hóa tín hiệu thưởng?
……
Phân phối không gian đầu vào và đầu ra trở nên rộng hơn, hiện tượng ảo giác gia tăng, tất cả điều này khiến việc căn chỉnh đa phương thức trở nên phức tạp hơn.
Để thúc đẩy nghiên cứu về căn chỉnh đa phương thức, nhóm nghiên cứu đề xuất khung Align-Anything, nhằm mục đích căn chỉnh các mô hình đa phương thức lớn với ý định và giá trị của con người.
Ở đây, đa phương thức bao gồm bất kỳ sự kết hợp nào giữa văn bản, hình ảnh, video và âm thanh.
Nhìn chung, khung thiết kế một khung huấn luyện căn chỉnh có tính mô-đun cao, khả năng mở rộng và dễ sử dụng, hỗ trợ vi chỉnh các mô hình bất kỳ phương thức nào phát sinh từ bốn phương thức cơ bản (văn bản, hình ảnh, video, âm thanh), và xác minh tính đúng đắn của thuật toán căn chỉnh trong khung.
Khung này có các đặc điểm sau:
Tính mô-đun cao: Sự trừu tượng hóa các loại thuật toán và thiết kế API cẩn thận, cho phép người dùng sửa đổi và tùy chỉnh mã cho các nhiệm vụ khác nhau, cũng như các cách sử dụng nâng cao như đăng ký mô hình và tập dữ liệu tùy chỉnh;
Hỗ trợ vi chỉnh các mô hình đa phương thức: Bao gồm khả năng vi chỉnh các mô hình lớn như LLaMA3.2, LLaVA, Chameleon, Qwen2-VL, Qwen2-Audio, Diffusion và các mô hình khác có khả năng tạo ra và hiểu các phương thức khác nhau;
Hỗ trợ các phương pháp căn chỉnh khác nhau: Hỗ trợ nhiều thuật toán căn chỉnh trên bất kỳ phương thức nào, bao gồm cả các thuật toán cổ điển như SFT, DPO, PPO và các thuật toán mới như ORPO, SimPO và KTO;
Hỗ trợ đánh giá căn chỉnh nguồn mở và đóng: Hỗ trợ hơn 30 tiêu chuẩn đánh giá đa phương thức, bao gồm các đánh giá hiểu biết đa phương thức như MMBench, VideoMME, và các đánh giá tạo đa phương thức như FID, HPSv2.
Nói cách khác, nhóm Align-Anything đã đóng góp sức mạnh nguồn mở trong bốn khía cạnh:
Dữ liệu: Tập dữ liệu 200k chứa phản hồi bằng ngôn ngữ tự nhiên và ưu tiên nhị phân, bao gồm tất cả các phương thức như hình ảnh, văn bản, video, giọng nói.
Thuật toán: Phương pháp tạo dữ liệu tổng hợp từ phản hồi bằng ngôn ngữ, đáng kể cải thiện hiệu suất của phương pháp huấn luyện RLHF.
Đánh giá: Đánh giá sự kết hợp và lựa chọn phương thức cho các mô hình đa phương thức.
Kho mã nguồn: Khung mã hỗ trợ huấn luyện và đánh giá trên tất cả các phương thức như hình ảnh, văn bản, video, giọng nói.
Đồng thời, để thúc đẩy phát triển các mô hình căn chỉnh đa phương thức hơn nữa, nhóm nghiên cứu đã phát hành tập dữ liệu ưu tiên con người đầu tiên cho đa phương thức, Align-Anything.
Khác với các tập dữ liệu ưu tiên tập trung vào một phương thức và chất lượng không đồng đều, Align-Anything cung cấp dữ liệu chất lượng cao, bao gồm bất kỳ phương thức nào trong đầu vào và đầu ra.
Điều này nhằm mục đích cung cấp các chú thích ưu tiên của con người chi tiết và phản hồi bằng ngôn ngữ để phê bình và cải thiện, từ đó thực hiện đánh giá và cải thiện toàn diện trên các phương thức.
Align-DS-V: DeepSeek-R1 được tăng cường bởi các tình huống đa phương thức
Tiếp theo, nhóm bắt đầu tìm hiểu về hiệu suất của DeepSeek-R1 khi được tăng cường bởi các tình huống đa phương thức.
Tham khảo phương pháp huấn luyện của LLaVA, thông qua việc huấn luyện lớp chiếu (Projector), nhóm Align-Anything đã ánh xạ đầu ra của bộ mã hóa thị giác (Vision Encoder) vào không gian biểu diễn ngôn ngữ, từ đó mở rộng phương thức thị giác của DeepSeek-R1.
Trong thư viện Align-Anything, nhóm đã mở mã nguồn toàn bộ quy trình huấn luyện.
Đầu tiên, dựa trên các mô hình trong chuỗi DeepSeek-R1, xây dựng kiến trúc "văn bản + hình ảnh -> văn bản". Ví dụ như đo
Sau khi huấn luyện thành công, các nhà nghiên cứu đã đặt tên cho phiên bản đa phương thức của mô hình DeepSeek-R1 là Align-DS-V.
Dưới đây là hiệu suất của Align-DS-V trên các tập đánh giá hiểu biết thị giác khác nhau (so sánh với GPT-4o).
Có thể thấy, Align-DS-V vượt qua GPT-4o trên một số tập đánh giá (như llava-bench-coco).
Ngoài ra, điều quan trọng hơn là đội ngũ cũng phát hiện ra sự thâm nhập đa phương thức có tác dụng nâng cao khả năng suy luận văn bản của mô hình.
Cụ thể, trong quá trình đa phương thức hóa DeepSeek-R1, đội ngũ phát hiện ra rằng sau khi được huấn luyện đa phương thức, mô hình có cải thiện hiệu suất trên các nhiệm vụ văn bản, bao gồm cả các nhiệm vụ khoa học, suy luận phức tạp và mã toán học.
Đáng chú ý nhất là, trên ARC-Challenge (5-shot), điểm số đã tăng từ 21,4 ở chế độ đơn phương thức lên 40,5 ở chế độ đa phương thức.
Từ đó, đội ngũ cho rằng, dựa trên "khả năng tư duy chậm mạnh mẽ", khả năng của mô hình đã vượt qua giới hạn của một phương thức duy nhất, với sự thâm nhập đa phương thức sâu đáng kể.
Thông qua việc kết hợp sâu kiến thức về thế giới, ranh giới suy luận của mô hình trong phương thức văn bản đã được mở rộng.
Để kiểm tra khả năng suy luận đa phương thức của mô hình lớn trên các ứng dụng chuyên ngành, nhóm nghiên cứu và phát triển đã thực hiện việc điều chỉnh cục bộ Align-DS-V để phù hợp với các giá trị của khu vực Hong Kong, khiến Align-DS-V có thể xử lý đầu vào bằng tiếng Quảng Đông/Anh/Quan thoại.
Quá trình này đã sâu sắc tích hợp các tình huống sống hàng ngày của Hong Kong như động thái của Đường sắt Hồng Kông, cảnh báo bão và thanh toán Octopus.
Khi đối mặt với các bài toán toán học kèm theo hình ảnh bằng chữ Hán phức tạp, Align-DS-V có thể chính xác kết nối thông tin đa phương thức.
Như hình minh họa, nó từng bước sử dụng các suy luận toán học chặt chẽ để trình bày quá trình giải quyết, thể hiện triển vọng đáng tin cậy khi được ứng dụng trong các ngành như giáo dục.
Phát triển, mã nguồn mở và bảo trì bởi Đại học Bắc Kinh và Đại học Khoa học và Công nghệ Hồng Kông
Align-Anything và Align-DS-V được phát triển bởi Đại học Bắc Kinh phối hợp với Đại học Khoa học và Công nghệ Hồng Kông.
Hiện tại, khung Align-Anything và phiên bản đa phương thức của DeepSeek-R1 là Align-DS-V đều đã được mã nguồn mở, và nhóm sẽ cùng nhau bảo trì lâu dài (có liên kết trực tiếp ở cuối bài).
Trong nhóm nghiên cứu liên hợp, nhóm Đối Chuẩn của Đại học Bắc Kinh tập trung vào an toàn tương tác và đối chuẩn giá trị của các hệ thống trí tuệ nhân tạo.
Giảng viên hướng dẫn là Tiến sĩ Dương Diệu Đông, Phó Giáo sư tại Viện Nghiên cứu Trí tuệ Nhân tạo, Đại học Bắc Kinh.
Trong nhóm nghiên cứu liên hợp, Trung tâm Nghiên cứu và Phát triển Trí tuệ Nhân tạo Tạo Hình của Hồng Kông (HK Generative AI R&D Center, HKGAI) được thành lập vào tháng 10/2023, cam kết thúc đẩy sự phát triển của hệ sinh thái trí tuệ nhân tạo tại Hồng Kông.
Trung tâm do Viện sĩ Quách Nghĩa Khả, Phó Hiệu trưởng Trưởng Đại học Khoa học và Công nghệ Hồng Kông, làm Giám đốc.
Quantum Insights biết được, dựa trên nền tảng của Align-DS-V, Phòng thí nghiệm Liên kết Bắc Đại - Linh Sơ đã bắt đầu tiến hành nghiên cứu sâu hơn trong lĩnh vực Mô hình Thị giác Ngôn ngữ Hành động (VLA).
Mô hình VLA đang được Linh Sơ phát triển sử dụng mô hình lớn đa phương thức để căn chỉnh và tinh chỉnh trên đầu não, sau đó đưa ra token hành động cho bộ điều khiển tiểu não; bộ điều khiển tiểu não sau đó sẽ dựa trên token đầu vào và thông tin từ các phương thức khác để đưa ra các chỉ thị điều khiển cụ thể cho máy móc.
Cả hai quá trình này đều cần sử dụng các kỹ thuật huấn luyện sau (post-training) và tinh chỉnh (fine-tuning) dành cho mô hình lớn đa phương thức.
Phòng thí nghiệm Liên kết Bắc Đại - Linh Sơ cho biết, khả năng suy luận đa phương thức mạnh mẽ của Align-DS-V là cốt lõi của bộ não của mô hình VLA, và kế hoạch huấn luyện tiếp theo là sử dụng khả năng thâm nhập đa phương thức của mô hình suy luận đa phương thức để thực hiện sự thâm nhập hành động, cuối cùng đạt được mô hình VLA thực sự hiệu quả.
Cùng những kỹ thuật huấn luyện sau này cũng có thể được áp dụng để tinh chỉnh bộ điều khiển tiểu não, đạt được tỷ lệ thành công, khả năng tổng quát hóa và tính bền vững cao hơn.
Địa chỉ mã nguồn mở Align-Anything: https://github.com/PKU-Alignment/align-anything
Địa chỉ mã nguồn mở Align-DS-V: https://huggingface.co/PKU-Alignment/Align-DS-V
Bài viết này đến từ tài khoản WeChat công khai "Quantum Insights", tác giả: Nhóm Align-DS-V đóng góp, 36Kr được ủy quyền đăng tải.






