GPT-4o có thể vẽ Ghibli, có thể "tự chụp ảnh", nhưng liệu có thể lắpp Lego tốt không?
Bạn có từng tự hỏi câu hỏi này chưa:
Các mô hình ngôn ngữ đa phương thức có thực sự có khả năng hiểu và suy luận không gian cấu trúc không?
Các mô hình MLLMs hiện tại thực sự hoạt động như thế nào trong các nhiệm vụ sguy gều
Vì vPhòng thí nghiệm Trí tuệ nho phối với họcji và Học Thanh H, đã đưa ra một tiêu chuhuẩn mới homlEG-O-s, sử dụng việc lắp p lphươngện lần đầu tiên đánh giá hệ thống hiệu suất thực tế của các mô hình đa phương thức hiện tại (MLLMs) trong các nhiệm vụ sluý không gian nhiều bước>
Bài kiểm tra mô hình bao gồm GPT-4o, Gemini-2.0-Flash, và các mô hình mã nguồn mở như Emu2, GILL, Anole có khả năng tạo hình ảnh.
Kết quả cho thấy, chỉ Gemini-2.0-Flash đạt mức trung bình trở lên ở cả hai chỉ báo (App: 2.15 / IF: 1.17), duy trì sự cân bằng tốt giữa độ trung thực của cấu trúc và khả năng thực thi lệnh.
Ngược lại, quá trình tạo của GPT-4o giống như việc tái cấu trúc cảnh dựa trên ngữ nghĩa lệnh, chứ không phải là chỉnh sửa từng bước ảnh đầu vào. Chiến lược này khiến nó thể hiện khá tốt trong việc hiểu lệnh, nhưng lại có nhược điểm rõ rệt trong việc phục hồi cấu trúc, các hình ảnh được tạo ra thường lệch khỏi ảnh gốc về chi tiết và cấu trúc tổng thể, dẫn đến điểm appearance của nó thấp hơn đáng kể so với Gemini-2.0-Flash.
Cần lưu ý rằng, phiên bản GPT-4o được sử dụng trong bài đánh giá này là phiên bản trước ngày 6 tháng 3 năm 2025, đội ngũ cũng đang kiểm tra khả năng tạo hình ảnh của phiên bản mới GPT-4o, và sẽ cập nhật kịp thời trong các đánh giá sau.
Việc tạo hình ảnh của Emu2 có độ tương đồng cao với hình ảnh gốc, nhưng hầu như không thể hiện bất kỳ thay đổi thao tác nào, thể hiện hành vi "tái tạo hình ảnh" điển hình, thiếu phản hồi với nhiệm vụ lệnh.
Còn GILL và Anole hầu như hoàn toàn thất bại ở tất cả các nhiệm vụ phụ, kết quả tạo ra không liên quan đến cấu trúc mục tiêu, điểm IF gần như bằng 0, cho thấy chúng không có khả năng hiểu và thực thi không gian hiệu quả.
Trả lời đúng trong một bước, nhưng bị rối ở năm bước? Suy luận nhiều bước khiến mô hình "mất trí"
Để đánh giá sâu hơn khả năng suy luận của các MLLMs trong các nhiệm vụ chuỗi không gian phức tạp, đội ngũ đã giới thiệu một thí nghiệm mở rộng nhằm xây dựng chuỗi nhiều bước: Next-k-Step. Thí nghiệm này được xây dựng dựa trên nhiệm vụ một bước "Next-Step" ban đầu, yêu cầu mô hình nhận dạng trạng thái lắp ghép cuối cùng chính xác sau khi thực hiện liên tục nhiều thao tác lắp ghép, mô phỏng việc suy luận xây dựng không gian nhiều bước trong các tình huống thực tế.
Trong thiết lập thí nghiệm, đội ngũ kiểm soát số bước lắp ghép k tăng từ 1 lên 5, dần tăng độ dài chuỗi suy luận, đặt ra yêu cầu cao hơn về khả năng mô hình hóa tính liên tục và ghi nhớ trạng thái. Đầu vào bao gồm trạng thái LEGO hiện tại, k hình ảnh thành phần tiếp theo, hình ảnh mục tiêu và các tùy chọn ứng cử; mô hình cần phải xác định hình nào là kết quả lắp ghép hợp lý. Đội ngũ còn giới thiệu lời nhắc Chain-of-Thought (CoT) để khám phá liệu "suy nghĩ từng bước" có thể mang lại sự cải thiện về hiệu suất suy luận trong các cảnh quan trọng không.
Kết quả cho thấy, hầu hết các mô hình vẫn còn khả năng suy luận nhất định khi k=1, chẳng hạn như GPT-4o đạt 75% (sử dụng CoT), Gemini-2.0-Flash lên tới 85%.
Nhưng khi k tăng lên, độ chính xác giảm đáng kể, GPT-4o gần như hoàn toàn thất bại ở k=4 và k=5, độ chính xác giảm xuống 0-5%.
Thậm chí khi áp dụng lời nhắc CoT, hầu hết các mô hình vẫn không thể duy trì đường suy luận hiệu quả sau k > 2, cho thấy kỹ thuật CoT thường thấy trong các mô hình ngôn ngữ hầu như không giúp ích gì cho các nhiệm vụ không gian nhiều bước.
Đáng chú ý là Qwen2.5-VL-72B thể hiện sự ổn định tương đối ở các bước khác nhau, độ chính xác luôn duy trì ở mức khoảng 65%, thể hiện một khả năng ghi nhớ cấu trúc nhất định; còn InternVL-2.5-78B thì độ chính xác ở hầu hết các tình huống gần như là ngẫu nhiên.
Loạt thí nghiệm này tiết lộ: các MLLMs chính thống hiện nay đang tồn tại vấn đề "suy giảm suy luận" rõ rệt khi xử lý logic không gian nhiều bước.
Tóm tắt
LEGO-Puzzles là một tiêu chuẩn mới được thiết kế đặc biệt để đánh giá khả năng của các mô hình đa phương thức trong các nhiệm vụ suy luận không gian phức tạp, bao gồm hơn 1100 trường hợp thử nghiệm, bao phủ 11 loại nhiệm vụ phụ từ nhận dạng cấu trúc tĩnh đến việc xây dựng lại theo thời gian nhiều bước. Bộ dữ liệu này đồng thời hỗ trợ VQA và tạo hình ảnh, cung cấp một đường đánh giá đầy đủ với đầu vào đa phương thức và đầu ra đa dạng cho các mô hình.
Đội ngũ đã tiến hành đánh giá hệ thống hơn 20 mô hình đa phương thức chính thống, toàn diện phơi bày những điểm nghẽn về khả năng của chúng trong việc hiểu không gian ba chiều, suy luận không gian nhiều bước, và tạo hình ảnh theo lệnh. Các thí nghiệm còn giới thiệu các cơ chế như Next-k-Step và suy luận CoT, để khám phá sâu hơn về tính ổn định và khả năng khái quát của mô hình khi chuỗi suy luận được mở rộng.
LEGO-Puzzles hiện đã được tích hợp vào VLMEvalKit, hỗ trợ đánh giá một cách nhanh chóng, xác định điểm yếu về khả năng suy luận không gian của mô hình.
Bài báo:
https://arxiv.org/abs/2503.19990
Github:
https://github.com/Tangkexian/LEGO-Puzzles
Trang chủ:
https://tangkexian.github.io/LEGO-Puzzles
Bài viết này đến từ trang WeChat "Lượng Tử Vị", tác giả: Theo dõi công nghệ tiên phong, được 36kr xuất bản với sự cho phép.






