Trí tuệ nhân tạo tổng quát, hay AGI , thường được mô tả là một hệ thống có thể hoạt động trên nhiều lĩnh vực giống như con người. Kết quả được công bố tuần này từ bài kiểm tra chuẩn MATHVISTA cho thấy các mô hình hiện tại vẫn Short đạt được mục tiêu đó.
Các nhà nghiên cứu từ Microsoft Research, Sahara AI và Đại học Emory đã thử nghiệm các khả năng cốt lõi của trí tuệ tổng quát, đó là khả năng suy luận toán học dựa trên thông tin trực quan, bao gồm biểu đồ, đồ thị và sơ đồ.
Trong số 12 mô hình nền tảng được thử nghiệm, bao gồm ChatGPT, Gemini và Claude, GPT-4 Vision đạt điểm cao nhất với 49,9%. Người tham gia đạt trung bình 60,3%, cho thấy khoảng cách giữa các hệ thống AI hiện tại và khả năng suy luận rộng hơn thường được liên kết với Trí tuệ Nhân tạo Tổng quát (AGI).
“Chúng tôi muốn máy móc thực hiện những việc mà một người bình thường có thể làm trong các công việc hàng ngày của họ,” nhà nghiên cứu chính tại Microsoft Research, Hao Cheng, chia sẻ với Decrypt . “Về cơ bản, đó là điều mà mọi người đang theo đuổi đối với Trí tuệ Nhân tạo Tổng quát (AGI).”
Bằng cách thể hiện các vấn đề thông qua hình ảnh, sơ đồ và đồ thị, dự án này kiểm tra xem các mô hình có thể diễn giải chính xác thông tin trực quan và giải quyết các bài toán toán học và logic nhiều bước hay không — những kỹ năng vượt xa khả năng nhận diện mẫu chỉ dựa trên văn bản.
Các mô hình vẫn gặp khó khăn với những nhiệm vụ đó, và việc đo lường hạn chế này rất khó khăn.
Khi nhóm của Cheng xem xét các bộ dữ liệu đánh giá hiện có, nhiều bộ dữ liệu bao gồm các bài toán không yêu cầu suy luận trực quan. Các mô hình thường đưa ra câu trả lời đúng chỉ bằng cách dựa vào văn bản.
“Điều đó không lý tưởng chút nào,” Cheng nói.
MathVista , có sẵn trên GitHub và Hugging Face, ra mắt vào tháng 10 năm 2023. Kể từ đó, nó đã được tải xuống hơn 275.000 lần, bao gồm hơn 13.000 lượt tải xuống trong tháng trước, theo nghiên cứu của Microsoft.
Tuy nhiên, việc tạo ra bộ dữ liệu này đòi hỏi nhiều hơn là chỉ dán nhãn dữ liệu thông thường. Microsoft Research cần những người chú thích dữ liệu có thể giải quyết các vấn đề thuộc lĩnh vực số học, đại số, hình học và thống kê, đồng thời phân biệt được tư duy toán học chuyên sâu, chẳng hạn như diễn giải đồ thị hoặc giải phương trình, với các nhiệm vụ đơn giản hơn như đếm đối tượng hoặc đọc số.
Sau giai đoạn thử nghiệm, Microsoft đã chọn Sahara AI để hỗ trợ nỗ lực này. Công ty đã cung cấp các chuyên gia chú thích được đào tạo bài bản, quy trình làm việc tùy chỉnh và kiểm tra chất lượng nhiều giai đoạn để tạo ra hơn 6.000 ví dụ đa phương thức được sử dụng trong bộ dữ liệu chuẩn.
Theo Sean Ren, Giám đốc điều hành của Sahara AI và phó giáo sư khoa học máy tính tại USC, nếu không có các tiêu chuẩn đánh giá đáng tin cậy, việc đo lường tiến độ hướng tới trí tuệ máy móc toàn diện sẽ trở nên khó khăn.
“Có một sự phức tạp trong việc dữ liệu bị lẫn lộn, đó là khi chúng ta bắt đầu sử dụng tập dữ liệu này để thử nghiệm, những kết quả đó sẽ được tích hợp vào phiên bản tiếp theo,” Ren nói với Decrypt . “Vì vậy, bạn thực sự không biết liệu họ chỉ đang giải quyết một tập dữ liệu hay họ có khả năng làm được điều đó.”
Nếu các đáp án chuẩn xuất hiện trong dữ liệu huấn luyện của mô hình, điểm số cao có thể phản ánh khả năng ghi nhớ hơn là khả năng suy luận. Điều đó khiến việc xác định liệu các hệ thống AI có thực sự được cải thiện hay không trở nên khó khăn hơn.
Các nhà nghiên cứu cũng chỉ ra những hạn chế trong dữ liệu huấn luyện. Phần lớn dữ liệu công khai trên internet đã được sử dụng để xây dựng bộ dữ liệu mô hình.
“Chắc chắn bạn cần có cách nào đó để đưa những kiến thức mới vào quy trình này,” Cheng nói. “Tôi nghĩ rằng điều này phải đến từ dữ liệu chất lượng cao để chúng ta thực sự có thể vượt qua rào cản kiến thức này.”
Một hướng đi được đề xuất liên quan đến môi trường mô phỏng, nơi các mô hình có thể tương tác, học hỏi từ kinh nghiệm và cải thiện thông qua phản hồi.
“Bạn tạo ra một thế giới song sinh hoặc một bản sao của thế giới thực bên trong một môi trường ảo nào đó để mô hình có thể hoạt động và thực hiện nhiều việc mà con người làm trong đời thực, về cơ bản là để nó có thể phá vỡ ranh giới của internet,” Cheng nói.
Ren cho rằng con người vẫn có thể đóng vai trò quan trọng trong việc cải thiện các hệ thống AI. Mặc dù các mô hình có thể tạo ra nội dung nhanh chóng, nhưng con người vẫn giỏi hơn trong việc đánh giá nội dung đó.
Ông nói: “Khoảng cách giữa con người và trí tuệ nhân tạo, giữa những điểm mạnh và điểm yếu của mỗi bên, có thể được tận dụng để thực sự cải thiện trí tuệ nhân tạo trong tương lai”.




