Phiên bản AI của ba thợ đóng giày ChatGPT/ Gemini/DeepSeek kết hợp để đạt điểm cao nhất trong bài kiểm tra AGI

avatar
36kr
07-09
Bài viết này được dịch máy
Xem bản gốc

Khả năng đàm thoại trôi chảy của ChatGPT, khả năng đa phương thức của Gemini, khả năng phân tích ngữ cảnh dài của DeepSeek...

Liệu họ có thể hợp tác để cùng nhau giải quyết vấn đề không?

Sakana AI , một công ty AI hàng đầu được thành lập bởi Llion Jones, một trong những tác giả của Transformer, đã đề xuất một phương pháp mới AB-MCTS . Ý tưởng cốt lõi là:

Những thành tựu lớn nhất thường đến từ sự hợp tác của nhiều trí tuệ khác nhau và chúng tôi tin rằng nguyên tắc này cũng áp dụng cho trí tuệ nhân tạo.

AB-MCTS, hay Adaptive Branching Monte Carlo Tree Search, là một thuật toán cho phép nhiều mô hình AI xử lý một vấn đề cùng lúc , trao đổi và hoàn thiện các đề xuất và làm việc cùng nhau, giống như một đội ngũ người.

Trong tiêu chuẩn ARC-AGI-2 đầy thách thức, Multi-LLM AB-MCTS giải quyết được nhiều vấn đề hơn bất kỳ mô hình đơn lẻ nào hoạt động riêng lẻ (Single-LLM AB-MCTS).

Có một số trường hợp mà chỉ có sự kết hợp của nhiều mô hình khác nhau mới có thể đưa đến câu trả lời đúng.

Sakana AI đã mã nguồn mở thuật toán này dưới tên TreeQuest , liên kết có thể được xem ở cuối bài viết.

Hai chiến lược tìm kiếm

AB-MCTS kết hợp hai chiến lược tìm kiếm khác nhau: có thể hoàn thiện các giải pháp hiện có (tìm kiếm độ sâu) hoặc thử phương pháp hoàn toàn mới (tìm kiếm rộng).

Thách thức kỹ thuật chính là đưa các nhánh không giới hạn vào MCTS .

MCTS chuẩn chỉ chọn và mở rộng nút lá (tức là mỗi nút được mở rộng tối đa một lần), và mở rộng sẽ thêm một số lượng cố định nút con . Tuy nhiên, vì mỗi truy vấn đến LLM ở nhiệt độ khác không có thể tạo ra kết quả đầu ra khác nhau từ cùng một dấu nhắc, nên về mặt lý thuyết, hệ số phân nhánh là vô hạn.

Để tận dụng tối đa khả năng cải thiện hiệu suất của các nhánh không giới hạn của MCTS, AB-MCTS cho phép nút đã được mở rộng một lần được mở rộng lại và phân nhánh nhiều hơn nữa, đồng thời giới thiệu nút GEN để thể hiện rõ ràng hành động tạo ra một nút con mới.

Trong cây tìm kiếm của AB-MCTS, mỗi nút N được đi kèm với một nút con GEN. Khi nút lớn có nút GEN được chọn, một nút con mới sẽ được tạo ra từ N.

Không giống như MCTS truyền thống, AB-MCTS không cố định chiều rộng như một siêu tham số tĩnh.

Thay vào đó, tại mỗi nút trong cây tìm kiếm, AB-MCTS sẽ tự động quyết định xem có nên khám phá ("mở rộng hơn") bằng cách tạo ra các phản hồi ứng viên mới hay khai thác ("đi sâu hơn") bằng cách cải thiện các phản hồi hiện có, tận dụng các tín hiệu phản hồi bên ngoài.

Về cơ bản, AB-MCTS ước tính tiềm năng nút thông qua phân phối dự đoán sau Bayes và lựa chọn các hành động với phương pháp lấy mẫu Thompson để đảm bảo rằng lần mở rộng đều cân bằng giữa thăm dò và khai thác theo nguyên tắc.

Thiết kế này tự nhiên mở rộng theo lần lấy mẫu, cho phép AB-MCTS khai thác không gian đầu ra đa dạng và lớn của LLM khi cần thiết.

Dựa trên những điều trên, Sakana AI cũng đề xuất hai biến thể: AB-MCTS-M và AB-MCTS-A.

Nói một cách đơn giản:

AB-MCTS-M: Phân cấp hơn. Sử dụng mô hình hiệu ứng hỗn hợp để chia sẻ thông tin thống kê giữa các cây con và cân bằng việc khám phá toàn cục và cục bộ thông qua suy đoán Bayes phân cấp .

AB-MCTS-A: Nhẹ hơn. Nó phân tách rõ ràng các hành động "tạo" và "tối ưu hóa" thông qua nút CONT và triển khai các cập nhật hậu nghiệm hiệu quả dựa trên các tiên nghiệm liên hợp để đơn giản hóa các phép tính.

Độ sắc bén của nó có thể cắt xuyên qua kim loại

Các bài kiểm tra chuẩn trên AB-MCTS cho thấy AB-MCTS luôn đạt kết quả tốt trong nhiều bài kiểm tra chuẩn và LLM khác nhau, đạt thứ hạng trung bình cao nhất và vượt trội so với các tiêu chuẩn cơ sở đã thiết lập.

Thành công liên tục này bắt nguồn từ khả năng độc đáo của AB-MCTS trong việc điều chỉnh chiến lược tìm kiếm một cách linh hoạt để phù hợp với nhu cầu khác nhau của từng vấn đề bằng cách cân bằng chính xác giữa việc thăm dò và khai thác, một khả năng thích ứng thường không có trong phương pháp cơ bản.

LiveCodeBench và CodeContest

Phần bên trái và giữa của hình trên báo cáo mối quan hệ giữa tỷ lệ thành công của GPT-4o trên LiveCodeBench và CodeContest với ngân sách tính toán. Có thể thấy rằng tất cả phương pháp đều cho thấy sự cải thiện hiệu suất khi ngân sách tính toán tăng lên. Trong hai phép đo chuẩn này, thuật toán AB-MCTS nhìn chung vượt trội hơn phương pháp cơ sở.

Trên LiveCodeBench, AB-MCTS bắt đầu vượt qua so với phương pháp ngay cả khi ngân sách nhỏ; trên CodeContest, AB-MCTS vượt trội hơn so với đường cơ sở khi ngân sách từ 32 trở lên.

ARC-AGI

Phía bên phải của hình trên cho thấy hiệu suất của GPT-4o trên chuẩn ARC-AGI đặc biệt khó khăn. Như bạn có thể thấy, việc lấy mẫu lặp lại chứng tỏ là một cơ sở vững chắc trong bối cảnh này, cho thấy việc khám phá sâu rộng là rất quan trọng cho nhiệm vụ này.

Trong khi MCTS tiêu chuẩn chỉ mang lại những cải tiến nhỏ khi ngân sách tăng lên, khung AB-MCTS đạt được hiệu suất tương đương với việc lấy mẫu lặp lại. Điều này cho thấy AB-MCTS có thể khám phá hiệu quả các giải pháp tiềm năng bằng cách mở rộng phạm vi tìm kiếm một cách linh hoạt khi điều kiện thuận lợi .

MLE-Bench

Bảng trên cho thấy hiệu suất của GPT-4o trong ba cuộc thi MLE-Bench. Do MLE-Bench yêu cầu lượng lớn tài nguyên GPU khi huấn luyện và đánh giá các mô hình học máy, đội ngũ nghiên cứu chỉ sử dụng GPT-4o và tập trung vào phương pháp cơ sở và AB-MCTS-M.

Kết quả cho thấy phương pháp cơ sở có hiệu suất tốt nhất khác nhau tùy theo từng cuộc thi, một lần nữa nhấn mạnh rằng nhiệm vụ khác nhau sẽ được hưởng lợi từ các sự đánh đổi thăm dò-khai thác khác nhau.

Ngược lại, AB-MCTS-M luôn thực hiện tốt nhiệm vụ này.

Thành công nhất quán này trong nhiều cuộc thi khác nhau làm nổi bật sức mạnh nội tại của AB-MCTS-M trong việc điều chỉnh hiệu quả chiến lược tìm kiếm của mình để đối phó với các cấu trúc vấn đề khác nhau.

Để phân tích định lượng cách AB-MCTS cân bằng giữa thăm dò và khai thác, đội ngũ nghiên cứu của bài báo cũng đã kiểm tra độ sâu trung bình và chiều rộng trung bình của cây tìm kiếm được tạo ra ở mỗi độ sâu .

Như minh họa trong hình trên, phương pháp AB-MCTS có xu hướng tạo ra các cây rộng hơn so với MCTS tiêu chuẩn. Điều này là do AB-MCTS có thể tự động quyết định khám phá rộng hơn (chọn nút GEN) từ bất kỳ nút hiện có nào, trong khi MCTS tiêu chuẩn thì không thể. Cơ chế này cho phép khám phá linh hoạt hơn ở độ sâu cây khác nhau.

Ngoài tính linh hoạt về độ rộng thăm dò, AB-MCTS còn đạt hiệu suất xuất sắc trên các phép đo điểm chuẩn, trong đó tối ưu hóa tuần tự hoạt động tốt, cho thấy AB-MCTS có thể xác định và khai thác hiệu quả các nhánh tiềm năng bằng cách chọn nút con hiện có để tối ưu hóa. Tính năng thích ứng này cho phép kết hợp các ưu điểm của thăm dò và khai thác, thể hiện hiệu suất mạnh mẽ trong nhiều phép đo điểm chuẩn.

Để nghiên cứu các đặc tính mở rộng của AB-MCTS, các thí nghiệm trên ARC-AGI đã được mở rộng bằng DeepSeek-V3 bằng cách tăng ngân sách tạo lên 512. Như thể hiện trong hình trên, khi ngân sách tăng từ 200 lên 500, hiệu suất của AB-MCTS tiếp tục được cải thiện đáng kể, trong khi tốc độ cải thiện của việc lấy mẫu lặp lại bắt đầu ổn định.

Phương pháp MCTS chuẩn cũng tiếp tục cải thiện sau khi tăng ngân sách, nhưng tỷ lệ thành công của nó thấp hơn đáng kể so với phương pháp AB-MCTS. Khoảng cách hiệu suất này cho thấy AB-MCTS hiệu quả hơn trong việc hướng tìm kiếm đến các nhánh hứa hẹn hơn trên cây tìm kiếm ở quy mô tính toán lớn .

Hình trên minh họa các ví dụ về cây tìm kiếm được tạo ra bởi AB-MCTS-M và MCTS chuẩn. Các hình ảnh trực quan này cho thấy AB-MCTS-M có đặc tính phân nhánh thích ứng mạnh hơn MCTS chuẩn.

Khả năng thích ứng này chứng minh rằng AB-MCTS-M cân bằng linh hoạt giữa việc thăm dò và khai thác trong suốt quá trình tìm kiếm và có khả năng phân bổ ngân sách một cách linh hoạt để khám phá các ứng viên mới đa dạng ("mở rộng phạm vi") và tối ưu hóa các ứng viên triển vọng ("đào sâu hơn").

Kết quả trên cho thấy ngay cả khi xét đến những lợi thế vốn có của việc lấy mẫu lặp lại, AB-MCTS vẫn là một phương pháp đầy hứa hẹn có thể sử dụng hiệu quả ngân sách tạo ra để đạt được kết quả tốt hơn trong nhiều tình huống khác nhau.

Trong bài kiểm tra chuẩn ARC-AGI-2 đầy thách thức, AB-MCTS kết hợp với ChatGPT, Gemini và DeepSeek đã giải được 30% câu đố ARC-AGI-2, trong khi các mô hình độc lập hàng đầu chỉ giải được 23%.

Kết quả cho thấy trong một số trường hợp, chỉ có sự kết hợp của nhiều mô hình khác nhau mới có thể đưa ra câu trả lời đúng.

Những con đường lấy cảm hứng từ thiên nhiên và sáng tạo

Nghiên cứu trên về AB-MCTS không phải tự nhiên mà có. Nó dựa trên công trình năm 2024 của Sakana AI về hợp nhất mô hình tiến hóa, trong đó đội ngũ đã chuyển trọng tâm từ "pha trộn để sáng tạo" sang "pha trộn để sử dụng" AI mạnh mẽ hiện có.

Đây là những gì họ nói:

Tại Sakana AI, chúng tôi cam kết tiên phong trong các loại hệ thống AI mới bằng cách áp dụng các nguyên tắc lấy cảm hứng từ thiên nhiên, chẳng hạn như thuyết tiến hóa và trí tuệ tập thể.

Và họ đã làm như vậy:

Không chỉ là mô hình hợp nhất tiến hóa năm 2024, vào tháng 5 năm nay, Sakana AI còn đồng phát triển Máy Darwin-Gödel (DGM) với các nhà nghiên cứu từ Đại học Columbia - một khuôn khổ AI được thiết kế cho quá trình tự tiến hóa. Nó không được tối ưu hóa cho các mục tiêu cố định, mà lấy cảm hứng từ tiến hóa sinh học và các khám phá khoa học , tạo ra các giải pháp mới thông qua tìm kiếm mở và tự điều chỉnh liên tục.

Cách đây một thời gian, hai nhà vật lý đã sử dụng quá trình tự lắp ráp của các hệ thống sinh học làm tham khảo khám phá bản chất "sáng tạo" của mô hình khuếch tán...

Những khám phá và sáng tạo này đều là biểu hiện của "cảm hứng tự nhiên".

Liên kết tham khảo:

[1]https://the-decoder.com/sakana-ais-new-algorithm-lets-large-language-models-work-together-to-solve-complex-problems/

[2]https://x.com/SakanaAILabs/status/1939854145856708910

Bài viết này trích từ tài khoản công khai WeChat "Quantum Bit" , tác giả: Tập trung vào công nghệ tiên tiến và được 36Kr cho phép xuất bản.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận