Tác nhân Stanford 7B vượt qua hẳn GPT-4o, với luồng suy luận đạt đến đỉnh HF.

11-03

Bài viết này được dịch máy

Xem bản gốc

[Giới thiệu] Các hệ thống tác nhân thông minh truyền thống gặp khó khăn trong việc cân bằng giữa tính ổn định và khả năng học tập. Stanford và các nhà nghiên cứu khác đã đề xuất khuôn khổ AgentFlow, liên tục tối ưu hóa các chính sách trong quá trình suy luận thông qua học tăng cường mô-đun và thời gian thực, cho phép các mô hình quy mô nhỏ vượt qua GPT-4o trong nhiều nhiệm vụ , từ đó mở ra những hướng đi mới cho sự phát triển AI.

Sự phát triển của các tác nhân AI hiện đang phải đối mặt với một tình thế tiến thoái lưỡng nan:

Một mặt, việc đào tạo một mô hình lớn "đa chức năng" để thực hiện đồng thời lý luận, lập kế hoạch và gọi công cụ có một lợi thế tích hợp, nhưng trong lý luận Chuỗi dài, việc đào tạo thường không ổn định và mở rộng bị hạn chế.

Mặt khác, mặc dù các hệ thống tác nhân dựa trên lời nhắc rất linh hoạt, nhưng chúng lại thiếu khả năng học hỏi và tự tối ưu hóa, cũng như không thể liên tục phát triển từ các tương tác.

Làm thế nào chúng ta có thể vượt qua được nút thắt này?

Một đội ngũ nghiên cứu từ Đại học Stanford, Đại học Texas A&M, UC San Diego và Lambda đã đưa ra một câu trả lời mới: cho phép các hệ thống tác nhân thông minh thực hiện học tăng cường trực tuyến trong "luồng" suy luận, do đó đạt được khả năng tự cải thiện và phát triển năng lực liên tục .

Họ đề xuất rằng khuôn khổ AgentFlow áp dụng kiến trúc mô-đun, với bốn tác nhân chuyên biệt làm việc cùng nhau và được trang bị thuật toán Flow-GRPO được thiết kế đặc biệt, cho phép hệ thống liên tục tối ưu hóa các chiến lược ra quyết định trong hoàn cảnh tương tác thực tế.

Kết quả thử nghiệm cho thấy AgentFlow, chỉ với 7B tham số, vượt qua GPT-4o (khoảng 200B tham số) và Llama-3.1-405B trong nhiều nhiệm vụ , bao gồm tìm kiếm, toán học và khoa học.

Trưởng đội ngũ đã chia sẻ công việc của mình trên Twitter và thu hút được sự chú ý đáng kể.

Tác phẩm này hiện đã đạt vị trí thứ hai trên bảng xếp hạng hàng ngày của HuggingFace Paper và là dự án Huggingface phổ biến nhất trong tuần.

Vấn đề phân bổ tín dụng trong suy luận Chuỗi dài

Thách thức cốt lõi trong việc đào tạo các hệ thống tác nhân thông minh là vấn đề phân công tín dụng nhiều vòng: làm thế nào để xác định chính xác sự đóng góp của từng quyết định vào kết quả cuối cùng trong một hoàn cảnh dài hạn, ít phần thưởng?

Phương pháp mô hình đơn truyền thống tích hợp tất cả các chức năng vào một LLM duy nhất, sử dụng các thẻ đặc biệt (như <tool_call>) để thống nhất đầu ra của các suy nghĩ, lệnh gọi công cụ và phản hồi.

Cách tiếp cận này hiệu quả đối với nhiệm vụ Chuỗi ngắn, nhưng dễ gặp vấn đề trong các tình huống phức tạp: Chuỗi suy luận quá dài dẫn đến đào tạo không ổn định, khó theo dõi lỗi trong việc lựa chọn công cụ và chiến lược không thể được điều chỉnh động dựa trên phản hồi hoàn cảnh.

Trong khi các hệ thống tác nhân thông minh hiện có (như LangGraph, OWL, Pydantic và AutoGen) đã đạt được mô-đun, hầu hết chúng đều dựa vào các dự án nhắc nhở cố định và thiếu cơ chế học hỏi từ kinh nghiệm.

AgentFlow cho phép tương tác thời gian thực trên nhiều mô-đun, học tập trong một "luồng".

Triết lý thiết kế của AgentFlow là phân tích nhiệm vụ suy luận phức tạp thành mô-đun tác nhân chuyên biệt, đồng thời cho phép mô-đun ra quyết định cốt lõi liên tục học hỏi thông qua tương tác .

Kiến trúc cộng tác bốn mô-đun

Hệ thống bao gồm bốn tác nhân thông minh chuyên biệt có khả năng ghi nhớ:

Phân tích yêu cầu nhiệm vụ, xây dựng chiến lược thực thi và lựa chọn công cụ phù hợp nhất. Đây là mô-đun ra quyết định cốt lõi của hệ thống và là phần duy nhất cần được đào tạo.
: Chịu trách nhiệm gọi API của công cụ và tích hợp các kết quả trả về từ công cụ.
Dựa trên bộ nhớ lịch sử tích lũy của hệ thống, đánh giá xem kết quả trung gian có đáp ứng được mục tiêu và ràng buộc nhiệm vụ hay không.
Tổng hợp tất cả thông tin và phản hồi xác minh để đưa ra câu trả lời cuối cùng hoặc đề xuất hành động tiếp theo.

Sự đổi mới chính nằm ở chỗ trình lập kế hoạch không tĩnh mà được tối ưu hóa theo thời gian thực trong quá trình suy luận thông qua học tăng cường theo chính sách.

Sau mỗi vòng tương tác, hệ thống sẽ cập nhật chiến lược ra quyết định của người lập kế hoạch dựa trên sự thành công hay thất bại của kết quả cuối cùng và tích hợp các kết quả đã tối ưu hóa vào bộ nhớ của hệ thống, hình thành nên một quá trình học tập thích ứng vòng kín.

Thuật toán Flow-GRPO giải quyết vấn đề phân bổ tín dụng.

Đội ngũ nghiên cứu đã đề xuất thuật toán Flow-GRPO (Tối ưu hóa Chính sách Tương đối Nhóm dựa trên Dòng chảy), được thiết kế đặc biệt cho các kịch bản suy luận nhiều vòng. Ý tưởng cốt lõi là truyền tín hiệu phần thưởng cuối cùng (thành công/thất bại) của quỹ đạo đến từng hành động, biến bài toán học tăng cường phức tạp nhiều vòng thành sê-ri các cập nhật chính sách chỉ trong một vòng.

Các bước cụ thể như sau:

1. Thu thập toàn bộ quá trình lý luận (từ nhiệm vụ ban đầu đến kết quả cuối cùng);

2. Tính toán phần thưởng kết quả dựa trên kết quả cuối cùng;

3. Gán phần thưởng này cho mỗi hành động đã lên kế hoạch trong quỹ đạo;

4. Tính toán lợi thế của từng hành động bằng cách sử dụng hàm lợi thế tương đối và cập nhật độ dốc chính sách.

Phương pháp này có hiệu quả trong việc giảm thiểu vấn đề thiếu hụt phần thưởng trong khi vẫn duy trì được tính ổn định trong quá trình đào tạo.

Học trực tuyến cho phép hệ thống: nhanh chóng sửa các lệnh gọi công cụ sai, khám phá các phương pháp phân tích nhiệm vụ tốt hơn và điều chỉnh độ sâu suy luận một cách linh hoạt dựa trên phản hồi hoàn cảnh .

Kết quả thực nghiệm: Sự trở lại của mô hình nhỏ

Đội ngũ nghiên cứu đã tiến hành đánh giá có hệ thống trên 10 tiêu chuẩn liên miền, bao gồm bốn hạng mục chính: truy xuất kiến thức, nhiệm vụ của tác nhân, lập luận toán học và lập luận khoa học.

So sánh hiệu suất

Sử dụng Qwen-2.5-7B-Instruct làm mô hình cơ sở, AgentFlow vượt trội hơn đáng kể ở mọi hạng mục.

Khả năng thu thập kiến thức: cải thiện 14,9% so với ban đầu.

Lý luận của tác nhân: Cải thiện 14,0%

Lý luận toán học: cải thiện 14,5%

Lý luận khoa học: Cải thiện 4,1%

Thậm chí còn đáng ngạc nhiên hơn nữa là kết quả của các so sánh theo thang đo chéo:

AgentFlow 7B vượt trội hơn GPT-4o (khoảng 200B) 8,2% trong nhiệm vụ tìm kiếm.

Nó vượt trội hơn Llama-3.1-405B 15,8% trong nhiệm vụ dựa trên tác nhân.

AgentFlow của mô hình 3B cũng vượt qua mô hình 405B cơ bản trong nhiều nhiệm vụ.

Những phát hiện chính từ các thí nghiệm cắt bỏ

1. Học trực tuyến so với học ngoại tuyến

Các thí nghiệm so sánh cho thấy việc đào tạo người lập kế hoạch bằng phương pháp SFT truyền thống thực sự dẫn đến hiệu suất giảm trung bình 19%. Điều này chứng minh rằng học trực tuyến trong hoàn cảnh tương tác thực tế là điều kiện cần thiết để đạt được khả năng lập luận hiệu quả .

2. Tự mình khám phá các chiến lược mới

Chọn các kết hợp công cụ phù hợp dựa trên đặc điểm nhiệm vụ ; đồng thời, hệ thống được đào tạo sẽ tự động khám phá các mẫu sử dụng công cụ mới, chẳng hạn như kết hợp tìm kiếm trên Wikipedia và tìm kiếm trên web để khai thác thông tin sâu hơn thông qua Chuỗi, trong khi các mẫu này hầu như không xuất hiện trong luồng suy luận chưa được đào tạo.

3. Độ sâu của suy luận động

Trong nhiệm vụ suy luận chuyên sâu như tìm kiếm nhiều bước, AgentFlow được đào tạo thể hiện "sự lười biếng thông minh": nó duy trì ít bước suy luận hơn cho nhiệm vụ đơn giản và chỉ tăng độ sâu suy luận cho nhiệm vụ phức tạp.

Khi số bước tối đa tăng lên, hiệu suất tăng, nhưng số bước trung bình không tăng trưởng theo tỷ lệ thuận.

4. Giá trị của sự hợp tác mô-đun

Mặc dù luồng suy luận có thể cải thiện hiệu suất, nhưng các hệ thống chưa được đào tạo dễ gặp lỗi lặp hoặc giật hình.

Sau khi được huấn luyện bằng học tăng cường, hệ thống đã cho thấy những cải thiện đáng kể về độ chính xác khi gọi công cụ, sự tinh tế trong việc lập kế hoạch nhiệm vụ và hiệu suất tổng thể. Đội ngũ đã cung cấp một ví dụ để minh họa sinh động những phát hiện thú vị từ các thí nghiệm của họ.

Trong ví dụ này, hệ thống suy luận trước khi đào tạo Flow-GRPO sẽ liên tục đưa ra các mục tiêu phụ và lệnh gọi công cụ giống nhau khi gặp lỗi định nghĩa biến Python như lỗi được hiển thị ở đây, điều này gây lãng phí rất nhiều thời gian và hiệu quả suy luận.

Sau khi cập nhật trực tuyến Flow-GRPO, trình lập kế hoạch hành động có thể tự động điều chỉnh để hướng dẫn các bước tiếp theo với các mục tiêu phụ và mô tả nhiệm vụ chính xác hơn dựa trên các lỗi trước đó và sau khi điều chỉnh này, nó đã thành công ở một bước.

Ví dụ này cũng chứng minh tiềm năng to lớn của việc học tăng cường trong lý luận thực tế trong các hệ thống tác nhân thông minh.

Ý nghĩa công nghệ và triển vọng tương lai

Giá trị của AgentFlow nằm ở:

1. Một mô hình đào tạo mới được cung cấp, chứng minh rằng các hệ thống tác nhân có thể có được khả năng học tập tương tự như các mô hình lớn thông qua học tăng cường trực tuyến và hiệu quả hơn trong nhiệm vụ cụ thể.

2. Đã xác minh tính khả thi của “nhỏ nhưng tuyệt vời”: Với thiết kế hệ thống hợp lý, các mô hình nhỏ có thể vượt qua các mô hình tổng quát quy mô lớn trong nhiệm vụ suy luận phức tạp thông qua sự hợp tác mô-đun và học tập liên tục.

3. Cung cấp ý tưởng cho AI mở rộng: Kiến trúc mô-đun cho phép hệ thống linh hoạt thêm các công cụ mới và điều chỉnh các chức năng mô-đun.

AgentFlow ít nhất cho chúng ta thấy rằng sự phát triển của Agentic AI không nhất thiết phải dựa hoàn toàn vào việc tăng kích thước mô hình; kiến trúc hệ thống sáng tạo kết hợp với phương pháp đào tạo hiệu quả có thể là hướng đi đáng giá hơn để khám phá.

Tham khảo:

https://arxiv.org/abs/2510.05592

Bài viết này được trích từ tài khoản WeChat chính thức "New Intelligence" , do LRST biên tập và được xuất bản với sự cho phép của 36Kr.

Nguồn

Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.

Thích

Thêm vào Yêu thích

Bình luận

Chia sẻ

Nội dung liên quan

TechFlow

Siêu thanh khoản đang ở thời kỳ đỉnh cao: Tại sao crypto"ngoại lệ" này tăng trưởng ngược với xu hướng?

BeInCrypto Việt Nam

Các altcoin mà nhà đầu tư lớn đang mua sau cú sập tiền điện tử đầu tháng 11?

MarsBit

Những người sao chép lệnh CZ hiện giờ thế nào?