Bài viết này được dịch máy
Xem bản gốc
Bài viết của Anthropic này đáng để xem
Chi tiết trình bày các thách thức kỹ thuật trong việc xây dựng nhiều tác nhân để khám phá các chủ đề phức tạp một cách hiệu quả hơn, bao gồm điều phối tác nhân, đánh giá và độ tin cậy.
Để tóm tắt những nội dung chính

Anthropic
@AnthropicAI
06-14
New on the Anthropic Engineering blog: how we built Claude’s research capabilities using multiple agents working in parallel.
We share what worked, what didn't, and the engineering challenges along the way.
https://anthropic.com/engineering/built-multi-agent-research-system…

Hệ thống đa tác nhân có thể cải thiện hiệu suất bằng cách:
Hoạt động song song và nén thông tin: Các tác nhân phụ có thể chạy song song với cửa sổ ngữ cảnh của riêng chúng, khám phá các khía cạnh khác nhau của một vấn đề cùng lúc, sau đó chắt lọc thông tin quan trọng nhất cho tác nhân nghiên cứu chính.
Phân tách các mối quan tâm: Mỗi tác nhân phụ cung cấp khả năng phân tách các mối quan tâm—các công cụ, lời nhắc và lộ trình khám phá khác nhau—giúp giảm sự phụ thuộc vào đường dẫn và cho phép điều tra độc lập, toàn diện.
Mở rộng hiệu suất: Khi trí thông minh đạt đến một ngưỡng nhất định, các hệ thống đa tác nhân trở thành một cách quan trọng để mở rộng hiệu suất, giống như cách xã hội loài người đã đạt được sự tăng trưởng theo cấp số nhân thông qua trí thông minh tập thể và khả năng phối hợp.
Truy vấn theo chiều rộng ưu việt: Đánh giá nội bộ đã chỉ ra rằng các hệ thống nghiên cứu đa tác nhân vượt trội trong các truy vấn theo chiều rộng liên quan đến việc theo đuổi nhiều hướng độc lập cùng lúc. 4 Ví dụ, khi được yêu cầu xác định tất cả các thành viên hội đồng quản trị của các công ty công nghệ thông tin thuộc S&P 500, hệ thống đa tác nhân đã tìm ra câu trả lời đúng bằng cách chia nhỏ nhiệm vụ thành nhiệm vụ của tác nhân phụ, trong khi hệ thống tác nhân đơn lẻ không tìm ra câu trả lời thông qua tìm kiếm tuần tự chậm.
Sử dụng mã thông báo hiệu quả: Hệ thống đa tác nhân có thể sử dụng đủ mã thông báo để giải quyết vấn đề. Phân tích cho thấy chỉ riêng việc sử dụng mã thông báo đã giải thích được 80% sự khác biệt về hiệu suất trong đánh giá BrowseComp, trong khi số lượng lệnh gọi công cụ và lựa chọn mô hình là hai yếu tố giải thích khác5. Kiến trúc đa tác nhân mở rộng hiệu quả việc sử dụng mã thông báo bằng cách phân phối công việc cho các tác nhân có cửa sổ ngữ cảnh độc lập để tăng khả năng song song hóa lý luận.
Hệ thống tác nhân cũng có những nhược điểm:
Họ thường tiêu thụ lượng lớn token một cách nhanh chóng. Trong dữ liệu của Anthropic, các tác nhân thường sử dụng nhiều token hơn khoảng 4 lần so với tương tác trò chuyện và các hệ thống đa tác nhân sử dụng nhiều token hơn khoảng 15 lần so với trò chuyện.
Do đó, các hệ thống đa tác nhân yêu cầu giá trị của nhiệm vụ phải đủ cao để bù đắp chi phí hiệu suất tăng thêm nhằm đạt được tính khả thi về mặt kinh tế.
Hơn nữa, một số miền yêu cầu tất cả các tác nhân phải chia sẻ cùng một bối cảnh hoặc liên quan đến sự phụ thuộc giữa nhiều tác nhân hiện không phù hợp với các hệ thống đa tác nhân, chẳng hạn như hầu hết nhiệm vụ mã hóa.
Tổng quan kiến trúc Hệ thống nghiên cứu của Anthropic sử dụng kiến trúc đa tác nhân với chế độ điều phối viên-nhân công ().
Một tác nhân chính điều phối toàn bộ quá trình, đồng thời ủy thác nhiệm vụ cho các tác nhân phụ chuyên biệt hoạt động song song.
Quy trình làm việc như sau:
1. Sau khi người dùng gửi truy vấn, tác nhân chính () sẽ phân tích truy vấn, xây dựng chiến lược và tạo ra các tác nhân phụ để khám phá đồng thời các khía cạnh khác nhau.
2. đầu tiên suy nghĩ về phương pháp của mình và lưu kế hoạch vào bộ nhớ để giữ ngữ cảnh, trong trường hợp cửa sổ ngữ cảnh bị cắt bỏ quá 200.000 token.
3. Sau đó, nó sẽ tạo các tác nhân phụ () chuyên biệt và giao nhiệm vụ cụ thể.
4. Mỗi tác nhân phụ độc lập thực hiện tìm kiếm trên mạng, sử dụng đánh giá kết quả công cụ với phương thức suy nghĩ xen kẽ (), và trả về những phát hiện cho .
5. tổng hợp các kết quả này và quyết định xem có cần nghiên cứu thêm không - nếu cần, nó có thể tạo thêm tác nhân phụ hoặc điều chỉnh chiến lược của mình.
6. Một khi thu thập đủ thông tin, hệ thống sẽ thoát khỏi vòng lặp nghiên cứu và chuyển tất cả các phát hiện cho một (tác nhân trích dẫn), tác nhân này xử lý tài liệu và báo cáo nghiên cứu để xác định vị trí trích dẫn cụ thể, đảm bảo tất cả các tuyên bố đều được gán nguồn gốc chính xác.
7. Kết quả nghiên cứu cuối cùng (bao gồm trích dẫn) sau đó được trả lại cho người dùng.
Khác với các phương pháp sử dụng truy xuất tăng cường sinh thành (RAG) truyền thống, kiến trúc của Anthropic sử dụng tìm kiếm nhiều bước, động tìm thông tin liên quan, thích ứng với những khám phá mới và phân tích kết quả để tạo ra câu trả lời chất lượng cao.
Mẹo: Việc thiết kế và đánh giá các hệ thống đa tác nhân khác biệt đáng kể so với các hệ thống tác nhân đơn lẻ, bao gồm tăng trưởng nhanh chóng của độ phức tạp trong phối hợp.
Kỹ thuật gợi ý là phương pháp chính của Anthropic để cải thiện hành vi của tác nhân.
Các nguyên tắc nhắc nhở được học bao gồm:
1. Suy nghĩ như tác nhân của bạn: Hiểu được tác động của lời nhắc và quan sát từng bước thực hiện của tác nhân thông qua mô phỏng để khám phá các chế độ lỗi.
2. Dạy người điều phối cách phân công nhiệm vụ: Tác nhân chính cần chia nhỏ truy vấn thành nhiệm vụ và mô tả chúng cho các tác nhân phụ. Mỗi tác nhân phụ cần có mục tiêu rõ ràng, định dạng đầu ra, hướng dẫn sử dụng công cụ và nguồn, và ranh giới nhiệm vụ rõ ràng để tránh trùng lặp công việc hoặc thiếu thông tin.
3. Điều chỉnh khối lượng công việc dựa trên độ phức tạp của truy vấn: nhúng các quy tắc mở rộng vào các gợi ý để giúp tác nhân chính phân bổ tài nguyên hiệu quả và ngăn chặn việc đầu tư quá mức vào các truy vấn đơn giản10. Một truy vấn đơn giản chỉ có thể yêu cầu 1 tác nhân và lần lệnh gọi công cụ, trong khi một nghiên cứu phức tạp có thể yêu cầu hơn 10 tác nhân phụ.
4. Thiết kế và lựa chọn công cụ là rất quan trọng: Giao diện tác nhân-công cụ cũng quan trọng như giao diện người-máy. Đảm bảo mỗi công cụ có mục đích rõ ràng và mô tả rõ ràng, đồng thời cung cấp cho tác nhân các phương pháp tìm kiếm rõ ràng (ví dụ: ưu tiên các công cụ chuyên dụng hơn các công cụ đa năng).
5. Để các tác nhân tự cải thiện: Các mô hình Claude 4 có thể đóng vai trò là các kỹ sư nhắc nhở tuyệt vời. Khi được đưa ra lời nhắc và chế độ lỗi, chúng có thể chẩn đoán nguyên nhân lỗi và đề xuất cải tiến. Anthropic thậm chí còn tạo ra một tác nhân kiểm tra công cụ có khả năng kiểm tra một công cụ bị lỗi và viết lại mô tả của nó để tránh lỗi.
6. Đi rộng trước, rồi đi sâu sau: Các chiến lược tìm kiếm nên bắt chước nghiên cứu của chuyên gia: khám phá bức tranh toàn cảnh trước, sau đó đi sâu vào chi tiết. Điều này có thể được thực hiện bằng cách nhắc nhở tác nhân bắt đầu bằng các truy vấn ngắn, rộng, đánh giá thông tin có sẵn và sau đó thu hẹp dần trọng tâm.
7. Hướng dẫn quá trình suy nghĩ: Chế độ suy nghĩ mở rộng đóng vai trò như một bảng ghi nhớ có thể kiểm soát, cho phép Claude đưa ra các mã thông báo bổ sung để lập kế hoạch, đánh giá tính phù hợp của công cụ, xác định độ phức tạp của truy vấn và số lượng tác nhân phụ, cũng như xác định nhân vật của từng tác nhân phụ.
8. Việc gọi công cụ song song giúp cải thiện tốc độ và hiệu suất: Bằng cách cho phép tác nhân chính khởi chạy các tác nhân phụ song song và các tác nhân phụ sử dụng nhiều công cụ song song, thời gian nghiên cứu cho các truy vấn phức tạp có thể giảm tới 90%.
Đánh giá hiệu quả các tác nhân Đánh giá các hệ thống đa tác nhân đặt ra những thách thức đặc biệt vì ngay cả khi có cùng điểm khởi đầu, các tác nhân có thể đi theo những con đường hiệu quả hoàn toàn khác nhau để đạt được mục tiêu của mình.
Phương pháp đánh giá cần phải linh hoạt, đánh giá xem tác nhân có đạt được kết quả chính xác hay không và quy trình của tác nhân có hợp lý hay không.
Phương pháp đánh giá chính bao gồm:
Bắt đầu đánh giá mẫu nhỏ ngay lập tức: Trong giai đoạn đầu phát triển, ngay cả một số lượng nhỏ các trường hợp thử nghiệm cũng có thể cho thấy tác động lớn vì quy mô hiệu ứng thường lớn.
Đánh giá LLM với tư cách là trọng tài: Đầu ra nghiên cứu thường là văn bản dạng tự do và không có câu trả lời đúng duy nhất, khiến LLM phù hợp làm trọng tài chấm điểm.14 Anthropic sử dụng trọng tài LLM đánh giá đầu ra dựa trên các tiêu chí như độ chính xác về mặt thực tế, độ chính xác của trích dẫn, tính đầy đủ, chất lượng nguồn và hiệu quả của công cụ.
Đánh giá của con người phát hiện ra các vấn đề mà tự động hóa bỏ sót: Người kiểm tra có thể phát hiện ra các trường hợp ngoại lệ mà đánh giá tự động có thể bỏ sót, chẳng hạn như câu trả lời ảo cho các truy vấn bất thường, trục trặc hệ thống hoặc sai lệch lựa chọn nguồn tinh vi.
Hệ thống đa tác nhân có hành vi mới nổi, nghĩa là hành vi của chúng không được tạo ra thông qua lập trình cụ thể.
Việc hiểu các mô hình tương tác là rất quan trọng và gợi ý tốt nhất không phải là hướng dẫn nghiêm ngặt mà là khuôn khổ hợp tác xác định sự phân công lao động, phương pháp giải quyết vấn đề và ngân sách nỗ lực.
Độ tin cậy sản xuất và thách thức kỹ thuật Việc di chuyển một hệ thống tác nhân từ nguyên mẫu sang hệ thống sản xuất đáng tin cậy đặt ra những thách thức kỹ thuật đáng kể do bản chất phức tạp của các lỗi trong hệ thống tác nhân. Những thách thức chính bao gồm:
Các tác nhân có trạng thái và lỗi tích tụ: Các tác nhân có thể chạy trong thời gian dài và duy trì trạng thái qua nhiều lần gọi công cụ. Các lỗi hệ thống lần có thể gây thảm họa cho tác nhân. Anthropic xây dựng các hệ thống có thể phục hồi sau các lỗi xảy ra và tận dụng trí thông minh của mô hình để xử lý các vấn đề một cách khéo léo, chẳng hạn như thông báo cho tác nhân khi một công cụ bị lỗi và để nó thích ứng.
Gỡ lỗi đòi hỏi một phương pháp mới: Các tác nhân đưa ra quyết định động và không xác định giữa các lần chạy, ngay cả khi các lời nhắc giống nhau, điều này làm cho việc gỡ lỗi trở nên khó khăn hơn. Bằng cách thêm theo dõi sản xuất đầy đủ, Anthropic có thể chẩn đoán lý do tại sao tác nhân không thành công và khắc phục sự cố một cách có hệ thống.
Việc triển khai đòi hỏi sự phối hợp cẩn thận: Hệ thống tác nhân là mạng lưới trạng thái cao của các tín hiệu, công cụ và logic thực thi chạy gần như liên tục. Anthropic sử dụng triển khai cầu vồng để tránh làm gián đoạn các tác nhân đang chạy bằng cách dần dần chuyển lưu lượng từ phiên bản cũ sang phiên bản mới trong khi vẫn giữ cả hai chạy đồng thời.
Các nút thắt cổ chai do thực thi đồng bộ: Hiện tại, tác nhân chính của Anthropic thực thi các tác nhân phụ một cách đồng bộ, chờ từng nhóm tác nhân phụ hoàn tất trước khi tiếp tục. Điều này đơn giản hóa việc phối hợp, nhưng lại tạo ra các nút thắt cổ chai trong luồng thông tin giữa các tác nhân, chẳng hạn như tác nhân chính không thể hướng dẫn các tác nhân phụ và toàn bộ hệ thống có thể bị chặn. Thực thi không đồng bộ sẽ cho phép tính song song bổ sung, nhưng sẽ làm tăng các thách thức trong việc phối hợp kết quả, tính nhất quán của trạng thái và lan truyền lỗi.
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan




