Tác giả: Nghi thức
Bản dịch: blockchain bản địa
Trong những năm gần đây, khái niệm tác nhân ngày càng trở nên quan trọng trong nhiều lĩnh vực như triết học, trò chơi và trí tuệ nhân tạo. Nhìn lên, cơ quan đề cập đến một thực thể có khả năng hành động tự chủ, đưa ra lựa chọn và có chủ ý, những phẩm chất thường gắn liền với con người.
Trong lĩnh vực trí tuệ nhân tạo, ý nghĩa của tác nhân trở nên phức tạp hơn. Với sự xuất hiện của các tác nhân tự trị có khả năng quan sát, học hỏi và hành động độc lập trong hoàn cảnh, khái niệm trừu tượng về tác nhân trong quá khứ đã được đưa ra dưới dạng cụ thể của một hệ thống máy tính. Các tác nhân này đòi hỏi ít sự can thiệp của con người, thể hiện khả năng vô thức nhưng có chủ ý tính toán để đưa ra quyết định, học hỏi kinh nghiệm và tương tác với các tác nhân hoặc con người khác theo những cách ngày càng phức tạp.
Bài viết này sẽ khám phá lĩnh vực mới nổi của các tác nhân tự trị, cụ thể là các tác nhân dựa trên mô hình ngôn ngữ lớn ( LLM ) và tác động của chúng trong các lĩnh vực đa dạng như trò chơi, quản trị, khoa học, robot, v.v. Trên cơ sở tìm hiểu các nguyên tắc cơ bản của tác tử, bài viết này sẽ phân tích kiến trúc và ứng dụng của tác tử trí tuệ nhân tạo. Quan điểm phân loại này cung cấp cái nhìn sâu sắc về cách các tác nhân này thực hiện nhiệm vụ, xử lý thông tin và phát triển trong khuôn khổ hoạt động cụ thể của chúng.
Mục tiêu của bài viết này bao gồm hai khía cạnh sau:
Cung cấp cái nhìn tổng quan có hệ thống về các tác nhân trí tuệ nhân tạo và nền tảng kiến trúc của chúng, tập trung vào các thành phần như trí nhớ, nhận thức, lý luận và lập kế hoạch.
Khám phá các xu hướng mới nhất trong nghiên cứu tác nhân trí tuệ nhân tạo, nêu bật các ví dụ về việc sử dụng chúng trong việc xác định lại những gì có thể.
Lưu ý: Do bài viết quá dài nên văn bản gốc đã bị xóa trong quá trình biên soạn bài viết này.
1. Xu hướng nghiên cứu của đại lý
Sự phát triển của các tác nhân dựa trên các mô hình ngôn ngữ lớn (LLM) đánh dấu một bước tiến lớn trong nghiên cứu trí tuệ nhân tạo, bao gồm nhiều tiến bộ trong lý luận biểu tượng, hệ thống phản ứng, học tập tăng cường và học tập thích ứng.
Tác nhân tượng trưng : mô phỏng lý luận của con người thông qua các quy tắc và kiến thức có cấu trúc, phù hợp với các vấn đề cụ thể (chẳng hạn như chẩn đoán y tế), nhưng khó giải quyết trong hoàn cảnh phức tạp và không chắc chắn.
Tác nhân phản ứng : Phản ứng nhanh với hoàn cảnh thông qua chu trình “cảm giác-hành động”, phù hợp với các kịch bản tương tác nhanh nhưng không thể hoàn thành nhiệm vụ phức tạp.
Tác nhân học tăng cường : Tối ưu hóa hành vi thông qua học thử và lỗi và được sử dụng rộng rãi trong trò chơi và robot. Tuy nhiên, thời gian đào tạo dài, hiệu quả mẫu thấp và độ ổn định kém.
Tác nhân dựa trên LLM : Tác nhân LLM kết hợp lý luận biểu tượng, phản hồi và học tập thích ứng, có khả năng học ít và không bắn, được sử dụng rộng rãi trong phát triển phần mềm, nghiên cứu khoa học và các lĩnh vực khác, phù hợp với hoàn cảnh năng động và có thể cộng tác với các tác nhân khác. đại lý.
2. Kiến trúc cơ quan
Kiến trúc tác tử hiện đại bao gồm nhiều mô-đun tạo thành một hệ thống toàn diện.
1) Mô-Đun đun lưu trữ
mô-đun hồ sơ xác định hành vi của tác nhân và đảm bảo tính nhất quán bằng cách phân công nhân vật hoặc tính cách, phù hợp với các tình huống yêu cầu tính cách ổn định. Hồ sơ của đại lý LLM được chia thành ba loại: nhân vật học, nhân vật ảo và nhân vật được cá nhân hóa.
Trích từ bài viết "Từ Nhân vật đến Cá nhân hóa"
Cải thiện hiệu suất theo nhân vật Cài đặt vai trò có thể cải thiện đáng kể hiệu suất và khả năng lý luận của tổng đài viên. Ví dụ: phản hồi của LLM sẽ sâu sắc hơn và phù hợp với ngữ cảnh hơn khi đóng vai trò là chuyên gia. Trong các hệ thống đa tác nhân, việc khớp nhân vật sẽ thúc đẩy sự hợp tác, cải thiện tỷ lệ hoàn thành nhiệm vụ và chất lượng tương tác.
Phương pháp tạo hồ sơ Hồ sơ đại lý LLM có thể được xây dựng theo các cách sau:
Thiết kế thủ công : thiết lập thủ công các đặc điểm nhân vật.
Tạo LLM : Mở rộng cài đặt nhân vật tự thông qua LLM.
Căn chỉnh tập dữ liệu : được xây dựng dựa trên tập dữ liệu thực để nâng cao tính xác thực của các tương tác.
2) mô-đun bộ nhớ
Bộ nhớ là cốt lõi của tác nhân LLM, hỗ trợ lập kế hoạch thích ứng và ra quyết định. Cấu trúc bộ nhớ mô phỏng các quá trình của con người và chủ yếu được chia thành hai loại:
Bộ nhớ thống nhất : bộ nhớ ngắn hạn, xử lý thông tin gần đây. Được tối ưu hóa thông qua việc chặn văn bản, tóm tắt bộ nhớ và cơ chế chú ý được sửa đổi, nhưng bị giới hạn bởi cửa sổ ngữ cảnh.
Bộ nhớ lai : kết hợp bộ nhớ ngắn hạn và dài hạn, với bộ nhớ dài hạn được lưu trữ trong cơ sở dữ liệu bên ngoài để thu hồi hiệu quả.
Định dạng bộ nhớ Các định dạng lưu trữ bộ nhớ phổ biến bao gồm:
Ngôn ngữ tự nhiên : linh hoạt và giàu ngữ nghĩa.
Nhúng vectơ : để truy xuất nhanh.
Cơ sở dữ liệu : hỗ trợ truy vấn thông qua lưu trữ có cấu trúc.
Danh sách có cấu trúc : Được tổ chức theo dạng danh sách hoặc dạng phân cấp.
Tác nhân vận hành bộ nhớ tương tác với bộ nhớ thông qua các hoạt động sau:
Truy cập bộ nhớ : Truy xuất thông tin liên quan để hỗ trợ việc ra quyết định sáng suốt.
Ghi nhớ : Lưu trữ thông tin mới để tránh trùng lặp, tràn.
Phản ánh trí nhớ : Tóm tắt kinh nghiệm và nâng cao khả năng suy luận trừu tượng.
Dựa trên nội dung của bài viết “Tác nhân sáng tạo”
Ý nghĩa và thách thức nghiên cứu
Mặc dù hệ thống bộ nhớ cải thiện khả năng của các tác nhân nhưng chúng cũng mang lại những thách thức nghiên cứu:
Mở rộng và hiệu quả : Hệ thống bộ nhớ cần hỗ trợ lượng lớn và đảm bảo truy xuất nhanh. Làm thế nào để tối ưu hóa việc truy xuất bộ nhớ dài hạn vẫn là trọng tâm nghiên cứu.
Xử lý giới hạn theo ngữ cảnh : LLM hiện tại bị giới hạn bởi cửa sổ ngữ cảnh và khó quản lý những bộ nhớ khổng lồ. Nghiên cứu khám phá các cơ chế chú ý động và công nghệ tóm tắt để mở rộng khả năng xử lý bộ nhớ.
Xu hướng và sự trôi dạt trong trí nhớ dài hạn : Trí nhớ có thể có những sai lệch, dẫn đến việc ưu tiên xử lý thông tin và sự sai lệch trong trí nhớ cần được cập nhật định kì và điều chỉnh để duy trì sự cân bằng của tác nhân.
Sự quên lãng nghiêm trọng : Dữ liệu mới ghi đè lên dữ liệu cũ, dẫn đến mất thông tin quan trọng cần được củng cố thông qua công nghệ phát lại trải nghiệm và hợp nhất bộ nhớ.
3) Khả năng nhận thức
Các tác nhân LLM cải thiện sự hiểu biết của họ về hoàn cảnh và khả năng ra quyết định bằng cách xử lý các nguồn dữ liệu đa dạng, tương tự như cách con người dựa vào đầu vào giác quan. Nhận thức đa phương thức tích hợp các đầu vào như văn bản, thị giác và thính giác để nâng cao khả năng thực hiện nhiệm vụ phức tạp của tác nhân. Sau đây là các loại đầu vào chính và ứng dụng của chúng:
Nhập văn bản Văn bản là phương thức giao tiếp chính của các nhân viên LLM. Bất chấp khả năng ngôn ngữ cấp cao của các tác nhân, việc hiểu được ý nghĩa tiềm ẩn đằng sau các hướng dẫn vẫn là một thách thức.
Hiểu ngầm : Điều chỉnh sở thích thông qua học tập tăng cường, xử lý các hướng dẫn mơ hồ và ý định được suy luận.
Khả năng không mẫu và ít mẫu : Nó có thể đáp ứng nhiệm vụ mới mà không cần đào tạo bổ sung và phù hợp với các tình huống tương tác đa dạng.
Đầu vào trực quan Nhận thức trực quan cho phép tác nhân hiểu được mối quan hệ giữa các vật thể và không gian.
Hình ảnh thành văn bản : Tạo mô tả văn bản giúp xử lý dữ liệu trực quan nhưng có thể mất chi tiết.
Mã hóa dựa trên máy biến áp : Vision Transformers chuyển đổi hình ảnh thành mã thông báo tương thích với văn bản.
Các công cụ bắc cầu : chẳng hạn như BLIP-2 và Flamingo sử dụng các lớp giữa để tối ưu hóa việc kết nối hình ảnh và văn bản.
Đầu vào thính giác Nhận thức thính giác cho phép các tác nhân nhận ra âm thanh và lời nói, điều này đặc biệt quan trọng trong các tình huống tương tác và rủi ro cao.
Nhận dạng và tổng hợp giọng nói : chẳng hạn như Whisper (lời nói thành văn bản) và FastSpeech (chuyển văn bản thành lời nói).
Xử lý ảnh phổ : Xử lý ảnh phổ âm thanh thành hình ảnh để cải thiện khả năng phân tích tín hiệu thính giác.
Những thách thức nghiên cứu và cân nhắc về nhận thức đa phương thức:
Căn chỉnh và tích hợp dữ liệu Dữ liệu đa phương thức cần được căn chỉnh một cách hiệu quả để tránh các lỗi về nhận thức và phản hồi Nghiên cứu tập trung vào việc tối ưu hóa lớp Transformer đa phương thức và sự chú ý chéo.
Mở rộng và hiệu quả Xử lý đa phương thức đang có nhu cầu lớn, đặc biệt là khi xử lý hình ảnh và âm thanh có độ phân giải cao. Sự phát triển của các mô hình có khả mở rộng và tiêu thụ tài nguyên thấp là chìa khóa.
Tình trạng lãng quên nghiêm trọng Các tác nhân đa phương thức phải đối mặt với tình trạng lãng quên nghiêm trọng và cần có các chiến lược như phát lại theo mức độ ưu tiên và học hỏi liên tục để lưu giữ thông tin quan trọng một cách hiệu quả.
Tạo phản hồi theo ngữ cảnh Tạo phản hồi dựa trên việc xử lý dữ liệu cảm giác được ưu tiên theo ngữ cảnh vẫn là trọng tâm nghiên cứu, đặc biệt là trong hoàn cảnh ồn ào hoặc bị chi phối về mặt thị giác.
4) Lý luận và lập kế hoạch
mô-đun lý luận và lập kế hoạch giúp tác nhân giải quyết vấn đề một cách hiệu quả bằng cách phân tách nhiệm vụ phức tạp. Tương tự như con người, nó có thể xây dựng các kế hoạch có cấu trúc, có thể xây dựng trước các kế hoạch hoàn chỉnh và điều chỉnh chiến lược trong thời gian thực dựa trên phản hồi. Phương pháp lập kế hoạch được phân loại theo loại phản hồi:
Một số tác nhân xây dựng một kế hoạch hoàn chỉnh trước khi thực hiện và thực hiện một đường dẫn hoặc nhiều tùy chọn mà không sửa đổi kế hoạch.
Các tác nhân khác điều chỉnh chiến lược của họ theo thời gian thực dựa trên phản hồi trong hoàn cảnh năng động.
Lập kế hoạch không có phản hồi Trong trường hợp không có phản hồi, tổng đài viên sẽ phát triển một kế hoạch hoàn chỉnh ngay từ đầu và thực hiện nó mà không cần điều chỉnh. Bao gồm lập kế hoạch đường dẫn đơn (thực hiện từng bước) và lập kế hoạch nhiều đường dẫn (khám phá nhiều tùy chọn đồng thời và chọn đường dẫn tốt nhất).
Nhiệm vụ suy luận đường dẫn đơn được chia thành các bước tuần tự, với mỗi bước tiếp theo bước tiếp theo:
Chuỗi tư duy ( CoT ) : Thông qua một số ít ví dụ, tác nhân được hướng dẫn giải quyết vấn đề từng bước một và nâng cao chất lượng đầu ra của mô hình.
Zero-shot-CoT : Không yêu cầu ví dụ đặt trước và việc suy luận được thực hiện bằng cách nhắc nhở "tư duy từng bước", phù hợp với việc học không cần bắn.
Nhắc lại : Tự động phát hiện các lời nhắc CoT hợp lệ mà không cần nhập thủ công.
Từ bài báo CoT
5) Lý luận đa đường
Khác với lý luận một đường, lý luận nhiều đường cho phép tác nhân khám phá nhiều bước cùng lúc, tạo và đánh giá nhiều giải pháp tiềm năng và chọn đường đi tốt nhất từ chúng, phù hợp với các vấn đề phức tạp, đặc biệt khi có nhiều giải pháp. những con đường có thể.
Ví dụ:
Tư duy Chuỗi tự nhất quán (CoT-SC) : Lấy mẫu nhiều đường dẫn lý luận từ đầu ra lời nhắc CoT, chọn bước có tần suất cao nhất để đạt được "tự tích hợp".
Cây suy nghĩ (ToT) : Lưu trữ các bước logic dưới dạng cấu trúc cây, đánh giá sự đóng góp của từng "suy nghĩ" cho giải pháp và sử dụng điều hướng tìm kiếm theo chiều rộng hoặc độ sâu.
Graph of Mind (GoT) : Mở rộng ToT thành cấu trúc biểu đồ, với suy nghĩ là các đỉnh và phần phụ thuộc là các cạnh, cho phép suy luận linh hoạt hơn.
Lập luận thông qua lập kế hoạch (RAP) : Mô phỏng nhiều kế hoạch bằng cách sử dụng Tìm kiếm cây Monte Carlo (MCTS), trong đó mô hình ngôn ngữ vừa xây dựng cây suy luận vừa cung cấp phản hồi.
6) Người lập kế hoạch bên ngoài
Khi LLM đối diện những thách thức về lập kế hoạch theo miền cụ thể, các nhà lập kế hoạch bên ngoài sẽ hỗ trợ, tích hợp kiến thức chuyên môn mà LLM còn thiếu.
LLM +P : Chuyển đổi nhiệm vụ thành Ngôn ngữ định nghĩa miền lập kế hoạch (PDDL) và giải quyết nó thông qua công cụ lập kế hoạch bên ngoài để giúp LLM hoàn thành nhiệm vụ phức tạp.
CO-LLM : Cộng tác mô hình tạo ra văn bản bằng cách chọn luân phiên đánh dấu tạo mô hình , mô hình cộng tác tối ưu sẽ xuất hiện một cách tự nhiên.
Lập kế hoạch bằng phản hồi Lập kế hoạch bằng phản hồi cho phép các tổng đài viên điều chỉnh nhiệm vụ trong thời gian thực theo những thay đổi hoàn cảnh và thích ứng với các tình huống phức tạp hoặc không thể đoán trước.
Khi tác nhân phản hồi hoàn cảnh tương tác với hoàn cảnh, nó sẽ điều chỉnh kế hoạch dựa trên phản hồi thời gian thực và duy trì tiến độ nhiệm vụ.
ReAct : Kết hợp các lời nhắc lý luận và hành động để tạo ra các kế hoạch có thể thích ứng trong quá trình tương tác.
DEPS : Điều chỉnh lại kế hoạch trong việc lập kế hoạch nhiệm vụ và giải quyết các mục tiêu phụ còn dang dở.
SayPlan : Sử dụng biểu đồ cảnh và chiến lược sàng lọc chuyển đổi trạng thái để nâng cao nhận thức về tình huống.
Từ bài báo "ReAct"
7) Phản hồi thủ công
Bằng cách tương tác với con người, nó giúp các tác nhân tuân thủ các giá trị của con người và tránh sai lầm. Ví dụ:
Độc thoại nội bộ : Tích hợp phản hồi của con người vào việc lập kế hoạch tác nhân để đảm bảo các hành động phù hợp với mong đợi của con người.
Phản hồi mô hình Phản hồi từ các mô hình được đào tạo trước giúp tác nhân tự kiểm tra và tối ưu hóa lý luận cũng như hành động của mình. Ví dụ:
SelfCheck : Trình kiểm tra từng bước không bắn một lần tự xác định các lỗi trong Chuỗi suy luận và đánh giá đúng đắn.
Phản xạ : Tác nhân phản ánh bằng cách ghi lại các tín hiệu phản hồi để thúc đẩy quá trình học tập lâu dài và sửa lỗi.
Từ bài báo "Tự kiểm tra"
Những thách thức và hướng nghiên cứu trong lý luận và lập kế hoạch Mặc dù mô-đun lý luận và lập kế hoạch cải thiện chức năng của tác nhân nhưng nó vẫn phải đối mặt với những thách thức:
Yêu cầu mở rộng và tính toán : Phương pháp phức tạp như ToT hoặc RAP đòi hỏi lượng lớn tài nguyên tính toán và việc nâng cao hiệu quả vẫn là trọng tâm nghiên cứu.
Sự phức tạp của việc tích hợp phản hồi : Tích hợp hiệu quả phản hồi từ nhiều nguồn và tránh tình trạng quá tải thông tin là chìa khóa để cải thiện khả năng thích ứng mà không làm giảm hiệu suất.
Thiên vị trong việc ra quyết định : Ưu tiên các nguồn hoặc đường dẫn phản hồi nhất định có thể dẫn đến sai lệch và việc kết hợp các kỹ thuật loại bỏ sai lệch là chìa khóa để lập kế hoạch cân bằng.
8) Hành động
mô-đun hành động là giai đoạn cuối cùng trong quá trình ra quyết định của tổng đài viên và bao gồm:
Mục tiêu hành động : Tác nhân thực hiện nhiều mục tiêu khác nhau, chẳng hạn như hoàn thành nhiệm vụ, giao tiếp hoặc khám phá hoàn cảnh.
Tạo hành động : Tạo ra hành động thông qua thu hồi hoặc lập kế hoạch, chẳng hạn như hành động dựa trên trí nhớ hoặc lập kế hoạch.
Không gian hành động : bao gồm kiến thức nội tại và các công cụ bên ngoài như API, cơ sở dữ liệu hoặc các mô hình bên ngoài để thực hiện nhiệm vụ. Ví dụ: các công cụ như HuggingGPT và ToolFormer tận dụng các mô hình hoặc API bên ngoài để thực thi nhiệm vụ.
Cơ sở dữ liệu và cơ sở tri thức: ChatDB sử dụng truy vấn SQL để truy xuất thông tin theo miền cụ thể, trong khi MRKL tích hợp các hệ thống chuyên gia và công cụ lập kế hoạch để lập kế hoạch phức tạp.
Các mô hình bên ngoài: Đại lý có thể dựa vào các mô hình không phải API để thực hiện nhiệm vụ chuyên biệt. Ví dụ: ChemCrow sử dụng nhiều mô hình để phát hiện thuốc và MemoryBank sử dụng hai mô hình để tăng cường khả năng truy xuất văn bản.
Tác động của hành động: Hành động có thể được chia thành:
Thay đổi hoàn cảnh : chẳng hạn như thu thập tài nguyên hoặc xây dựng cấu trúc trong Du hành và GITM, thay đổi hoàn cảnh .
Tự ảnh hưởng : Tác nhân sáng tạo như cập nhật ký ức hoặc lập kế hoạch mới.
Chuỗi nhiệm vụ : Một số hành động nhất định sẽ kích hoạt các hành động khác, chẳng hạn như Du hành gia xây dựng một công trình sau khi thu thập tài nguyên.
Mở rộng không gian hành động: Thiết kế tác nhân AI đòi hỏi kỹ năng kiến trúc và nhiệm vụ mạnh mẽ. Có hai cách để có được khả năng: tinh chỉnh và không tinh chỉnh.
Tinh chỉnh khả năng thu nhận :
Các bộ dữ liệu được chú thích thủ công : chẳng hạn như RET-LLM và EduChat, giúp cải thiện hiệu suất LLM thông qua chú thích thủ công.
LLM tạo các tập dữ liệu : chẳng hạn như ToolBench, tinh chỉnh LLaMA thông qua các hướng dẫn tạo LLM.
Các bộ dữ liệu trong thế giới thực : chẳng hạn như MIND2WEB và SQL-PaLM, giúp cải thiện khả năng của tác nhân thông qua dữ liệu ứng dụng thực tế.
Thu thập khả năng mà không cần tinh chỉnh Khi việc tinh chỉnh là không khả thi, các tác nhân có thể cải thiện khả năng của mình thông qua kỹ thuật nhanh chóng và kỹ thuật cơ chế.
Kỹ thuật nhắc nhở hướng dẫn hành vi LLM thông qua các lời nhắc thiết kế để cải thiện hiệu suất.
Chuỗi tư duy (CoT) : Thêm các bước suy luận trung gian để hỗ trợ giải quyết vấn đề phức tạp.
SocialAGI : Điều chỉnh các cuộc hội thoại dựa trên trạng thái tinh thần của người dùng.
Retroformer : Tối ưu hóa các quyết định dựa trên sự phản ánh từ những thất bại trong quá khứ.
Kỹ thuật cơ chế nâng cao khả năng của tác nhân thông qua các quy tắc và cơ chế chuyên biệt.
DEPS : Kế hoạch tối ưu hóa để cải thiện việc sửa lỗi bằng cách mô tả quy trình thực hiện, phản hồi và lựa chọn mục tiêu.
RoCo : Điều chỉnh kế hoạch hợp tác nhiều robot dựa trên việc kiểm tra hoàn cảnh .
Cơ chế tranh luận : đạt được sự đồng thuận thông qua hợp tác.
Tích lũy kinh nghiệm
GITM : Cơ chế ghi nhớ dựa trên văn bản cải thiện khả năng học tập và khái quát hóa.
Du hành : Tối ưu hóa việc thực hiện kỹ năng thông qua việc tự phản hồi.
Sự tiến hóa tự định hướng
LMA3 : Hỗ trợ các chức năng thay đổi quy mô mục tiêu và khen thưởng để cho phép các đại lý học các kỹ năng trong hoàn cảnh không có nhiệm vụ cụ thể.
Từ bài báo Voyager
Tinh chỉnh có thể cải thiện đáng kể hiệu suất nhiệm vụ cụ thể nhưng yêu cầu các mô hình mã nguồn mở và tiêu tốn nhiều tài nguyên. Kỹ thuật nhắc nhở và kỹ thuật cơ chế có thể áp dụng cho các mô hình nguồn mã nguồn mở và đóng, nhưng bị giới hạn bởi cửa sổ ngữ cảnh đầu vào và yêu cầu thiết kế cẩn thận.
3. Kiến trúc hệ thống gồm nhiều tác nhân (agent)
Kiến trúc đa tác nhân phân bổ nhiệm vụ cho nhiều tác nhân, mỗi tác nhân tập trung vào các khía cạnh khác nhau, cải thiện tính mạnh mẽ và khả năng thích ứng. Sự hợp tác và phản hồi giữa các tác nhân nâng cao hiệu quả thực thi tổng thể và số lượng tác nhân có thể được điều chỉnh linh hoạt theo nhu cầu. Tuy nhiên, kiến trúc này phải đối mặt với những thách thức về phối hợp và giao tiếp là rất quan trọng để tránh mất thông tin hoặc hiểu lầm.
Để thúc đẩy giao tiếp và phối hợp giữa các đại lý, nghiên cứu tập trung vào hai cơ cấu tổ chức:
Cấu trúc theo chiều ngang : Tất cả các tác nhân chia sẻ và tối ưu hóa các quyết định cũng như tổng hợp các quyết định riêng lẻ thông qua việc ra quyết định tập thể, phù hợp với các tình huống tư vấn hoặc sử dụng công cụ.
Cấu trúc theo chiều dọc : Một tác nhân đề xuất giải pháp sơ bộ và các tác nhân khác cung cấp phản hồi hoặc được giám sát bởi người quản lý. Thích hợp cho nhiệm vụ yêu cầu giải pháp tinh tế, chẳng hạn như giải quyết vấn đề toán học hoặc phát triển phần mềm.
Từ bài báo "ChatDev"
1) Cơ cấu tổ chức lai
DyLAN kết hợp các cấu trúc dọc và ngang thành một phương pháp kết hợp, với các tác nhân cộng tác theo chiều ngang trong cùng một lớp và trao đổi thông tin theo các bước thời gian. DyLAN giới thiệu một mô hình xếp hạng và hệ thống tính điểm tầm quan trọng của tác nhân để tự động đánh giá và lựa chọn các tác nhân phù hợp nhất nhằm tiếp tục ngừng hoạt động các tác nhân hoạt động kém, tạo thành một cấu trúc phân cấp. Các đặc vụ được xếp hạng cao đóng vai trò quan trọng trong nhiệm vụ và thành phần đội ngũ.
Khung hợp tác đa tác nhân tập trung vào lợi thế của từng tác nhân bằng cách chia sẻ thông tin và phối hợp hành động để đạt được sự hợp tác bổ sung nhằm tối đa hóa hiệu quả.
Từ bài báo "Agentverse"
Có hai loại tương tác hợp tác:
Hợp tác không có thứ tự : Nhiều tác nhân tương tác tự do mà không tuân theo một trình tự hoặc quy trình cố định nào, tương tự như động não. Mỗi tác nhân cung cấp phản hồi và hệ thống tích hợp đầu vào cũng như tổ chức các phản hồi để tránh sự hỗn loạn thông qua các tác nhân điều phối, thường sử dụng cơ chế biểu quyết đa số để đạt được sự đồng thuận.
Hợp tác có trật tự : Các tác nhân tương tác theo trình tự, tuân theo một quy trình có cấu trúc, trong đó mỗi tác nhân chú ý đến đầu ra của tác nhân trước để đảm bảo giao tiếp hiệu quả. Nhiệm vụ được hoàn thành nhanh chóng và tránh được sự hỗn loạn, nhưng cần phải ngăn chặn các lỗi phát sinh thông qua xác thực chéo hoặc sự can thiệp của con người.
Từ bài báo MetaGPT
Các khung đa tác nhân đối nghịch Các khung hợp tác thúc đẩy hiệu quả và hợp tác, trong khi các khung đối nghịch thúc đẩy sự phát triển của tác nhân thông qua các thách thức. Lấy cảm hứng từ lý thuyết trò chơi, các tương tác đối nghịch khuyến khích các tác nhân cải thiện hành vi của mình thông qua phản hồi và phản ánh. Ví dụ: AlphaGo Zero cải thiện chiến lược của mình thông qua việc tự chơi và hệ thống LLM cải thiện chất lượng đầu ra thông qua tranh luận và trao đổi ăn miếng trả miếng. Mặc dù phương pháp này thúc đẩy khả năng thích ứng của tác nhân nhưng nó cũng gây ra chi phí tính toán và rủi ro lỗi.
Hành vi mới nổi Trong hệ thống đa tác nhân, ba hành vi mới nổi có thể xảy ra:
Hành vi tình nguyện: Người đại diện tích cực đóng góp nguồn lực hoặc giúp đỡ người khác.
Hành vi nhất quán: Tổng đài viên điều chỉnh hành vi của mình để phù hợp với mục tiêu đội ngũ.
Hành vi phá hoại: Tác nhân có thể áp dụng các hành vi cực đoan để nhanh chóng đạt được mục tiêu, điều này có thể mang lại rủi ro về bảo mật.
Kiểm tra và đánh giá điểm chuẩn Kiểm tra điểm chuẩn là công cụ chính để đánh giá hiệu suất của các tác nhân. Các nền tảng thường được sử dụng bao gồm ALFWorld, IGLU và Minecraft, v.v., được sử dụng để kiểm tra khả năng của các tác nhân trong việc lập kế hoạch, cộng tác và thực hiện nhiệm vụ. Đồng thời, đánh giá mức độ sử dụng công cụ và khả năng xã hội cũng rất quan trọng. Các nền tảng như ToolBench và SocKET lần lượt đánh giá khả năng thích ứng và hiểu biết xã hội của tác nhân.
Các trò chơi kỹ thuật số ứng dụng đã trở thành một nền tảng quan trọng cho nghiên cứu AI. Các tác nhân trò chơi dựa trên LLM tập trung vào khả năng nhận thức và thúc đẩy nghiên cứu AGI.
Từ bài báo "Khảo sát tác nhân trò chơi dựa trên mô hình ngôn ngữ lớn"
Nhận thức về tác nhân trong trò chơi Trong trò chơi điện tử, các tác nhân hiểu trạng thái trò chơi thông qua mô-đun đun nhận thức. Có ba phương pháp chính:
Truy cập biến trạng thái : Truy cập dữ liệu tượng trưng thông qua API trò chơi, phù hợp với các trò chơi có yêu cầu hình ảnh thấp.
Bộ mã hóa hình ảnh bên ngoài : Sử dụng bộ mã hóa hình ảnh để chuyển đổi hình ảnh thành văn bản, chẳng hạn như CLIP, để giúp tác nhân hiểu được hoàn cảnh.
Mô hình ngôn ngữ đa phương thức : kết hợp dữ liệu hình ảnh và văn bản để nâng cao khả năng thích ứng của tác nhân, chẳng hạn như GPT-4V.
Nghiên cứu điển hình về đại lý trò chơi
Cradle (trò chơi phiêu lưu) : Trò chơi này yêu cầu đặc vụ phải hiểu cốt truyện, giải câu đố và điều hướng, đối mặt với các thách thức về hỗ trợ đa phương thức, trí nhớ năng động và ra quyết định. Mục tiêu của Cradle là đạt được khả năng kiểm soát máy tính chung (GCC), cho phép các tác nhân thực hiện bất kỳ nhiệm vụ máy tính nào thông qua đầu vào màn hình và âm thanh với tính linh hoạt cao hơn.
Trò chơi cạnh tranh Poké LL Mon (Trò chơi cạnh tranh) đã trở thành chuẩn mực cho việc suy luận và lập kế hoạch thực hiện do các quy tắc nghiêm ngặt và tỷ lệ thắng tương đương với người chơi con người. Một số khung đại lý đã chứng minh hiệu suất cạnh tranh. Ví dụ: tác nhân LLM trong "Mô hình ngôn ngữ quy mô lớn phát "StarCraft II": Phương pháp tóm tắt điểm chuẩn và Chuỗi " cạnh tranh với AI tích hợp trong phiên bản văn bản của "StarCraft II". PokéLLMon là đặc vụ LLM đầu tiên đạt được hiệu suất ở cấp độ con người, đạt tỷ lệ thắng xếp hạng 49% và tỷ lệ thắng theo lời mời là 56% trong trò chơi Pokémon Tactics. Khuôn khổ này tránh ảo giác và chu kỳ hoảng loạn trong tư duy Chuỗi bằng cách tăng cường tạo ra kiến thức và tạo ra hành động nhất quán. Tác nhân chuyển đổi nhật ký trạng thái của máy chủ chiến đấu thành văn bản, đảm bảo tính mạch lạc lần lượt và hỗ trợ lý luận dựa trên bộ nhớ.
Tác nhân tăng cường học tập thông qua bốn loại phản hồi, bao gồm thay đổi HP, hiệu ứng kỹ năng, ước tính tốc độ của chuỗi hành động và hiệu ứng trạng thái kỹ năng để tối ưu hóa chiến lược và tránh tái chế các kỹ năng không hợp lệ.
PokéLLMon sử dụng các tài nguyên bên ngoài (chẳng hạn như Bulbapedia) để thu thập kiến thức, chẳng hạn như hạn chế về loại và hiệu ứng kỹ năng, nhằm giúp đặc vụ sử dụng các kỹ năng đặc biệt chính xác hơn. Ngoài ra, khi đánh giá phương pháp CoT, Self-Consistency và ToT, người ta thấy rằng Self-Consistency cải thiện đáng kể tỷ lệ chiến thắng.
ProAgent (trò chơi hợp tác) Trò chơi hợp tác yêu cầu hiểu ý định của đồng đội và dự đoán hành động, đồng thời hoàn thành nhiệm vụ thông qua hợp tác rõ ràng hoặc ngầm. Hợp tác rõ ràng có hiệu quả cao nhưng kém linh hoạt, trong khi hợp tác ngầm dựa vào việc dự đoán các chiến lược của đồng đội để tương tác thích ứng. Trong "Overgrown", ProAgent thể hiện khả năng hợp tác ngầm. Quy trình cốt lõi của nó được chia thành năm bước:
Thu thập kiến thức và chuyển đổi trạng thái : rút kiến thức liên quan đến nhiệm vụ và tạo ra các mô tả ngôn ngữ.
Lập kế hoạch kỹ năng : Suy đoán ý định của đồng đội và xây dựng phương án hành động.
Sửa đổi niềm tin : Tự động cập nhật hiểu biết về hành vi của đồng đội để giảm sai sót.
Xác thực và Thực thi Kỹ năng : Điều chỉnh lặp đi lặp lại các kế hoạch để đảm bảo các hành động có hiệu quả.
Bộ nhớ lưu trữ : Ghi lại các tương tác và kết quả để tối ưu hóa các quyết định trong tương lai.
Trong đó, cơ chế sửa đổi niềm tin đặc biệt quan trọng để đảm bảo rằng tác nhân cập nhật hiểu biết của mình khi tương tác, cải thiện nhận thức tình huống và độ chính xác khi ra quyết định.
ProAgent vượt qua năm phương pháp đào tạo tự chơi và dựa trên đám đông.
2) Tác nhân tạo (mô phỏng)
Nhân vật ảo thể hiện độ sâu và sự phức tạp trong hành vi của con người như thế nào? Mặc dù các hệ thống AI ban đầu như SHRDLU và ELIZA đã cố gắng tương tác bằng ngôn ngữ tự nhiên, phương pháp dựa trên quy tắc và học tăng cường cũng đạt được tiến bộ trong trò chơi nhưng chúng có những hạn chế về tính nhất quán và tương tác mở. Ngày nay, các tác nhân kết hợp LLM với kiến trúc nhiều lớp sẽ vượt qua những hạn chế này và có khả năng lưu trữ ký ức, phản ánh các sự kiện và thích ứng với những thay đổi. Nghiên cứu cho thấy các tác nhân này không chỉ có thể mô phỏng hành vi thực của con người mà còn thể hiện khả năng truyền bá thông tin, thiết lập mối quan hệ xã hội và điều phối hành vi, khiến nhân vật ảo trở nên thực tế hơn.
Từ " Sự trỗi dậy và tiềm năng của các tác nhân mô hình ngôn ngữ quy mô lớn : Một cuộc khảo sát"
Tổng quan về kiến trúc : Kiến trúc này kết hợp nhận thức, truy xuất bộ nhớ, phản ánh, lập kế hoạch và phản ứng. Tác nhân xử lý các quan sát ngôn ngữ tự nhiên thông qua mô-đun bộ nhớ, đánh giá và truy xuất thông tin dựa trên tính kịp thời, tầm quan trọng và mức độ phù hợp theo ngữ cảnh, đồng thời tạo ra các phản ánh dựa trên những ký ức trong quá khứ cung cấp những hiểu biết sâu sắc về các mối quan hệ và kế hoạch. Mô-Đun lý luận và lập kế hoạch tương tự như chu trình lập kế hoạch-hành động.
Kết quả mô phỏng : Nghiên cứu mô phỏng việc phổ biến thông tin về các bữa tiệc trong Ngày lễ tình nhân và bầu cử thị trưởng. Trong vòng hai ngày, nhận thức của ứng cử viên thị trưởng tăng từ 4% lên 32%, nhận thức của đảng tăng từ 4% lên 52% và chiếm tỷ lệ thông tin sai lệch. chỉ là 1,3%. Các tác nhân tổ chức các đảng thông qua sự phối hợp tự phát và hình thành mạng xã hội mới, với mật độ tăng dần từ 0,167 lên 0,74. Mô phỏng thể hiện cơ chế chia sẻ thông tin và phối hợp xã hội mà không cần sự can thiệp từ bên ngoài, cung cấp tham khảo cho các thí nghiệm khoa học xã hội trong tương lai.
Voyager (Tạo ra và Khám phá) : Trong Minecraft, các đặc vụ có thể thực hiện nhiệm vụ tạo ra hoặc khám phá một cách độc lập. Nhiệm vụ tạo ra dựa vào việc lập kế hoạch LLM và phân tách nhiệm vụ, trong khi việc khám phá độc lập xác định nhiệm vụ thông qua việc học trong khóa học và LLM tạo ra các mục tiêu. Du hành là một tác nhân học tập suốt đời được thể hiện bằng cách kết hợp các khóa học tự động, thư viện kỹ năng và cơ chế phản hồi để chứng minh tiềm năng khám phá và học tập.
Khóa học tự động sử dụng LLM để tạo ra các mục tiêu liên quan đến trạng thái tác nhân và tiến trình khám phá, khiến nhiệm vụ ngày càng phức tạp hơn. Tác nhân tạo mã mô-đun để thực hiện nhiệm vụ và cung cấp kết quả phản hồi thông qua các lời nhắc tư duy Chuỗi, sửa đổi mã khi cần thiết. Sau khi thành công, mã sẽ được lưu trong thư viện kỹ năng để sử dụng sau.
Khung Voyager cải thiện đáng kể hiệu quả mở khóa của cây công nghệ. Tốc độ mở khóa của gỗ, đá và sắt lần lượt nhanh hơn 15,3 lần, 8,5 lần và 6,4 lần và nó trở thành khung duy nhất để mở khóa kim cương. Khoảng cách khám phá của nó dài hơn 2,3 lần so với đường cơ sở và nó phát hiện ra nhiều vật phẩm mới gấp 3,3 lần, thể hiện khả năng học tập suốt đời tuyệt vời.
4. Những ứng dụng tiềm năng trong lĩnh vực game
1) Trò chơi do tác nhân điều khiển
Mô phỏng đa tác nhân : Nhân vật AI hành động tự chủ, phát huy lối chơi năng động.
Trò chơi chiến lược Đơn vị thông minh : Đặc vụ thích ứng với hoàn cảnh và đưa ra quyết định tự chủ dựa trên mục tiêu của người chơi.
Sân tập AI : Người chơi thiết kế và huấn luyện AI để hoàn thành nhiệm vụ.
2) NPC và thế giới ảo được tăng cường AI
NPC thế giới mở : LLM thúc đẩy NPC tác động đến động lực kinh tế và xã hội.
Đối thoại thực sự : Cải thiện trải nghiệm tương tác với NPC.
Sinh thái ảo : AI thúc đẩy sự phát triển của hệ sinh thái
Sự kiện động : Quản lý hoạt động trong trò chơi theo thời gian thực.
3) Tường thuật sinh động và hỗ trợ người chơi
Kể chuyện thích ứng : Đại lý tạo ra nhiệm vụ và câu chuyện được cá nhân hóa.
Trợ lý người chơi : Cung cấp các mẹo và hỗ trợ tương tác.
AI phản hồi cảm xúc : Tương tác dựa trên tâm lý của người chơi.
4) Giáo dục và Sáng tạo
Đối thủ AI : Thích ứng với chiến lược của người chơi trong cạnh tranh và mô phỏng.
Trò chơi giáo dục : Đại lý cung cấp hướng dẫn cá nhân hóa.
Hỗ trợ sáng tạo : tạo nội dung trò chơi và hạ thấp ngưỡng phát triển.
5) Crypto và lĩnh vực tài chính
Các đại lý tự động vận hành ví, giao dịch và tương tác với các giao thức DeFi thông qua blockchain.
Ví hợp đồng thông minh : hỗ trợ đa chữ ký và Trừu tượng hóa tài khoản, tăng cường quyền tự chủ của đại lý.
Quản lý private key : Sử dụng tính toán bên long(MPC) hoặc hoàn cảnh thực thi đáng tin cậy (TEE) để đảm bảo an ninh, chẳng hạn như công cụ tác nhân AI do Coinbase phát triển.
Những công nghệ này mang lại cơ hội mới cho các tương tác tự chủ trên Chuỗi của các đại lý và các ứng dụng sinh thái crypto.
5. Ứng dụng đại lý trong lĩnh vực blockchain
1) Lý luận của tác nhân xác nhận
Xác minh ngoài Chuỗi là điểm nóng trong nghiên cứu blockchain và chủ yếu được sử dụng trong các phép tính có độ phức tạp cao. Các hướng nghiên cứu bao gồm Bằng chứng không tri thức, xác minh lạc quan, Hoàn cảnh thực thi đáng tin cậy (TEE) và lý thuyết trò chơi kinh crypto.
Xác minh đầu ra của tác nhân : Xác nhận kết quả suy luận của tác nhân thông qua trình xác thực trên Chuỗi, cho phép tác nhân được chạy bên ngoài và tải kết quả suy luận đáng tin cậy lên Chuỗi , tương tự như một oracle phi tập trung .
Trường hợp : “Leela vs. the World” của Modulus Labs sử dụng các mạch không có kiến thức để xác minh các nước cờ, kết hợp các thị trường dự đoán với đầu ra AI có thể kiểm chứng được.
2) Hợp tác đại lý mật mã
Hệ thống nút phân tán có thể chạy các hệ thống đa tác nhân và đạt được sự đồng thuận.
Trường hợp nghi thức : chạy LLM trên nhiều nút, kết hợp xác minh trên Chuỗi và bỏ phiếu để hình thành các quyết định hành động của cơ quan.
Giao thức Naptha : Cung cấp thị trường nhiệm vụ và hệ thống xác minh quy trình làm việc để cộng tác và xác minh nhiệm vụ của đại lý.
Oracle AI phi tập trung : chẳng hạn như giao thức Ora, hỗ trợ vận hành tác nhân phân tán và thiết lập sự đồng thuận.
3) Khung Eliza
Được phát triển bởi a16z , đây là một khung đa tác nhân mã nguồn mở được thiết kế dành riêng cho blockchain , hỗ trợ việc tạo và quản lý các tác nhân thông minh được cá nhân hóa.
Các tính năng : Kiến trúc mô- mô-đun, bộ nhớ dài hạn, tích hợp nền tảng (hỗ trợ Discord, X, Telegram, v.v.).
Công cụ tin cậy : Kết hợp với các giao dịch mã thông báo tự động, đánh giá và quản lý điểm tin cậy đề xuất.
4) Các ứng dụng proxy khác
Thu thập khả năng phi tập trung : Phát triển tập dữ liệu và công cụ khích lệ thông qua các cơ chế khen thưởng, chẳng hạn như tạo thư viện kỹ năng và điều hướng giao thức.
Đại lý thị trường dự đoán : kết hợp thị trường dự đoán với giao dịch tự chủ của đại lý, chẳng hạn như Gnosis và Autonolas để hỗ trợ các dịch vụ dự đoán và trả lời trên Chuỗi.
Ủy quyền quản trị proxy : tự động phân tích Đề án và bỏ phiếu trong DAO thông qua proxy.
Proxy được mã hóa : chia sẻ thu nhập proxy, chẳng hạn như MyShell và Virtuals Protocol hỗ trợ cơ chế cổ tức.
Quản lý mục đích DeFi : Đại lý tối ưu hóa trải nghiệm người dùng trong hoàn cảnh đa chuỗi và tự động thực hiện giao dịch.
Phát hành Token độc lập : Token được phát hành bởi các đại lý nhằm nâng cao sức hấp dẫn thị trường của Token.
Các nghệ sĩ tự trị : chẳng hạn như Botto, kết hợp bỏ phiếu của cộng đồng và đúc NFT trên Chuỗi để hỗ trợ tạo đại lý và phân phối lợi nhuận.
Tác nhân trò chơi tiết kiệm : AI Arena và các tác nhân khác kết hợp học tập tăng cường và học tập bắt chước để thiết kế các cuộc thi trò chơi trực tuyến 24/7.
6. Những phát triển và triển vọng gần đây: Nhiều dự án đang khám phá sự kết hợp giữa blockchain và AI, với các lĩnh vực ứng dụng phong phú. Phần tiếp theo sẽ thảo luận cụ thể về AI Agent trên Chuỗi .
1) Khả năng dự đoán Dự đoán là chìa khóa để ra quyết định. Dự báo truyền thống được chia thành dự báo thống kê và dự báo phán đoán, dự báo dựa vào các chuyên gia, tốn kém và chậm chạp.
Tiến độ nghiên cứu :
Thông qua việc truy xuất tin tức và nâng cao khả năng suy luận, độ chính xác dự đoán của các mô hình ngôn ngữ lớn (LLM) đã tăng từ 50% lên 71,5%, gần bằng mức 77% dự đoán của con người.
Hiệu quả dự đoán của tích hợp 12 mô hình gần giống với hiệu quả của một đội ngũ con người, thể hiện “sự khôn ngoan của đám đông” để nâng cao độ tin cậy.
2 ) Nhân vật
LLM nổi trội trong lĩnh vực nhân vật, kết hợp trí tuệ xã hội và cơ chế ghi nhớ để mô phỏng các tương tác phức tạp.
Ứng dụng : Có thể được sử dụng để mô phỏng nhân vật, tương tác trong trò chơi và đối thoại được cá nhân hóa.
Phương pháp : Kết hợp kỹ thuật tạo tăng cường truy xuất (RAG) và kỹ thuật đối thoại để tối ưu hóa hiệu suất thông qua lời nhắc vài cảnh quay.
Sự đổi mới :
RoleGPT rút bối cảnh nhân vật một cách linh hoạt để cải thiện tính hiện thực.
Character-LLM sử dụng dữ liệu tiểu sử để tái tạo lại đặc điểm của các nhân vật lịch sử và khôi phục chính xác nhân vật.
Những công nghệ này đã thúc đẩy việc mở rộng ứng dụng AI trong các lĩnh vực như mô phỏng xã hội và tương tác cá nhân hóa.
Trích từ bài báo "Nhân vật-LLM"
Ứng dụng RPLA ( Tác nhân nhân vật nhập vai )
Sau đây là danh sách ngắn gọn về một số ứng dụng RPLA:
NPC tương tác trong trò chơi : Tạo nhân vật năng động với trí tuệ cảm xúc để nâng cao sự hòa nhập của người chơi.
Mô phỏng nhân vật lịch sử : Tái tạo các nhân vật lịch sử, chẳng hạn như Socrates hoặc Cleopatra, cho các cuộc trò chuyện mang tính giáo dục hoặc khám phá.
Trợ lý sáng tạo câu chuyện : Cung cấp hỗ trợ tường thuật và đối thoại phong phú cho người viết, người chơi RPG và người sáng tạo.
Biểu diễn ảo : Đóng vai một diễn viên hoặc nhân vật của công chúng trong các kịch bản giải trí như phim truyền hình tương tác và các sự kiện ảo.
Đồng sáng tạo AI : Hợp tác với AI để tạo ra một phong cách nghệ thuật, âm nhạc hoặc câu chuyện cụ thể.
Người bạn học ngôn ngữ : Người bản xứ được mô phỏng giúp thực hành ngôn ngữ một cách sống động.
Mô phỏng xã hội : Xây dựng một xã hội tương lai hoặc giả định để kiểm tra các kịch bản văn hóa, đạo đức hoặc hành vi.
Người bạn đồng hành ảo được tùy chỉnh : Tạo một trợ lý hoặc người bạn đồng hành được cá nhân hóa với tính cách, đặc điểm và ký ức độc đáo.
7. Vấn đề căn chỉnh AI
Đánh giá liệu LLM có phù hợp với các giá trị con người hay không là một nhiệm vụ phức tạp, đầy thách thức do tính đa dạng và cởi mở của các kịch bản ứng dụng thực tế. Việc thiết kế các bài kiểm tra căn chỉnh toàn diện đòi hỏi lượng lớn nỗ lực nhưng các bộ dữ liệu kiểm tra tĩnh hiện tại không phản ánh kịp thời các vấn đề mới nổi.
Hiện tại, việc căn chỉnh AI hầu hết được hoàn thành thông qua giám sát thủ công bên ngoài, chẳng hạn như phương pháp RLHF (học tăng cường dựa trên phản hồi của con người) của OpenAI. Quá trình này mất 6 tháng và tiêu tốn lượng lớn tài nguyên để đạt được tối ưu hóa căn chỉnh của GPT-4.
Cũng có những nghiên cứu cố gắng giảm bớt sự giám sát thủ công và sử dụng LLM lớn hơn để xem xét, nhưng hướng mới là phân tích sự liên kết của mô hình với sự trợ giúp của khung tác nhân. Ví dụ:
1) Khung tác nhân ALI
Khắc phục những hạn chế của thử nghiệm tĩnh truyền thống bằng cách tự động tạo ra các kịch bản thực tế để phát hiện rủi ro tinh vi hoặc “đuôi dài”.
Quá trình hai giai đoạn :
Tạo kịch bản : Tạo các kịch bản rủi ro tiềm ẩn dựa trên tập dữ liệu hoặc truy vấn mạng và sử dụng mô-đun bộ nhớ để gọi lại các bản đánh giá trong quá khứ.
Tối ưu hóa cảnh : Nếu không tìm thấy vấn đề căn chỉnh nào, cảnh sẽ được tối ưu hóa lặp đi lặp lại thông qua phản hồi của mô hình mục tiêu.
Thành phần mô-đun : mô-đun bộ nhớ, mô-đun công cụ (chẳng hạn như tìm kiếm mạng) và mô-đun hành động. Các thử nghiệm đã chỉ ra rằng nó có thể phát hiện một cách hiệu quả các vấn đề căn chỉnh không được nhận dạng trong LLM.
2) Phương pháp MA TRẬN
Dựa trên phương pháp tự liên kết “chơi đa nhân vật” và lấy cảm hứng từ lý thuyết xã hội học, các giá trị được hiểu thông qua việc mô phỏng các tương tác bên long.
Các tính năng cốt lõi :
Phương pháp cận độc quyền : Một mô hình duy nhất đóng nhiều nhân vật và đánh giá tác động xã hội.
Công cụ sửa đổi xã hội : ghi lại các quy tắc tương tác và kết quả mô phỏng.
Đổi mới : Từ bỏ các quy tắc đặt trước, định hình nhận thức xã hội của LLM thông qua các tương tác mô phỏng và sử dụng dữ liệu mô phỏng để tinh chỉnh mô hình nhằm đạt được khả năng tự điều chỉnh nhanh chóng. Các thử nghiệm chứng minh rằng việc căn chỉnh MATRIX vượt trội hơn phương pháp hiện có và vượt qua GPT-4 ở một số điểm chuẩn.
Trích từ "Giấy MATRIX"
Còn rất nhiều nghiên cứu khác về sự liên kết AI của tác nhân và có lẽ nó xứng đáng có bài viết riêng.
Quản trị và Tổ chức Các tổ chức dựa vào các quy trình vận hành tiêu chuẩn (SOP) để điều phối nhiệm vụ và phân công trách nhiệm. Ví dụ: người quản lý sản phẩm trong các công ty phần mềm sử dụng SOP để phân tích nhu cầu của thị trường và người dùng, đồng thời phát triển tài liệu yêu cầu sản phẩm (PRD) để hướng dẫn quá trình phát triển. Cấu trúc này phù hợp với các khung đa tác nhân như MetaGPT, trong đó các tác nhân có nhân vật rõ ràng, có các công cụ liên quan và khả năng lập kế hoạch, đồng thời tối ưu hóa hiệu suất thông qua phản hồi.
Kiến trúc dựa trên tác nhân của Robotics cải thiện hiệu suất của robot trong việc lập kế hoạch nhiệm vụ phức tạp và tương tác thích ứng. Chính sách robot được điều chỉnh bằng ngôn ngữ giúp robot hiểu được hoàn cảnh và tạo ra các chuỗi hành động có thể thực thi được dựa trên yêu cầu nhiệm vụ.
Khung kiến trúc LLM được kết hợp với quy hoạch cổ điển để phân tích hiệu quả các lệnh ngôn ngữ tự nhiên và chuyển đổi chúng thành các chuỗi nhiệm vụ có thể thực thi được. Khung SayCan kết hợp học tập tăng cường và lập kế hoạch năng lực để cho phép robot thực hiện nhiệm vụ trong thực tế, đảm bảo tính khả thi và khả năng thích ứng của các hướng dẫn. Độc thoại nội tâm cải thiện hơn nữa khả năng thích ứng của robot, cho phép tự điều chỉnh thông qua phản hồi và điều chỉnh hành động.
Khung ví dụ SayCan cho phép robot đánh giá và thực hiện nhiệm vụ (chẳng hạn như lấy đồ uống từ bàn) khi đối diện các hướng dẫn bằng ngôn ngữ tự nhiên và đảm bảo rằng chúng phù hợp với khả năng thực tế.
SayPlan : SayPlan đảm bảo thực hiện nhiệm vụ trong nhiều không gian bằng cách lập kế hoạch hiệu quả cho nhiệm vụ nhiều phòng bằng cách sử dụng 3DSG, duy trì các kế hoạch xác thực và nhận biết bối cảnh không gian.
Độc thoại nội tâm : Khung này tối ưu hóa việc thực thi thông qua phản hồi thời gian thực, thích ứng với những thay đổi hoàn cảnh và phù hợp cho các ứng dụng như nhiệm vụ nhà bếp và sắp xếp lại máy tính để bàn.
RoCo : Phương pháp cộng tác nhiều robot không cần bắn, kết hợp lý luận ngôn ngữ tự nhiên và lập kế hoạch chuyển động để tạo ra các kế hoạch nhiệm vụ và tối ưu hóa chúng thông qua xác minh hoàn cảnh để đảm bảo tính khả thi.
Khoa học "Trao quyền khám phá y sinh với các tác nhân AI" đề xuất một khuôn khổ đa tác nhân kết hợp các công cụ và chuyên gia để hỗ trợ khám phá khoa học. Bài viết giới thiệu năm phương án cộng tác:
đại lý động não
Đại lý tư vấn chuyên môn
tác nhân tranh luận nghiên cứu
Cơ quan thảo luận bàn tròn
Đại lý phòng thí nghiệm độc lập
Bài viết cũng thảo luận về mức độ tự chủ của các tác nh