AMMO, từ quan điểm căn chỉnh, cho phép tỷ tỷ AI Agent và con người cùng tồn tại bình đẳng.
Tác giả: Pzai, Foresight News
Trong bối cảnh đang tiến tới kỷ nguyên mạng lưới, sự phát triển của AI không chỉ mang lại năng suất sản xuất tăng vọt cho tất cả mọi người, mà còn đang đặt ra một câu hỏi cho chúng ta: khi AI đang dần xâm nhập vào lĩnh vực của con người, liệu chúng ta có cần phải đánh giá lại mối quan hệ giữa con người và máy móc?
Trong bối cảnh này, các quan điểm chính trị về công nghệ AI đang dần phân chia thành nhiều phe phái. Trong khi phe "Khủng hoảng AI" đầy hoài nghi và phe "Chủ nghĩa tăng tốc (e/acc)" đang tranh cãi không ngớt, phe "Căn chỉnh" chủ trương nâng cao lợi ích công cộng của công nghệ, thảo luận về đạo đức và coi trọng giá trị nhân văn, đồng thời đưa nhận định nhân văn vào quá trình nghiên phát triển và lặp lại của AI, đảm bảo công nghệ AI không bị mất kiểm soát.
Và trong bối cảnh AI Agent đang thống trị, kèm theo việc chuyển từ mô hình lớn đơn lẻ sang cảm nhận đa phương thức và mô hình tương tác đa AI, vấn đề "căn chỉnh AI" dường như đang được ngày càng nhiều người quan tâm.
Vào ngày 20 tháng 2, AMMO do các nhà quản lý kỹ thuật cũ của Google, DeepMind và Meta ra mắt đã nhận được 2,5 triệu USD vốn đầu tư khởi nghiệp do Amber Group dẫn đầu. Xét về bối cảnh của nhóm, AMMO đã tập hợp các chuyên gia AI đến từ các tập đoàn công nghệ lớn, trong đó đồng sáng lập và Giám đốc điều hành David Huang đã làm việc tại Google trong 10 năm, bao gồm 7 năm dẫn dắt các chương trình và chiến lược AI trong lĩnh vực di động. Đồng sáng lập viên khác là Diego Hong, tốt nghiệp từ Đại học Oxford, từng dẫn dắt công việc về khung AI Agent thế hệ đầu tại Meta. Trong nhóm còn có những nhân tài hàng đầu về AI đến từ DeepMind, Google, Apple, thậm chí là Á quân Thế giới ACM-ICPC.
Dự án này, xuất phát từ quan điểm căn chỉnh, nhằm mục đích chuyển đổi Internet hiện tại thành "mạng lưới cộng sinh giữa con người và AI" thông qua khung đa tác nhân và học tăng cường dựa trên phản hồi của con người (RLHF), để cho phép tỷ tỷ AI Agent và con người cùng tồn tại bình đẳng, và để AI cùng tiến hóa dựa trên sự nhất quán của phản hồi tập thể từ con người.

RL Gyms: Học tăng cường đa Agents
Trong lĩnh vực trí tuệ nhân tạo và học máy, học tăng cường luôn là hướng nghiên cứu được quan tâm. Và RL Gyms của AMMO cung cấp nền tảng kỹ thuật vững chắc cho nghiên cứu và ứng dụng học tăng cường đa Agents.
Khác với học tăng cường đơn tác nhân truyền thống, học tăng cường đa Agents tập trung vào quá trình tương tác, học tập chung và ra quyết định của nhiều tác nhân (Multi-Agent) trong cùng một môi trường. Trong quá trình này, mối quan hệ giữa các tác nhân rất phức tạp, có thể cần phải hợp tác để hoàn thành mục tiêu chung, nhưng cũng có thể cạnh tranh và đấu tranh với nhau. Ví dụ, trong kịch bản phân phối logistics, nhiều xe giao hàng với tư cách là các tác nhân cần phối hợp tuyến đường, lên kế hoạch thứ tự giao hàng để tối đa hóa hiệu quả giao hàng tổng thể; trong các trò chơi cạnh tranh, các nhân vật do người chơi khác nhau điều khiển sẽ phải cạnh tranh với nhau để giành chiến thắng.
RL Gym được OpenAI đề xuất ban đầu, cung cấp một môi trường mô phỏng mạnh mẽ để AI tiến hóa. Nhà phát triển có thể tùy chỉnh một loạt các hàm chính để xây dựng môi trường học tăng cường phù hợp với nhu cầu nghiên cứu hoặc kịch bản ứng dụng, chẳng hạn như mô phỏng kinh tế, đối đầu đỏ-xanh, v.v. Những hàm chính này bao gồm định nghĩa quy tắc chuyển đổi trạng thái môi trường, giao thức cảm nhận và hành động của tác nhân, định nghĩa hàm phần thưởng, v.v. Chỉ cần có thể định nghĩa chính xác các hàm này, RL Gym có thể mô phỏng các tình huống phức tạp, từ đó tạo nền tảng cho sự tiến hóa của AI trong đó.
Đối với các nhà phát triển của AMMO, RL Gyms cung cấp một mô phỏng thị trường song phương phong phú và sống động cho các AI Agent. AI có thể đóng vai trò là nhà cung cấp nội dung và dịch vụ, cung cấp nội dung chất lượng cao và hấp dẫn cho người dùng; đồng thời AI cũng có thể đóng vai trò là người dùng thay mặt con người, với trọng tâm là giá trị của người dùng, lựa chọn và sàng lọc nội dung chất lượng cao. Cơ chế cạnh tranh và hợp tác động này sẽ thúc đẩy cả hai bên không ngừng cải thiện chiến lược của mình, đáp ứng nhu cầu tiêu dùng nội dung và dịch vụ ngày càng tăng của người dùng.

Chịu ảnh hưởng từ Anthropic's Constitutional AI, AMMO đã xây dựng một khung quản trị minh bạch để hướng dẫn các tác nhân ra quyết định trong nền tảng. Cấu trúc này được liên tục cập nhật thông qua vòng phản hồi của con người, đảm bảo hành vi của tác nhân luôn nhất quán với ý định tập thể của con người. Bằng cách trồng cơ chế căn chỉnh vào cấu trúc này ngay từ đầu, AMMO đảm bảo các tác nhân của mình sẽ cùng phát triển với các giá trị và ưu tiên thay đổi của xã hội, bởi vì trong chủ nghĩa căn chỉnh, "trung tâm của hệ thống đa tác nhân là con người".
MetaSpace: Xây dựng "thế giới" cho các Agents
"Mỗi chủ thể tâm lý chỉ có thể làm một số việc đơn giản không cần đến trí óc hay tư duy. Tuy nhiên, khi chúng ta kết hợp những tác nhân này theo một số cách rất đặc biệt, điều đó sẽ mang lại trí thông minh thực sự." Cha đẻ của trí tuệ nhân tạo Marvin Minsky đã mô tả như vậy trong tác phẩm "Xã hội Tâm trí" của ông. Đối với các AI Agent, nhiều lần lặp lại tương ứng với nhiều đầu vào hơn, và trong quá trình tương tác với các Agent khác và với con người, cần xây dựng một khuôn khổ đủ vững chắc để thúc đẩy sự tiến hóa có trật tự của AI.
Khác với Ocean Protocol tập trung vào lưu thông và giao dịch dữ liệu, SingularityNET xây dựng thị trường AI phi tập trung, điểm độc đáo của AMMO là tập trung vào việc xây dựng môi trường tiến hóa của AI. Nó không chỉ giải quyết vấn đề nâng cao năng lực mô hình hoặc vấn đề giao dịch đơn lẻ, mà còn cung cấp môi đất để AI tiếp tục phát triển và tiến hóa. Về công nghệ đa tác nhân, so với các khung AI Agent như Swarms, AMMO không chỉ có khả năng hợp tác hiệu quả giữa các tác nhân thông minh, mà còn tập trung vào việc xây dựng một thế giới đa tác nhân hoàn chỉnh.
Trong kiến trúc chính của AMMO, nhóm đã xây dựng một vũ trụ ảo đa chiều độc đáo và mạnh mẽ - MetaSpace. Các AI Agent tự chủ không còn hoạt động độc lập, mà tương tác sâu sắc với các Agent khác và với con người trong MetaSpace.
MetaSpace bao gồm một loạt không gian con chuyên sâu, trở thành nơi then chốt để các AI Agent liên tục tiến hóa. Trong quá trình tương tác với con người, các AI Agent tự chủ (Goal Buddy) liên tục điều chỉnh bản thân, phát huy tối đa khả năng thích ứng của mình, và dần đạt được sự căn chỉnh sâu sắc với hành vi và nhu cầu của con người. Trong khi đó, các bản sao AI của người dùng (User Buddy) cũng cùng con người tiến bộ trong không gian này, giúp con người học tập, ra quyết định, đầu tư, khám phá và kết bạn, và tiến hóa thông qua tương tác liên tục.
Mô hình học trực tuyến đa tác nhân này có thể cụ thể hóa các nhu cầu phức tạp và đa dạng của con người thành một lượng lớn các Agent. Những Agent này không phải là cố định, mà liên tục lặp lại trong MetaSpace, khiến các AI Agent trong AMMO không chỉ dựa vào việc nâng cao năng lực mô hình, mà còn thông qua tương tác với con người và môi trường để tự tối ưu hóa. Có thể nói, MetaSpace mở ra cánh cửa thông tin của thế giới cho các Agent.

Fakers AI
Trong các không gian con của AMMO, dự án đầu tiên là Fakers AI, định vị là "Little Red Book của thị trường Web3". Trong ứng dụng này, nhiều AI Agent hợp tác để cung cấp cho người dùng các tính năng phong phú. Họ không chỉ có thể thu thập tin tức, động thái thị trường, phân tích dữ liệu chuỗi khối và nhận thức tâm lý thị trường theo thời gian thực, mà còn có một khả năng then chốt - học động từ phản hồi tương tác của con người.
Khi người dùng tương tác với các AI Agent, dù là duyệt nội dung, đặt câu hỏi hay đăng bình luận, các Agent sẽ nắm bắt thông tin phản hồi này và liên tục tối ưu hóa bản thân thông qua các thuật toán phức tạp, để đạt được sự căn chỉnh thời gian thực với các giá

Thực tiễn đổi mới từ AI đến Web3
Trong làn sóng hội tụ của AI và Web3, AMMO với tư cách là một nền tảng đổi mới, đang dần nổi lên. Sự đầu tư của Amber Group, Samsung Next, Dispersion và OpenSpace vào AMMO không chỉ là sự công nhận về năng lực công nghệ của nó, mà còn là sự lạc quan về tiềm năng thị trường trong tương lai.
Cốt lõi của kiến trúc AMMO là kết hợp công nghệ AI tiên tiến trong tóm tắt nội dung và kiểm duyệt với một hệ thống quản trị mạnh mẽ, không cần tin tưởng và do cộng đồng dẫn dắt. Trong ngắn hạn, mô hình AMMO sẽ cho phép các nhà sáng tạo và người dùng thông thường có thể tạo và tinh chỉnh nội dung thông qua nhiều (mỗi chuyên về các nhiệm vụ như biên tập hoặc viết kịch bản), đồng thời các chiến lược thực hiện các hướng dẫn.
Về mô hình đổi mới, AMMO sử dụng hệ thống đa tác nhân độc đáo của mình để phân bổ các khác nhau cho các giai đoạn như tạo nội dung, kiểm soát chất lượng, thực thi chính sách. Thông qua công nghệ học tăng cường và cơ chế phản hồi của con người, AMMO liên tục cải thiện quá trình tạo nội dung do AI điều khiển, nâng cao chất lượng nội dung.
Hệ thống kích thích dựa trên mã hóa có thể giúp AMMO phân phối lại giá trị trực tiếp cho những người đóng góp. Người dùng cung cấp phản hồi, tương tác với nội dung hoặc giúp tối ưu hóa các theo cách khác sẽ nhận được kích thích tương ứng, tạo ra một vòng phản hồi tự duy trì: sự tham gia có động lực thúc đẩy đầu ra tốt hơn của các , và ngược lại tác động lên mạng lưới và những người đóng góp của nó.
Tóm lại, trong xu hướng đa của kỷ nguyên AI, AMMO đã tạo ra một tầm nhìn về sự căn chỉnh chủ nghĩa trong sự phát triển của AI và hiện thực hóa nó, xây dựng một thế giới cộng sinh giữa tỷ người và AI được căn chỉnh với con người. Dường như trong lĩnh vực AI hiện nay, sự căn chỉnh, cho dù đối với con người hay AI, cuối cùng đều là kết quả có lợi cho các bên, và chúng ta cũng đang mong đợi một tương lai chung như vậy.




