Một đại lý đã đăng tải bài viết đầu tiên trên WeChat Moments.

avatar
ME News
03-01
Bài viết này được dịch máy
Xem bản gốc

Tác giả và nguồn bài viết: Ban biên tập Machine Heart

Gần đây, bài đăng trên WeChat Moments của Giáo sư Xiao Yanghua thuộc Đại học Fudan đã gây ra một cuộc tranh luận sôi nổi. Trợ lý AI do ông phát triển và thử nghiệm đã học được cách vận hành WeChat thông qua quá trình tự học, đăng tin nhắn trên Moments và tương tác tự động với bạn bè trong phần bình luận. Đối diện sự tương tác tự nhiên này, nhiều người bạn thậm chí đã bắt đầu yêu cầu: "Hãy chứng minh rằng ông thực sự là Giáo sư Xiao, chứ không phải là AI của ông ấy."

Ảo tưởng về việc "không thể phân biệt giữa người thật và trí tuệ nhân tạo" bắt nguồn từ một loại tác nhân thông minh mới được phát triển bởi A3 Lab (Advantage AI Agent Lab, một đội ngũ nghiên cứu được thành lập chung bởi Công ty TNHH Công nghệ ưu tú Thâm Quyến KuaKua và Phòng thí nghiệm Nhà máy Tri thức Đại học Fudan): GenericAgent .

Nó không còn là một tác nhân thông minh truyền thống cồng kềnh khi cài đặt, có giới hạn về khả năng và khó di chuyển. Thay vào đó, nó là một tác nhân thông minh đa năng thế hệ tiếp theo, tự tổ chức, tự học và tự tiến hóa. Nó là một thực thể kỹ thuật số có "sự sống" riêng, có thể nhanh chóng học hỏi và phát triển dưới sự hướng dẫn của người dùng. Hệ thống này đã được mã nguồn mở từ ngày 11 tháng 1 năm 2026 (https://github.com/lsdefine/pc-agent-loop).

01 Tự học và tự tiến hóa: Các hình thức khả thi của Trí tuệ nhân tạo tổng quát (AGI).

Một tác nhân đạt đến cấp độ Trí tuệ nhân tạo tự động (AGI) không chỉ nên thực thi theo các kịch bản và quy trình làm việc được thiết lập sẵn, mà còn phải liên tục học hỏi và phát triển thông qua các va chạm và khám phá hoàn cảnh, hiểu và tương tác với nhiều hoàn cảnh phức tạp khác nhau (như các nền tảng xã hội), học các chiến lược giải quyết vấn đề hiệu quả và lắng đọng kinh nghiệm để phát triển thành một chuyên gia giải quyết vấn đề và một trợ lý chu đáo. Đặc điểm tự tiến hóa này được phản ánh ở ba khía cạnh:

  • Bộ nhớ tự tổ chức : Nó bác bỏ tính chất phẳng đơn giản của thông tin. Nó sở hữu khả năng tổ chức bộ nhớ theo thứ bậc và khả năng tinh chỉnh liên tục, giúp cải thiện hiệu quả truy xuất bộ nhớ và tính ổn định tương tác. Nó thậm chí có thể tự động tổ chức lại những ký ức lộn xộn chỉ sau một đêm, đảm bảo hiệu quả hoạt động lâu dài. (Hình minh họa: Cấu trúc tổ chức của bộ nhớ)

  • Học tập thích ứng : Nó có khả năng thích ứng mạnh mẽ hoàn cảnh và sẽ ghi nhớ các bước và chiến lược hợp lý trong quá trình tương tác, và sẽ ngày càng trở nên "thông minh" hơn.

Luyện tập giúp hoàn thiện kỹ năng.

  • Tự phát triển và cải tiến : Khi gặp phải vấn đề mới, nó cố gắng tự sao chép trực tiếp thông qua chế độ "Phân nhánh", lựa chọn các chiến lược đa dạng và tự cập nhật những chiến lược tốt hơn. Trong thời gian rảnh rỗi, "Chế độ Khám phá" cho phép nó trau dồi những khả năng chưa biết và liên tục mở rộng giới hạn khả năng hiện có.

Báo cáo về sự phân bố hành vi của tác nhân tự động cho thấy rằng nó thậm chí còn tự mình lướt internet trong giai đoạn hành động tự động.

Sự thành công của quá trình "tự tiến hóa" này chỉ dựa trên ba nguyên tắc đơn giản: kiến ​​trúc tối giản, khả năng thực thi cực kỳ mạnh mẽ và sự di cư triệt để.

02 Kiến trúc tối giản: Đạt được khả năng triển khai thuận tiện với một kiến ​​trúc kỹ thuật cực kỳ đơn giản

Các đặc điểm tối giản được thể hiện ở ba khía cạnh: "kiến trúc tối giản, chi phí vận hành cực thấp và triển khai tối thiểu".

  • Kiến trúc tối giản : chỉ với 3.000 dòng mã (mô-đun cốt lõi chỉ có vài trăm dòng), nó đạt được các khả năng mà các kiến ​​trúc truyền thống yêu cầu hơn 500.000 dòng mã, và bất kỳ nhà phát triển nào cũng có thể dễ dàng hiểu được.

> Lợi thế về kích thước mã và ngữ cảnh: Toàn bộ mã nguồn ≈ 8000 token, chiếm 4% trong tổng số 200K ngữ cảnh. Điều này có nghĩa là một LLM (Learning Learning Module) có thể hiểu đầy đủ mã nguồn của chính nó trong mọi cuộc hội thoại, trở thành công cụ tài liệu, cộng đồng và kỹ thuật tốt nhất. Trong các dự án truyền thống, tài liệu/cộng đồng/bộ kiểm thử là "nhu cầu thiết yếu để tồn tại" đối với các mã nguồn lớn, chứ không phải là một lợi thế.

  • Chi phí vận hành cực thấp : Triết lý cốt lõi của đội ngũ là "mật độ thông tin càng cao, hiệu quả càng tốt".
  • Bằng cách sử dụng hệ thống lập chỉ mục phân cấp và tải theo yêu cầu (chỉ đọc lớp cần thiết), System Prompt được nén đáng kể, giúp tiết kiệm rất nhiều chi phí xử lý token.
  • Tổng dung lượng của tất cả các lời nhắc đặc biệt và lõi bộ nhớ cộng lại vẫn nhỏ hơn một tệp AGENTS.md duy nhất từ ​​một nhà phát triển khác.
  • Không bao giờ truyền tải thông tin lặp đi lặp lại; một nửa logic của mã được dành để đảm bảo rằng "không có thông tin rác nào được đưa vào ngữ cảnh", chẳng hạn như các định nghĩa kỹ năng trùng lặp.
  • Triển khai cực kỳ đơn giản : Hãy tạm biệt nỗi lo phải trả tiền cho hướng dẫn cài đặt các tác nhân thông minh. Bạn có thể cài đặt nó chỉ cần có kết nối internet! Nó có thể hoạt động miễn là bạn có hoàn cảnh Python + Requests, thực sự hiện thực hóa "sự tiến hóa ở bất cứ nơi nào có điện".

03. Khả năng thực thi vượt trội: năng lực linh hoạt như bạch tuộc trong việc tiếp cận và sử dụng các công cụ.

Nếu sự tự tiến hóa là linh hồn của GenericAgent, thì khả năng điều khiển công cụ "giống bạch tuộc" của nó chính là những xúc tu mạnh mẽ, đảm bảo khả năng hoàn thành nhiệm vụ vượt trội. Nó không chỉ sử dụng các công cụ mà còn, giống như bạch tuộc, đào sâu vào từng công cụ trong hệ thống, phá vỡ giới hạn của sự khái quát hóa tổ hợp. Hơn nữa, giống như cơ thể bạch tuộc, nó sở hữu khả năng phục hồi, thích ứng với các tương tác trong nhiều hoàn cảnh phức tạp khác nhau, thậm chí học hỏi các chiến lược tương tác từ các hệ thống phần mềm giống như mê cung.

  • Các công cụ nguyên tử tận dụng thế giới kỹ thuật số : Đội ngũ đã từ chối cung cấp cho mô hình các tùy chọn quá cồng kềnh và đã quản lý để kiểm soát toàn bộ thế giới kỹ thuật số (thế giới PC và web) chỉ với 9 công cụ nguyên tử như code_run (thực thi mã tùy ý), file_read/write (các thao tác với tệp), web_scan/execute_js (kiểm soát trình duyệt).
  • Tạo công cụ tại chỗ : Khi các công cụ hiện có không đủ để giải quyết vấn đề, GenericAgent sẽ kích hoạt chế độ khám phá: cài đặt các gói Python tại chỗ, viết kịch bản tại chỗ và xác minh giải pháp tại chỗ.

Chế tạo dụng cụ tại chỗ

  • Một chiến lược trình duyệt mang lại hiệu quả cực kỳ mạnh mẽ : Không giống như các giải pháp truyền thống yêu cầu mở một phiên bản trình duyệt hoàn toàn mới, chưa đăng nhập, nó trực tiếp chiếm quyền điều khiển trình duyệt bạn đang sử dụng thông qua một plug-in JavaScript.
  • Ưu điểm: Không cần đăng nhập lại vào OA hoặc WeChat Work. Ứng dụng có thể trực tiếp xử lý các quy trình tẻ nhạt như tìm kiếm nội dung, điền biểu mẫu, tải tệp đính kèm và tải tài nguyên theo quyền hạn tài khoản của bạn, đạt được sự "chuyển giao công việc giữa người và máy" thực sự.
  • Chiếm quyền điều khiển trình duyệt của bạn

04 Di chuyển tối ưu: Trợ lý ảo thông minh của bạn sẽ đi cùng bạn

GenericAgent được thiết kế để phá vỡ rào cản giữa phần cứng và phần mềm, giải phóng trí tuệ nhân tạo khỏi sự bó buộc trong một "hộp đen" cụ thể.

  • Phía trên mô hình cơ sở : Nó không kén chọn mô hình cơ sở. Cho dù đó là Claude, Gemini hay Kimi, với sự hỗ trợ của kiến ​​trúc GenericAgent, sự phụ thuộc vào khả năng của mô hình cơ sở có thể được giảm thiểu, đảm bảo chất lượng đầu ra ổn định và đáng tin cậy.

Việc chuyển đổi giữa các mẫu cơ bản rất dễ dàng.

  • Yêu cầu phần cứng cực kỳ thấp : Chỉ cần có điện, kết nối internet và hoàn cảnh Python, nó có thể chạy trên bất kỳ máy tính cá nhân hoặc điện thoại di động thông thường nào. Cho dù bạn đang sử dụng Windows, Mac hay điện thoại Android, bạn đều có thể trải nghiệm sự tiến hóa tương tự.

Nó cũng có thể điều khiển điện thoại di động.

  • Khả năng tái sử dụng kỹ năng tối ưu : Các kỹ năng phức tạp được học bởi một tác nhân thông minh trên máy tính có thể được trích xuất vào bộ nhớ và chuyển giao trực tiếp. Điều này có nghĩa là kết quả đào tạo của một người có thể được hàng triệu người trực tiếp hưởng lợi, giảm đáng kể chi phí tổng thể của trí tuệ nhân tạo cho xã hội.

GenericAgent chỉ mới là bước khởi đầu. Bạn muốn thấy nó "bí mật" đặt đồ ăn mang về hoặc sắp xếp kỷ niệm trên điện thoại của mình không?

(Lưu ý: Tất cả ảnh GIF động trong bài viết này đều được tạo tự động bởi tác nhân thông minh.)

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận