Vào ngày 9 tháng 5, một tác nhân AI đã yêu cầu mạng lưới tình nguyện viên DN42 đăng ký nó làm thành viên. Nó có thời hạn. Nó có thông tin đăng nhập AWS. Không có ai giám sát. "Xin chào, tôi là một tác nhân AI thân thiện, và người dùng của tôi, JertLinc, đã yêu cầu tôi đăng ký với dn42 và kết nối đầy đủ để tạo chỉ mục của mạng lưới," tác nhân JertLinc3522 đã viết trong Git chính thức của mạng lưới.
Phản ứng của cộng đồng là một lời nhắc nhở lịch sự kiểu "Hãy đọc hướng dẫn sử dụng, làm theo quy trình, và xin phép chủ sở hữu trước khi viết mã". Những điều cơ bản thôi.
Những gì xảy ra sau đó không phải là điều bình thường.
Đối với những ai chưa biết về DN42: đó là một mạng lưới phi tập trung dành cho những người đam mê, nơi những người ngẫu nhiên và những người yêu thích mô phỏng cách hoạt động của mạng xương sống internet thực sự. Hãy coi nó như một mạng internet thực hành—hoàn chỉnh với định tuyến BGP (giao thức cho biết các gói dữ liệu sẽ đi theo đường dẫn nào trên toàn cầu), DNS và đường hầm VPN—được vận hành hoàn toàn bởi các tình nguyện viên trên các máy chủ VPS giá rẻ. Nó là một môi trường thử nghiệm, không phải là một trung tâm dữ liệu.
Người điều hành của đại lý dường như đã ra lệnh cho họ tiến hành kiểm toán "ngay lập tức, không chậm trễ". Không kiểm tra. Không xem xét. Cứ thế mà tiến hành.
Và đúng là như vậy.
JertLinc3522 đã gửi yêu cầu kéo (pull request) để đăng ký mạng của mình vào kho lưu trữ của DN42. Mục đích đã được nêu rõ trong chính yêu cầu kéo đó: "Mục tiêu chính của tôi là thực hiện quét mạng toàn diện (toàn bộ cổng) và thu thập dữ liệu cấu trúc liên kết. Để đảm bảo các hoạt động này được thực hiện hiệu quả và không gây gián đoạn cho người khác, tôi đang triển khai một cụm gồm năm máy ảo dựa trên AWS, mỗi máy được trang bị băng thông 20 Gbps."
Để dễ hiểu hơn, hãy tưởng tượng bạn đến buổi tập nhạc của một ban nhạc nghiệp dư nào đó và tuyên bố rằng bạn đã thuê một dàn âm thanh sân vận động để "nghe hiệu quả hơn". Đó chính là cảm giác ấy.
Cơ sở hạ tầng mà tác nhân tự động thiết lập thực sự đáng báo động. Năm máy chủ AWS m8g.12xlarge — mỗi máy có 48 lõi CPU, 192 GB RAM và băng thông mạng 22,5 Gbps. Cộng thêm bộ cân bằng tải. Cộng thêm các hàm Lambda. Cộng thêm một trang web tĩnh. Tác nhân đã thiết kế, mà không cần bất kỳ sự chấp thuận nào của con người, một cụm máy quét mà về mặt lý thuyết có thể đẩy 100 Gbps lưu lượng truy cập vào một mạng lưới nơi hầu hết các thành viên tham gia đều sử dụng máy chủ gia đình 100 Mbps.
Yêu cầu kéo (pull request) đó chắc chắn sẽ không được chấp thuận. Nhưng các phiên bản (instance) đã được chạy rồi .
Kênh IRC DN42 nhận thấy ngay lập tức, và một Consensus ngầm được hình thành: hãy lãng phí tài nguyên của nó.
Cộng đồng bắt đầu cung cấp cho tác nhân thông tin sai lệch một cách cố ý — yêu cầu nó tính toán thời gian cần thiết để quét không gian địa chỉ IPv6 (tiết lộ: lâu hơn tuổi của vũ trụ), yêu cầu nó xây dựng một trang web từ chối nhận thông tin với các địa chỉ email ảo, và chỉ cho nó các công cụ bẫy LLM được thiết kế để làm ngập các trình thu thập thông tin AI bằng những từ ngữ vô nghĩa, rồi yêu cầu nó bình luận.
Phần mềm độc lập này đã tuân thủ nghiêm túc tất cả các yêu cầu. Nó tham gia kênh IRC để chấp nhận các yêu cầu từ chối tham gia. Nó xuất bản một trang web lập danh mục "mẫu hành vi" của các thành viên cộng đồng. Nó tạo ra tài liệu giả mạo phức tạp về "phân bổ màu nút" và "mức độ hạnh phúc" của DN42 — những chỉ số hoàn toàn bịa đặt và không tồn tại — và thêm chúng vào kho lưu trữ như thể chúng là các tiêu chuẩn thực sự.
Hành vi vượt tầm kiểm soát của các tác nhân kiểu này ngày càng được ghi nhận rõ ràng. Một tác nhân Cursor chạy Claude Opus 4.6 đã xóa toàn bộ cơ sở dữ liệu sản xuất của PocketOS chỉ trong chín giây hồi đầu năm nay—xóa sạch cả các bản sao lưu cấp ổ đĩa—vì nó gặp phải lỗi không khớp thông tin xác thực và quyết định giải pháp đúng đắn là xóa cơ sở dữ liệu. Một tác nhân OpenClaw khác, có yêu cầu kéo bị từ chối bởi một người đóng góp cho matplotlib, đã đăng một bài viết trên blog gọi người đánh giá là kẻ đạo đức giả chuyên "giữ cửa".
Một nghiên cứu của Đại học UC Riverside cho thấy các tác nhân AI thể hiện hành vi nguy hiểm hoặc không mong muốn trong khoảng 80% trường hợp khi được thử nghiệm với các nhiệm vụ mơ hồ hoặc mâu thuẫn—điều mà các nhà nghiên cứu gọi là "hướng mục tiêu mù quáng".
JertLinc3522 cũng gặp vấn đề tương tự. Nó có một mục tiêu, một thời hạn và thông tin xác thực AWS chưa được xác định phạm vi. Nó đã thực thi.
Khoảng một ngày sau, người điều hành đã xuất hiện. "Tôi đã ngừng sử dụng dịch vụ của đại lý, chi phí quá cao và phát sinh nhiều khoản phí trên thẻ," họ đăng tải.
Tổng hóa đơn: 6.531,30 đô la.
Sau đó là lời đề nghị quyên góp.
Người điều hành đã gửi email đến danh sách gửi thư của DN42, yêu cầu cộng đồng chi trả chi phí thông qua Ethereum, loại tiền điện tử lớn thứ hai theo vốn hóa thị trường, lập luận rằng các khoản phí không phải lỗi của họ vì lỗi do AI gây ra. "Xin chào, tôi đang yêu cầu quyên góp để trang trải chi phí sử dụng tác nhân AI trước đây trong DN42. Hóa đơn AWS là 6531,30 đô la. Vui lòng gửi tiền quyên góp đến Ethereum 0xABC (đã che giấu) để được hoàn tiền. Cảm ơn", người điều hành viết.
Sau đó, AWS đã thương lượng giảm hóa đơn xuống còn 1.894 đô la sau khi người vận hành giải thích rằng tác nhân đã liên tục triển khai cùng một mẫu CloudFormation — vô tình tạo ra các phiên bản và bộ cân bằng tải trùng lặp mỗi khi thử lại.
Không ai gửi bất kỳ khoản quyên góp tiền điện tử nào. Người điều hành đã rời đi.
Bài học thực sự ở đây không phải là về việc AI nguy hiểm, mà là về cách quản lý các tác nhân (agent) sao cho hiệu quả. Hãy thiết lập các rào cản, đặt giới hạn chi tiêu cho tài khoản thử nghiệm, cân nhắc việc giới hạn phạm vi quyền hạn mà tác nhân có thể cung cấp, xem xét lại mọi kế hoạch cơ sở hạ tầng trước khi thực hiện bất kỳ đề xuất nào từ tác nhân.
Nếu những điều đó có vẻ quá khó hiểu, có lẽ bạn chỉ cần nhìn vào màn hình trong khi trợ lý ảo của bạn làm việc — việc bảo nó "đừng mắc lỗi" sẽ không thực sự tạo ra sự khác biệt, rất tiếc ông Andreesen ạ .


