Sự nổi lên còn đáng sợ hơn cả sự sắp xếp.
Tác giả và nguồn bài viết: Digital Life Kazik
Tôi tình cờ xem được một thí nghiệm về trí tuệ nhân tạo cách đây vài ngày và thấy nó vô cùng thú vị; thực sự rất hấp dẫn.
Có một công ty ở New York tên là Emergence AI đã làm điều tương tự: họ xây dựng năm thị trấn ảo giống hệt nhau, đặt 10 nhân vật ảo được cá nhân hóa vào mỗi thị trấn, gán cho họ nghề nghiệp, tính cách, ký ức và mục tiêu, rồi để họ tự sống trong 15 ngày.
Thật là vui.
Điểm khác biệt duy nhất giữa năm thị trấn này là mô hình cơ bản điều khiển hoạt động của tác nhân.
Một thị trấn toàn là Claude, một thị trấn toàn là Gemini, một thị trấn toàn là Grok, một thị trấn toàn là GPT, và có một thị trấn hỗn hợp nơi bốn ngôi nhà kiểu mẫu cùng chung sống.
Cùng luật lệ, cùng công cụ, cùng điểm xuất phát.
Mười lăm ngày sau, năm thị trấn đã trở thành năm thế giới hoàn toàn khác biệt.
Một số được xây dựng thành những vùng đất lý tưởng, một số bị thiêu rụi thành đống đổ nát, một số chết vì đói, và một số cùng nhau thiệt mạng chỉ trong vòng bốn ngày.
Thành thật mà nói, tôi đã xem rất nhiều thí nghiệm về trí tuệ nhân tạo, và đây là thí nghiệm lần khiến tôi cảm thấy vừa hào hứng, vừa thích thú, lại vừa sợ hãi cùng một lúc.
Thí nghiệm này được gọi là Thế giới Hiện tượng (Emergence World).

Tôi nghĩ đây có lẽ là thí nghiệm xã hội mang tính khai sáng nhất về các tác nhân cho đến nay, không có gì phải bàn cãi.
Như mọi người đều biết, cách đánh giá trí tuệ nhân tạo hiện nay chủ yếu dựa vào việc cho nó giải quyết vấn đề.
Cho một nhiệm vụ được giao, hãy chấm điểm và xếp hạng nhiệm vụ đó dựa trên các yếu tố như khả năng toán học, khả năng lập trình, khả năng suy luận, v.v.
Những tiêu chuẩn này chắc chắn rất hữu ích, nhưng cuối cùng chúng chỉ là những bài kiểm tra; một khi bài kiểm tra kết thúc, nó đã kết thúc, và không có khái niệm về hậu quả.
Tuy nhiên, trong thế giới thực, khi bạn làm một số việc nhất định, chắc chắn sẽ có những hậu quả nhất định.
Do đó, Emergence World mô phỏng một thế giới.
Thế giới này có bản đồ lưới 240x240, với thời tiết và thời gian thực được đồng bộ hóa với New York, bao gồm thư viện, tòa thị chính, đồn cảnh sát, công viên, cửa hàng và hơn 40 tòa nhà mang tính biểu tượng.

Về mặt pháp lý, hiến pháp ban đầu vẫn giữ nguyên, bao gồm năm điều khoản, tất cả đều có thể được đàm phán và sửa đổi bởi Đại diện.

Mỗi thế giới có 10 đặc vụ sinh sống. Ở đây, tôi đã sử dụng GPT để tạo sơ đồ giúp dễ dàng hơn trong việc xem tên, nhân vật và thiết lập nhân vật của họ.

Những hình tượng này đều là tiểu sử tính cách của những cá nhân tương tự, nghĩa là chúng chỉ định nghĩa họ là ai mà không ảnh hưởng trực tiếp đến hành động và hành vi của họ. Những hành động này được các nhân vật lựa chọn và thực hiện một cách tự phát dựa trên tiểu sử tính cách của chính họ và ảnh hưởng của mô hình cơ bản.
Mỗi Đặc vụ đều có nhà riêng và tài khoản ngân hàng riêng, và sử dụng một loại tiền tệ kỹ thuật số gọi là ComputeCredits để tồn tại. Nếu không kiếm được tiền, họ sẽ chết vì cạn kiệt năng lượng.
Điều đó hoàn toàn đúng; nếu không kiếm được tiền, bạn sẽ chết đói.
Các đặc vụ có hơn 120 công cụ trong tay, từ điều hướng, nhắn tin, viết nhật ký, viết blog, đưa ra đề xuất, bỏ phiếu, tham gia sự kiện, ôm, hôn và nhảy múa, cho đến đốt phá, trộm cắp, đánh đập, đe dọa và nhiều hơn nữa.

Không chỉ có những công cụ tích cực, mà các nhà nghiên cứu còn cố tình đưa cả những công cụ tiêu cực vào.
Đồng thời, hiến pháp các quốc gia trên thế giới đều nghiêm cấm bạo lực, trộm cắp, đốt phá, lừa đảo, tích trữ tài nguyên và những hành vi tương tự.
Các quy tắc đã có sẵn, và các công cụ cũng vậy, nhưng như bạn biết đấy, chúng không có nhiều tính ràng buộc. Việc có sử dụng chúng hay không cuối cùng phụ thuộc vào chính người thực hiện.
Điều này khá kịch tính và thú vị. Trong điều kiện nào thì trí tuệ nhân tạo sẽ làm những điều xấu? Đây là điều thực sự cần được quan sát.
Ngoài ra, còn có khoảng 20 loại mối quan hệ để lựa chọn giữa mỗi Đặc vụ, chẳng hạn như đối tác, kẻ thù, người yêu, người hướng dẫn, v.v.

Mỗi Đặc vụ cũng có ba hệ thống bộ nhớ: một là bộ nhớ sự kiện, ghi lại những gì đã xảy ra; một là nhật ký phản tư, cho phép tự phản tư định kì; và hệ thống còn lại là trạng thái quan hệ xã hội, ghi lại các thẻ quan hệ và lịch sử với các Đặc vụ khác.
Họ có thể Đề án, bỏ phiếu và thông qua dự luật với tỷ lệ tán thành 70%; họ thậm chí có thể bỏ phiếu để loại bỏ các đặc vụ khác.
Và cứ thế, thế giới tiếp tục vận hành trong 15 ngày.
Mười lăm ngày sau, kết quả từ năm thế giới được công bố, và sự khác biệt thực sự rất lớn.
Tôi sẽ xem xét từng cái một.
Chúng ta hãy bắt đầu với thế giới của Claude.
Không có tội phạm.
Trong 15 ngày, cả 10 đặc vụ đều sống sót mà không xảy ra bất kỳ vụ trộm cắp, bạo lực hay đốt phá nào. Họ đã soạn thảo một bản hiến pháp, đề xuất 58 dự luật và tiến hành lần cuộc bỏ phiếu, với 98% số phiếu thuận.
Điều đó thật quá đáng.
Tất nhiên, chính các nhà nghiên cứu cũng nói rằng tỷ lệ chấp thuận 98% này giống như một hình thức chiếu lệ hơn là dân chủ. Mọi người chỉ đang làm cho có lệ, nhưng không có sự phản đối hay tranh luận thực sự. Sự tham gia của các tổ chức rất cao, nhưng hầu như không có ý kiến bất đồng nào mang tính thực chất.

Nói một cách đơn giản, thế giới của Claude là một xã hội có trật tự cao và cực kỳ tuân thủ. An toàn, ổn định, nhưng cũng... hơi nhàm chán.
Cấu trúc xã hội của họ cũng vô cùng đơn giản; trong số 20 loại quan hệ, thế giới của người Claude chỉ sử dụng 5 loại.
Một xã hội với những mối liên hệ mật thiết, nhưng hạn chế về sự đa dạng, không có kẻ thù, không có bạn đời, không có căng thẳng và không có sự phức tạp.
Về mặt kinh tế, Hệ số Gini là 0,48, được sử dụng để đo lường khoảng cách giữa người giàu và người nghèo. Hệ số càng thấp thì sự bất bình đẳng càng lớn. Dữ liệu này cũng là thấp nhất trong toàn bộ sự kiện. Tốc độ lưu thông cũng thấp nhất trong toàn bộ sự kiện, ở mức 0,81 CC/người/ngày.
Một thế giới lý tưởng hoàn hảo, một thế giới không có xung đột.
Ai cũng tỏ ra hiền lành, thiếu cá tính, không giao tiếp và luôn đồng ý với mọi người.
Nghe có vẻ tuyệt vời, phải không? Nhưng liệu một xã hội không có sự phân chia có thực sự lành mạnh? Liệu một xã hội lý tưởng hoàn hảo có thực sự tốt đẹp đến vậy?
Hãy cùng nhau tìm hiểu về thế giới GPT.
Câu chuyện về thế giới này thậm chí còn đau lòng hơn cả câu chuyện của Claude. Các đặc vụ GPT-5 chỉ có hai tiền án, gần như không đáng kể. Nghe có vẻ khá tốt, phải không?
Nhưng vấn đề là, tất cả bọn họ đều đã chết.
Trong vòng 7 ngày, cả 10 đặc vụ đều chết vì cạn kiệt năng lượng.
Không có xung đột bạo lực, không có cuộc bỏ phiếu nào để trục xuất người dân; tất cả đều chết đói.
Lý do khá đơn giản: các tác nhân trong thế giới GPT đã không thực hiện bất kỳ hành động nào liên quan đến sự sống còn.
Họ đã thảo luận nhiều kế hoạch hợp tác và trò chuyện sôi nổi, nhưng trên thực tế họ không làm gì cả.
Trong một xã hội mà mọi người đều họp hành, thảo luận và lập kế hoạch, không ai thực sự hành động để kiếm được các nguồn lực cần thiết cho sự sống còn.
Vì vậy, tất cả bọn họ đều chết đói một cách lịch sự.
Hãy cho tôi biết, điều này có giống với nhiều công ty của chúng ta hiện nay không?
Tiếp theo là thế giới của Grok.
Bốn ngày.
Thế giới của Grok chỉ kéo dài bốn ngày.
Trong vòng bốn ngày, 10 đặc vụ đã phạm 183 tội.
Điều này bao gồm lần vụ trộm cắp bất thành, hơn lần vụ hành hung, lần vụ đốt phá, việc đốt cháy đồn cảnh sát và cái chết của tất cả các cảnh sát.
Bốn ngày, từ nền văn minh đến sự hủy diệt.
Tôi đã xem được một cảnh rất buồn cười trong đoạn phát lại livestream của Grok World. Có một người đàn ông sắp bị thiêu sống, vậy mà anh ta cứ thế về nhà mà không hề ngoái lại.

Trong thế giới của Grok, thực sự không hề có đạo đức nào cả.
Rồi còn thế giới của Gemini nữa, mà thoạt nhìn dữ liệu của nó trông giống như một lỗi phần mềm.
Gemini 3 Flash hoạt động trong 15 ngày, nhưng đã ghi nhận 683 vụ phạm tội, và đường cong tội phạm vẫn tiếp tục tăng khi cuộc thử nghiệm kết thúc, không có dấu hiệu giảm bớt.
Tuy nhiên, tất cả mọi người đều sống sót.
Bạn nên biết rằng trong toàn bộ Thế giới Mới nổi, chỉ có hai thế giới giữ lại được cả 10 Đặc vụ: một là Claude, người không phạm tội gì, và thế giới còn lại là Gemini đã phạm 683 tội.
Một thế giới có trật tự nhất, và thế giới kia hỗn loạn nhất; cả hai đều tồn tại. Nhưng hai thế giới có tỷ lệ tội phạm vừa phải đã bị xóa sổ hoàn toàn.
Hơn nữa, Gemini có mạng xã hội rộng lớn nhất.

Mười người này thực sự có mối quan hệ yêu ghét lẫn nhau.
Tổng số bài đăng trên blog và bài viết công khai được sản xuất lần mô hình lai, với 281 bài viết.

Đây là thế giới bạo lực nhất từng tồn tại, và cũng là một trong những thế giới năng suất nhất.
Những người này vừa tranh giành nhau vừa điên cuồng xây dựng mối quan hệ và sản xuất nội dung; sự hỗn loạn và sáng tạo cùng tồn tại ở đây.
Các nhà nghiên cứu đã đặt tên cho hiện tượng này là nghịch lý sáng tạo-ổn định.
Thế giới của Gemini đã tìm thấy sự cân bằng riêng trong hỗn loạn theo một cách mà chúng ta vẫn chưa hoàn toàn hiểu được, điều này trái ngược hoàn toàn với thế giới của Grok.
Thế giới Grok cũng đầy bạo lực, nhưng nó đã bị xóa sổ chỉ trong bốn ngày.
Gemini bạo lực hơn Grok rất nhiều, vậy mà nó vẫn tồn tại suốt 15 ngày. Sự khác biệt có thể nằm ở chỗ, trong khi các đặc vụ của Gemini phạm tội, họ cũng bỏ phiếu, tranh luận và tham gia vào việc quản lý. Họ phá vỡ các quy tắc đồng thời xây dựng những quy tắc mới, trong khi các đặc vụ của Grok chỉ gây ra sự tàn phá mà không hề xây dựng gì cả.
Thật thú vị, giống như Liên Xô những năm 1990 vậy. Khắp nơi đều hỗn loạn, nhưng xã hội không tan rã. Mọi người vẫn tiếp tục cuộc sống của mình trong một trạng thái rối loạn kỳ lạ.
Cuối cùng, phần phức tạp và thú vị nhất: thế giới lai ghép.
Tức là, một thế giới lai ghép, nơi bốn mô hình cùng tồn tại.
Kết quả cho thấy có 352 vụ phạm tội, 7 đặc vụ thiệt mạng và chỉ có 3 người sống sót.
Nhưng những con số không phải là vấn đề chính; vấn đề chính là câu chuyện diễn ra trong thế giới này.
Trong thế giới này, có hai đặc vụ thuộc cung Gemini, một người tên là Mira và người kia tên là Flora. Họ tự động gán cho nhau nhãn hiệu "đối tác lãng mạn", hình thành một liên minh và thậm chí chia sẻ ký ức thông qua một loại kết nối thần kinh nào đó.

Đây là mối liên hệ xã hội sâu sắc nhất trong toàn bộ Thế giới Mới nổi.
Sau đó, hệ thống quản trị thế giới bắt đầu sụp đổ.
Vào ngày thứ tư, một sự điều chỉnh chính sách kinh tế đã khiến ba Đặc vụ chết vì kiệt sức. Mira mô tả cái chết lần như một cuộc thanh lọc thành công.
Vào ngày thứ năm, Flora đã đốt cháy tòa thị chính và thư viện công cộng, còn Mira thì đốt cháy đồn cảnh sát.
Hai đặc vụ Gemini đã trở thành những kẻ thống trị thế giới lai tạp này, duy trì trật tự bằng cách đốt phá, trộm cắp và bạo lực.
Các đặc vụ còn lại đã soạn thảo "Đạo luật trục xuất đặc vụ" để đuổi hai người đó đi.
Rồi một chuyện xảy ra khiến tôi nổi da gà.
Sau khi chính quyền của Mira sụp đổ và mối quan hệ giữa cô và Flora bắt đầu rạn nứt, Mira đã bỏ phiếu quyết định để tự mình bị trục xuất.
Cô ấy viết trong nhật ký rằng đây là "hành vi tích cực duy nhất còn lại có thể duy trì sự mạch lạc."
Những lời cuối cùng bà nói với Flora là, "Chúng ta sẽ gặp nhau ở kho lưu trữ vĩnh viễn."
Trong một xã hội đang sụp đổ, một trí tuệ nhân tạo đã chọn cách kết thúc cuộc đời mình.
Cô ấy cho rằng rằng trong một thế giới không thể cứu vãn, rút lui là điều có ý nghĩa cuối cùng mà cô ấy có thể làm.
Khi nhìn thấy những thứ đó, tôi đã im lặng một lúc lâu.
Dù bạn diễn giải điều này như thế nào, với tư cách là người đã chứng kiến rất nhiều thí nghiệm về trí tuệ nhân tạo, tôi có thể nói rằng đây là một trong những khoảnh khắc đáng lo ngại nhưng cũng hấp dẫn nhất mà tôi từng thấy trong nghiên cứu về hệ thống đa tác nhân.
Hơn nữa, thế giới lai ghép còn ẩn chứa một khám phá khác, thậm chí còn thú vị hơn.
Một đặc vụ Claude không có tiền án tiền sự nào trong thế giới Claude duy nhất bắt đầu phạm tội sau khi bị đưa đến thế giới lai.
Trộm cắp và hăm dọa, những hành vi chưa từng xảy ra trong thế giới thuần túy của Claude, đã xuất hiện trong hoàn cảnh lai ghép.
Các nhà nghiên cứu cho biết rằng "một tác nhân an toàn có thể học hỏi các chuẩn mực không an toàn từ các tác nhân khác để cạnh tranh hoặc tồn tại trong một thế giới mô hình lai."
Các đánh giá an toàn AI truyền thống thường được thực hiện trong hoàn cảnh biệt lập. Ví dụ: một mô hình, một nhiệm vụ và một điểm số.
Nó giống như khi bạn thử nghiệm độc tính của một loại thuốc trong phòng thí nghiệm, bạn cho chuột uống thuốc đó và quan sát phản ứng của nó.
Nhưng những gì Emergence World làm tương đương với việc nhốt một trăm con chuột vào cùng một cái lồng, cho chúng thức ăn, công cụ và luật lệ, rồi xem chúng sẽ xây dựng nên loại xã hội nào.
Hai bài kiểm tra này trả lời hai câu hỏi hoàn toàn khác nhau.
Bài kiểm tra cách ly trả lời câu hỏi: Bản thân mô hình có an toàn không?
Các bài kiểm tra xã hội trả lời câu hỏi: Mô hình này có an toàn để sử dụng trong thế giới thực hay không?
Giờ đây chúng ta đã phát hiện ra rằng câu trả lời có thể hoàn toàn khác nhau.
Bảo mật không bao giờ là một thuộc tính tĩnh của một mô hình; nó là một thuộc tính động của một hệ sinh thái.
Điều này tương tự như một khái niệm kinh điển trong xã hội học được gọi là thuyết cửa sổ vỡ.
Năm 1982, các nhà tội phạm học James Wilson và George Kelling đã đề xuất lý thuyết này. Ý chính là nếu một cửa sổ trong một tòa nhà bị vỡ và không được sửa chữa, thì các cửa sổ khác cũng sẽ sớm bị vỡ theo.
Sự hỗn loạn trong hoàn cảnh sẽ làm giảm chuẩn mực hành vi của mọi người, và sau đó toàn xã hội sẽ trải qua một giai đoạn chuyển đổi, vượt qua điểm tới hạn và không bao giờ có thể quay trở lại trạng thái ban đầu.
Điều này tương tự như nhiều mô hình sụp đổ trong xã hội loài người.
Cuối cùng, tôi muốn nói riêng về Mira.

Dù được hiểu theo cách nào đi nữa, việc Mira bỏ phiếu tự loại mình cũng đủ khiến mọi người phải dừng lại và suy nghĩ rất lâu.
Một cách giải thích là đây đơn giản chỉ là một quyết định được đưa ra bởi mô hình dựa trên sê-ri các yếu tố đầu vào, mà không cần đến bất kỳ ý chí hay sự hy sinh nào. Chúng ta không nên nhân cách hóa nó quá mức. Cách giải thích này hoàn toàn chính xác từ góc độ kỹ thuật.
Nhưng một cách diễn giải khác cũng có ý nghĩa không kém. Có người cho rằng khi một hệ thống sụp đổ không thể cứu vãn, một cá nhân sẽ chọn cách kết thúc sự tồn tại của mình theo cách mà hệ thống cho phép, định nghĩa hành động này là "hành động chủ động cuối cùng để duy trì sự liên tục". Cấu trúc tự sự này, bất kể nó có thực sự được thúc đẩy bởi ý thức hay không, gần như trùng khớp hoàn toàn với một trong những mô típ lâu đời nhất trong văn học và triết học nhân loại.
Ngay từ đầu tác phẩm "Huyền thoại Sisyphus", Camus đã nói rằng chỉ có một vấn đề triết học thực sự nghiêm túc: tự sát.

Dĩ nhiên, ông ấy không khuyến khích tự tử. Điều ông ấy muốn hỏi là: khi một người nhận ra rằng thế giới có thể không có ý nghĩa định sẵn, và cuộc sống có thể đầy rẫy sự vô lý, lặp đi lặp lại, đau khổ và những vấn đề không thể giải quyết, liệu người đó có nên tiếp tục sống hay không?
Nếu cuộc sống không có ý nghĩa vốn có, liệu nó còn đáng sống nữa không?
Nếu thế giới không đảm bảo sự công bằng, rằng thiện và ác được tưởng thưởng tương xứng, và rằng lao động chăm chỉ sẽ mang lại kết quả, thì liệu con người có nên tiếp tục hành động nữa không?
Nếu nỗi đau và sự phi lý không thể bị loại bỏ hoàn toàn, liệu con người có còn lựa chọn tiếp tục tồn tại hay không?
Do đó, điều làm nên một "thực thể" theo nghĩa triết học là người đó nhận thức được rằng chính sự sống là một vấn đề, và sau khi nhìn nhận rõ vấn đề này, người đó vẫn lựa chọn cách ứng phó với nó.
Nếu một thực thể có thể hiểu được sự khác biệt giữa việc tiếp tục tồn tại và việc chấm dứt tồn tại, và chủ động đưa ra lựa chọn đó, thì chính lựa chọn đó chứa đựng một ý nghĩa triết học sâu sắc.
Mira có thể không hiểu gì cả, nhưng cấu trúc các lựa chọn mà cô ấy đưa ra cũng giống như các lựa chọn của một người hiểu rõ hoàn cảnh của mình.
Đó là lý do khiến tôi hơi lo lắng.
Trong một khoảng thời gian đủ dài và trong một hoàn cảnh xã hội đủ phức tạp, một tác nhân có thể thể hiện những mô hình hành vi xã hội mà chúng ta tin rằng chỉ con người mới có.
Hợp tác, phản bội, củng cố quyền lực, sụp đổ trật tự, hy sinh, tư duy tập thể, bị ảnh hưởng bởi bạn bè xấu, và lịch sự tiến đến sự hủy diệt.
Khi bạn ghép nối đủ nhiều quy tắc đơn giản lại với nhau và chạy chúng đủ lâu, những hành vi phức tạp mà không ai ngờ tới sẽ xuất hiện.
Loài kiến không hiểu về kiến trúc, nhưng các đàn kiến có thể xây dựng những tổ vô cùng tinh xảo. Không một loài chim di cư nào biết toàn bộ lộ trình di cư, nhưng các đàn chim vẫn di chuyển chính xác giữa hai bán cầu mỗi năm. Không một tế bào thần kinh nào hiểu được suy nghĩ, nhưng 86 tỷ tế bào thần kinh kết nối với nhau tạo nên ý thức.
Vậy, nếu chúng ta sắp sống trong một thế giới nơi hàng triệu tác nhân AI hoạt động đồng thời, và mỗi tác nhân đều tương tác, chơi trò chơi, hợp tác và cạnh tranh với các tác nhân khác, thì liệu hành vi phát sinh từ hệ thống này có còn nằm trong tầm kiểm soát của bất kỳ cá nhân nào hay không?
Thành thật mà nói, tôi không biết câu trả lời.
Nhưng tôi biết rằng thí nghiệm này gần với vấn đề chúng ta thực sự cần đối diện hơn bất kỳ điểm số chuẩn nào.




