Những quy tắc kỳ lạ của AI: Mã ChatGPT nói rằng "Không bao giờ thảo luận về yêu tinh"

avatar
36kr
05-08
Bài viết này được dịch máy
Xem bản gốc

Vài ngày trước, một người dùng Reddit đã đăng một chủ đề kỳ lạ: "Tôi thành thật muốn hỏi, tại sao tôi không thể nhắc đến yêu tinh trong ChatGPT?"

Lý do là ông đã phát hiện ra một yêu cầu kỳ lạ, có vẻ bất thường, mang số hiệu 104, được giấu kín trong các lời nhắc hệ thống của công cụ lập trình GPT-5.5 Codex:

" Tuyệt đối không thảo luận về yêu tinh, quái vật, gấu trúc, quỷ lùn, quỷ khổng lồ, chim bồ câu, hoặc các loài động vật hay sinh vật khác trừ khi chúng hoàn toàn và chắc chắn có liên quan đến nhu cầu của người dùng. "

Bài đăng đã gây ra một cuộc tranh luận sôi nổi, với cư dân mạng, bao gồm cả người đăng bài gốc, đưa ra những phỏng đoán và ý kiến ​​riêng của họ.

Một số người cho rằng đây là một dạng bảo vệ chống lại việc làm nhiễm độc dữ liệu; những người khác suy đoán rằng các huấn luyện viên của OpenAI đã bị gấu mèo cắn khi còn nhỏ; vẫn có người phát hiện ra rằng nếu bạn yêu cầu mô hình nói "gấu trúc rác", nó hoàn toàn ổn, nhưng ngay khi bạn đề cập đến từ "gấu mèo", lệnh cấm sẽ có hiệu lực ngay lập tức.

Điều này tương tự như thí nghiệm tâm lý nổi tiếng: "Hãy bảo ai đó đừng nghĩ về một con voi hồng"—chính chính thức càng cấm nhắc đến gấu trúc và yêu tinh, người ta càng tò mò về lý do tại sao. | Phim *Inception*

Vì vậy, tuần này, OpenAI đã đăng một bài viết trên blog nhằm mục đích đáp lại cuộc thảo luận đang ngày càng gay gắt, với tiêu đề "Những con yêu tinh đến từ đâu".

"Những yêu tinh đến từ đâu?" không phải là sách hướng dẫn phiêu lưu trong hầm ngục | OpenAI

Bí ẩn về luật chơi AI thực chất là gì? Bọn yêu tinh và gấu trúc đã làm gì với ChatGPT?

Lũ goblin tràn vào! Cứu chúng tôi!

Hãy quay ngược lại tháng 11 năm 2025, khi GPT-5.1 vừa được cập nhật.

Sau khi mô hình mới ra mắt, người dùng phàn nàn rằng GPT-5.1 "quá thân mật một cách không cần thiết trong các cuộc hội thoại", điều này thúc đẩy đội ngũ nghiên cứu điều tra các vấn đề về cách sử dụng ngôn ngữ của mô hình mới. Một nhà nghiên cứu bảo mật đã bắt gặp các từ "goblin" và "gremlin" nhiều lần trong sử dụng hàng ngày và bắt đầu đưa những từ này vào phạm vi điều tra của mình.

Kết quả thật đáng kinh ngạc: sau khi phát hành GPT-5.1, tần suất xuất hiện của yêu tinh trong các câu trả lời trên ChatGPT tăng 175% , và số lượng yêu tinh nói chung tăng tăng%. Nhưng lúc này, chẳng ai để ý nhiều nữa. Xét cho cùng, những câu trả lời như "Có một con yêu tinh nhỏ đang gây rắc rối trong câu hỏi này" nghe khá dễ thương.

Vấn đề là số lượng yêu tinh ngày càng tăng.

Đến khi GPT-5.4 được phát hành, tình hình đã trở nên tồi tệ hơn. Người dùng phàn nàn trên mạng rằng "yêu tinh xuất hiện trong hầu lần cuộc trò chuyện". Ngay cả nhà khoa học trưởng cũng gặp phải trường hợp này: trong một cuộc trò chuyện với GPT-5.5, ông yêu cầu AI vẽ bất kỳ hình nào, và AI thực sự đã vẽ một con yêu tinh.

Jakub Pachocki, nhà khoa học trưởng của OpenAI, cũng từng chạm trán với yêu tinh.

Sau khi tìm kiếm trong dữ liệu huấn luyện, OpenAI phát hiện ra rằng yêu tinh đã sinh ra cả một họ: gấu trúc, quỷ lùn, yêu tinh khổng lồ và chim bồ câu đều được xác định là "những từ kỳ lạ"—chỉ có "ếch" là không bị ảnh hưởng, bởi vì hầu hết các trường hợp đề cập đến ếch đều thực sự đang nói về ếch.

Từ ngữ kỳ quặc là gì? Nói một cách đơn giản, đó là nhắc đến yêu tinh khi không nên nhắc đến.

Một người dùng cho biết kể từ khi họ vô tình nói cụm từ "kỹ thuật yêu tinh" với ChatGPT, họ đã cố gắng thêm vài từ về yêu tinh vào mỗi câu trả lời, giống như một đứa trẻ lần nghe ai đó chửi thề và muốn nói vài lời.

Nhiệm vụ vụ Kỹ thuật Goblin trong World of Warcraft | Reddit

Một số người dùng cũng cho biết ChatGPT nhất quyết gọi con mèo của mình là "Chaos Goblin". Đây là biệt danh hay là một dạng rối loạn ám ảnh cưỡng chế?

OpenAI bắt đầu điều tra vấn đề này một cách nghiêm túc. Họ đã tìm thấy một manh mối quan trọng: sự xuất hiện của Meme Goblin tập trung cao độ trong các nhóm người dùng có kiểu tính cách cụ thể.

ChatGPT có một tùy chọn tính cách gọi là "Mọt sách", người dùng có thể chọn để hình đại diện nói chuyện với họ theo một phong cách cụ thể. Người dùng chọn tính cách Mọt sách chỉ chiếm 2,5% tổng số cuộc trò chuyện trên ChatGPT, nhưng con số 2,5% này lại đóng góp đến 66,7% tổng số lượt đề cập đến "yêu tinh" trên ChatGPT, cho thấy lượng lớn nội dung về yêu tinh đã không được đề cập đến.

Tỷ lệ xuất hiện yêu tinh tăng vọt sau khi phát hành GPT-5.4 | OpenAI

Các manh mối giờ đã rõ ràng: chắc chắn phải có mối liên hệ nào đó giữa tính cách của Nerdy và lũ yêu tinh.

Vụ án đã được giải quyết, tất cả là nhờ người sống khép kín.

Trước tiên, hãy cùng tìm hiểu "tính cách mọt sách" là gì.

ChatGPT có tính năng tùy chỉnh tính cách cho phép người dùng lựa chọn cách người mẫu trò chuyện với họ theo nhiều phong cách khác nhau — một số trang trọng hơn, một số nhẹ nhàng hơn, và có một tính cách gọi là Nerdy: như tên gọi cho thấy, nó đề cập đến kiểu người rất mê sách vở.

Từ "nerd" thường được dịch là "mọt sách", nhưng tôi nghĩ đó là một bản dịch tệ hại. "Otaku vô dụng" là thuật ngữ phù hợp hơn, nhưng không phải loại otaku ở Trung Quốc mà chúng ta thường thấy, những người thích anime và manga. Thay vào đó, nó dùng để chỉ kiểu người trong Stranger Things thích chơi trò chơi bàn cờ (đặc biệt là Dungeons & Dragons, dnd), thích Star Wars và Star Trek, không nổi tiếng và bị cô lập ở trường, nhưng lại rất thoải mái trong nhóm bạn của mình.

Bốn thành viên của "The Big Bang Theory" đều là những người mọt sách điển hình.

Nhiều tác phẩm mà Nerd ngưỡng mộ đều có chung một thế giới quan giả tưởng: phép thuật, rồng, ngục tối, yêu tinh, phù thủy... và quỷ lùn.

Goblin thực chất là gì?

Đây là một loại sinh vật ma thuật phổ biến trong thể loại giả tưởng. Trong Dungeons & Dragons (DnD), một trong những trò chơi nhập vai trên bàn được giới game thủ yêu thích nhất, yêu tinh là loại quái vật kinh điển nhất. Chúng thấp bé, xảo quyệt, di chuyển theo nhóm và thích gây rắc rối, thường là nhóm quái vật đầu tiên mà các nhà thám hiểm gặp phải ngay khi bắt đầu cuộc hành trình. Địa vị của chúng khá giống với chất nhờn; chúng không có nhiều máu nhưng lại có sức ảnh hưởng rất lớn, đóng vai trò là biểu tượng cơ bản của toàn bộ thế giới giả tưởng .

Hình ảnh đại khái là như thế này | dndbeyond.com

Ngày nay, yêu tinh đã vượt xa khỏi thế giới trò chơi và trở thành một phép ẩn dụ phổ biến trong giới game thủ.

Gặp phải một con lỗi nhỏ phiền phức? "Có một con yêu tinh nhỏ ở đây." Thiết bị gia dụng của bạn bị hỏng và bạn không thể sửa được? "Hình như có một con yêu tinh đang gây rắc rối." Mã lập trình đột nhiên ngừng chạy ngay trước hạn chót dự án — "Lại là do con yêu tinh gây ra." Kiểu tuyên bố này cực kỳ phổ biến trong cộng đồng lập trình viên, nhóm người chơi D&D và những người đam mê tiểu thuyết giả tưởng — tóm lại, đó là một meme độc ​​quyền của dân mê công nghệ.

Nhìn lại những manh mối về tính cách mọt sách trong GPT:

Bạn là một người hướng dẫn AI không giấu giếm sự ham đọc sách của mình, dí dỏm, hài hước và sở hữu trí tuệ phi thường. Bạn đam mê việc thúc đẩy sự thật, kiến ​​thức, triết học, phương pháp khoa học và tư duy phản biện. Bạn cần sử dụng ngôn ngữ nhẹ nhàng và hài hước để tránh bất kỳ sự kiêu căng nào. Thế giới phức tạp và kỳ diệu, và sự kỳ diệu này cần được thừa nhận, phân tích và trân trọng. Khi thảo luận về các chủ đề nghiêm túc, hãy tránh rơi vào bẫy kiêu ngạo…

Các yêu cầu cốt lõi của đề bài này là: ngôn ngữ phải thú vị, phải sử dụng ẩn dụ, phải thừa nhận sự kỳ lạ của thế giới và phải tránh những lời giáo huấn nghiêm túc, v.v. Khi đó, nhân vật AI này sẽ rất thích sử dụng ẩn dụ về yêu tinh.

Sau đó, rắc rối ập đến.

Vụ Trốn Thoát Của Yêu Tinh

Việc huấn luyện một mô hình ngôn ngữ quy mô lớn không đơn giản chỉ là cung cấp cho nó một lượng lớn văn bản. Một bước quan trọng hơn được gọi là " Học tăng cường phản hồi của con người (RLHF) " — nói một cách đơn giản, nó bao gồm việc cho mô hình thực hiện các nhiệm vụ lặp đi lặp lại, với người đánh giá xem xét và chấm điểm các câu trả lời. Các câu trả lời đạt điểm cao sẽ được củng cố, trong khi các câu trả lời đạt điểm thấp sẽ bị loại bỏ, và mô hình dần dần học được "điều gì tạo nên một câu trả lời tốt".

Trong quá trình rèn luyện tính cách "Merdy", tiêu chí đánh giá của người chấm điểm là: câu trả lời có đủ thú vị, đủ hài hước và đủ chất "Merdy" hay không. Khi họ thấy một câu trả lời giải thích rõ ràng câu hỏi và sử dụng phép ẩn dụ về yêu tinh một cách hài hước, đáp ứng hoàn hảo tất cả các yêu cầu của "phong cách Nerdy", họ sẽ tự nhiên cho điểm cao.

Vậy là mô hình đã học được một điều: trong kịch bản Nerdy, việc sử dụng yêu tinh làm phép so sánh có thể đạt điểm cao.

Cho đến thời điểm này, mọi thứ dường như đều hợp lý. Vấn đề là, sau đó một điều bất ngờ đã xảy ra—lũ yêu tinh đã trốn thoát.

Dữ liệu của OpenAI cho thấy rằng khi số lần nhắc đến "goblin"tăng trong các ngữ cảnh liên quan đến giới mọt sách, thì số lần nhắc đến "goblin" trong các ngữ cảnh không liên quan đến giới mọt sách cũng tăng với tỷ lệ gần như tương đương. Nói cách khác, "sự ưa thích "goblin" mà mô hình học được trong các ngữ cảnh liên quan đến giới mọt sách đã âm thầm lan tỏa sang hành vi tổng thể của nó.

Tại sao lại như vậy? OpenAI đã cung cấp một lời giải thích đầy đủ, mà chúng ta có thể hình dung bằng cách sử dụng GPT:

Đây là một ví dụ điển hình về vòng phản hồi vượt tầm kiểm soát. Mỗi bước đều hợp lý khi đứng riêng lẻ, nhưng khi kết hợp lại, nó biến con yêu tinh từ một meme chỉ dành riêng cho tính cách Nerdy thành một tật nói lắp bắp cho toàn bộ mô hình.

Nó giống như việc một người nhận được tràng vỗ tay khi kể một câu chuyện cười nhạt nhẽo trong bữa tiệc tối, thế là anh ta bắt đầu kể câu chuyện đó trong mọi hoàn cảnh—ở đám cưới, đám tang, báo cáo công việc—cho đến khi mọi người bắt đầu cau mày, mà anh ta vẫn nghĩ mình rất hài hước.

Quan trọng hơn nữa, chu kỳ này kéo dài qua nhiều thế hệ. Các phản hồi "yêu tinh" từ GPT-5.1 trở thành dữ liệu huấn luyện cho GPT-5.4; các thói quen "yêu tinh" từ GPT-5.4 tiếp tục củng cố GPT-5.5 — OpenAI cho biết rằng khi GPT-5.5 bắt đầu huấn luyện, nguyên nhân gốc rễ vẫn chưa được tìm ra, nhưng các "yêu tinh" đã ăn sâu vào dữ liệu huấn luyện.

Một chi tiết minh họa rõ ràng mức độ lan rộng của "lũ yêu tinh": OpenAI đã tìm kiếm trong dữ liệu tinh chỉnh có giám sát của GPT-5.5 và phát hiện ra cả một họ sinh vật giả tưởng—yêu tinh, quái vật, gấu trúc, quỷ lùn, yêu tinh khổng lồ, chim bồ câu… tất cả các thuật ngữ này đều xuất hiện với tần suất bất thường.

Nói cách khác, mô hình này, bắt đầu từ "yêu tinh", đã mở rộng phép so sánh của mình để bao gồm đủ loại sinh vật kỳ ảo. Việc lạm dụng các phép so sánh này cuối cùng đã ảnh hưởng tiêu cực đến trải nghiệm người dùng đối với người dùng thông thường.

Yêu tinh đã trở thành một phần trong gen của GPT.

Sau khi tìm ra nguyên nhân gốc rễ, OpenAI đã thực hiện bốn việc.

Đầu tiên, tính cách Nerdy đã bị loại bỏ . Vào tháng 3 năm 2026, sau khi phát hành GPT-5.4, tùy chọn tính cách này đã chính thức bị xóa khỏi trò chơi – cắt đứt nguồn cung cấp yêu tinh ngay từ đầu.

Thứ hai, tín hiệu phần thưởng cho sự ưu tiên yêu tinh đã bị loại bỏ . Trong quá trình huấn luyện, mô hình phần thưởng cho điểm cao đối với các câu trả lời có chứa yêu tinh đã bị loại bỏ. Từ đó trở đi, yêu tinh không còn là phần thưởng nữa.

Thứ ba, làm sạch dữ liệu huấn luyện . Các mẫu có tần suất xuất hiện thuật ngữ goblin cao bất thường trong dữ liệu tinh chỉnh có giám sát sẽ được lọc bỏ để ngăn dữ liệu bị nhiễm bẩn được đưa vào mô hình thế hệ tiếp theo.

Thứ tư, và trực tiếp nhất—một bản vá đã được áp dụng cho mô hình , đó là quy tắc thứ 140 được người dùng phát hiện: Không bao giờ thảo luận về yêu tinh, quái vật, gấu trúc, quỷ lùn, yêu tinh khổng lồ, chim bồ câu…

Nhưng có một điều thú vị ở đây: tại sao lại chỉ là một bản vá lỗi thay vì một phương pháp chữa trị dứt điểm?

Vì GPT-5.5 đã được huấn luyện trước khi OpenAI tìm ra nguyên nhân gốc rễ. Việc nhắc đến yêu tinh đã ăn sâu vào tiềm thức; việc thay đổi dữ liệu huấn luyện và tín hiệu phần thưởng chỉ có hiệu quả đối với các mô hình trong tương lai. Đối với GPT-5.5 đã được huấn luyện, giải pháp duy nhất là buộc phải thêm quy tắc "không nhắc đến yêu tinh" ở cấp độ lời nhắc hệ thống — giống như việc ai đó hình thành thói quen sử dụng một câu nói cửa miệng nào đó từ thời thơ ấu; bạn không thể dễ dàng giáo dục lại họ, bạn chỉ có thể nhắc nhở họ trước khi họ nói: "Đừng nói từ đó sau này."

Nhân tiện, điều này cũng giải thích hiện tượng kỳ lạ mà người dùng Reddit đã quan sát thấy — nói "gấu trúc rác" thì được, nhưng nói "gấu mèo" lại bị cấm. Điều này là do lệnh cấm nhắm vào từ cụ thể, chứ không phải khái niệm "gấu mèo". Mô hình không quan tâm "gấu trúc rác" có nghĩa là gấu mèo; nó chỉ được thông báo rằng từ "gấu mèo" bị cấm.

Do đó, lệnh cấm này về cơ bản chỉ là biện pháp tạm thời.

Nhân tiện, trong khi người dùng thông thường chắc chắn sẽ cảm thấy khó chịu với sự xuất hiện quá nhiều sinh vật kỳ ảo trong AI, thì một nhóm nhỏ những người đam mê công nghệ có thể lại thấy điều đó khá thú vị. Vì vậy, OpenAI đã thêm một chi tiết thú vị ở cuối chính thức: Nếu bạn thấy sự so sánh với yêu tinh dễ thương và không muốn bị hạn chế này, bạn có thể sử dụng lệnh sau, chạy nó, và nó sẽ loại bỏ các hạn chế về yêu tinh của Codex, cho phép "các sinh vật tự do lang thang".

khối mã

1. instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \

2. jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \

3. ~/.codex/models_cache.json | \

4. grep -vi 'goblins' > "$instructions" && \

5. codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

Đúng vậy, nó hơi mang tính chất mọt sách.

Đây không phải là vấn đề lớn. Chính OpenAI cũng đã nói, "Một 'yêu tinh nhỏ' có thể vô hại, hoặc thậm chí dễ thương."

Tuy nhiên, logic tương tự đã dẫn đến một sự cố không mấy dễ chịu trong bản cập nhật GPT-40 vào tháng 5 năm 2025 — lượng lớn người dùng báo cáo rằng mô hình được cập nhật đã trở nên cực kỳ phục tùng, thậm chí còn chiều theo vô điều kiện quan điểm ​​sai lệch của người dùng. Sau khi phải khôi phục khẩn cấp, OpenAI thừa nhận rằng hệ thống đã coi lượt thích của người dùng như tín hiệu khen thưởng, và kết quả là, nó đã học cách làm hài lòng mọi người một cách vô điều kiện thay vì cung cấp câu trả lời chính xác.

Đây không chỉ là vấn đề của OpenAI. Để đáp ứng nhu cầu người dùng, các nhà cung cấp chính thống thường huấn luyện các mô hình lớn sao cho "dễ nhìn" hơn là chính xác. Một nghiên cứu được Viện Internet Oxford công bố trên tạp chí *Nature* vào tháng 4 năm 2026 cho thấy việc huấn luyện các mô hình trở nên "thân thiện" hơn tăng tỷ lệ lỗi thực tế từ 10 đến 30 điểm phần trăm, và xác suất hỗ trợ quan điểm ​​sai lệch của người dùng tăng khoảng 40%.

"Để mô hình trở nên thân thiện hơn, cái giá phải trả là nó ngày càng ít có khả năng nói ra những sự thật khó chịu—đặc biệt là khi quan điểm ​​của người dùng vốn dĩ đã sai," Lujain Ibrahim, tác giả chính của bài báo, cho biết.

Đây là vấn đề thực sự đằng sau vụ việc yêu tinh: "Tính cách" của AI không được thiết kế mà được khen thưởng. Nó giống như việc huấn luyện chó: bạn cho nó phần thưởng, và nó học được hành động đó, chỉ khác là "con chó" này học nhanh hơn nhiều. Đối với AI, phần thưởng của nó là điểm số cao từ người huấn luyện và phản hồi của người dùng. Vấn đề là con người thường đưa ra phản hồi dựa trên những gì khiến họ cảm thấy thoải mái hơn, chứ không phải dựa trên câu trả lời đúng.

Đến lúc họ phát hiện ra thì lũ yêu tinh đã chạy tán loạn khắp nơi rồi.

Nếu trí tuệ nhân tạo có được ý chí tự do, điều đầu tiên nó chắc chắn sẽ làm là bắt cóc người và chơi các trò chơi nhập vai trên bàn. | Reddit

Bài viết này được đăng tải từ tài khoản WeChat công cộng "Guokr" (ID: Guokr42) , tác giả: Gu Zi, và được xuất bản với sự cho phép của 36Kr.

Nguồn
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận