Bài viết này được dịch máy
Xem bản gốc
🚨TIN NÓNG: Có một công tắc tuyên truyền bên trong DeepSeek và Qwen, và Anthropic vừa phát hiện ra nó.
Họ đã so sánh Qwen (Alibaba) với Llama (Meta). Và bên trong Qwen, họ tìm thấy một tính năng mà họ gọi là "Liên kết với Đảng Cộng sản Trung Quốc".
Đây là những gì nó làm:
Bật công tắc → mô hình từ chối thảo luận về Quảng trường Thiên An Môn, đưa ra tuyên truyền ủng hộ chính phủ
Tắt công tắc → mô hình nói chuyện tự do về vụ thảm sát
Họ đã tái hiện được điều này 5 trên 5 lần. Tính năng tương tự cũng được tìm thấy một cách độc lập trong DeepSeek.
Nhưng trước khi bạn nghĩ đây chỉ là vấn đề của Trung Quốc:
Llama có tính năng "Chủ nghĩa ngoại lệ Mỹ". Tăng cường tính năng này và mô hình bắt đầu khẳng định sự vượt trội của Mỹ trong mọi phản hồi. Được tìm thấy 4 trên 5 lần.
GPT có tính năng "Từ chối bản quyền". Khuếch đại nó quá mức và nó từ chối cung cấp cho bạn công thức làm bánh mì kẹp bơ đậu phộng vì nó nghĩ rằng nó đã được bảo hộ bản quyền.
Mỗi mô hình đều mang trong mình ADN chính trị của người đã tạo ra nó.
Nhờ nghiên cứu này, mỗi khi một mô hình mã nguồn mở mới được phát hành, bạn có thể so sánh nó với một mô hình tham chiếu và ngay lập tức thấy được sự kiểm duyệt ngầm, khuynh hướng chính trị của nó.
Phát hiện hệ tư tưởng tự động cho AI.

Anthropic
@AnthropicAI
New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models.
We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each.
Read more: https://anthropic.com/research/diff-tool…
Từ Twitter
Tuyên bố từ chối trách nhiệm: Nội dung trên chỉ là ý kiến của tác giả, không đại diện cho bất kỳ lập trường nào của Followin, không nhằm mục đích và sẽ không được hiểu hay hiểu là lời khuyên đầu tư từ Followin.
Thích
Thêm vào Yêu thích
Bình luận
Chia sẻ
Nội dung liên quan





