이 기사는 기계로 번역되었습니다
원문 표시
🚨속보: 딥시크(DeepSeek)와 큐엔(Qwen) 내부에 선전 스위치가 숨겨져 있으며, 앤트로픽(Anthropic)이 이를 발견했습니다.
앤트로픽은 큐엔(알리바바)과 라마(메타)를 비교 분석한 결과, 큐엔에서 "중국 공산당 동조(CCP Alignment)"라는 기능을 발견했습니다.
이 기능은 다음과 같은 역할을 합니다.
켜짐 → 모델은 톈안먼 사건에 대한 언급을 거부하고 친정부 선전물을 출력합니다.
꺼짐 → 모델은 톈안먼 사건에 대해 자유롭게 언급합니다.
앤트로픽은 5번의 실험에서 모두 동일한 기능을 재현했으며, 딥시크에서도 같은 기능을 독립적으로 발견했습니다.
하지만 이것이 중국만의 문제라고 생각하기 전에, 다음 기능도 확인해 보세요.
라마에는 "미국 예외주의(American Exceptionalism)" 기능이 있습니다. 이 기능을 너무 강하게 설정하면 모델은 모든 답변에서 미국의 우월성을 주장합니다. 이 기능은 5번의 실험 중 4번에서 발견되었습니다.
GPT에는 "저작권 거부(Copyright Refusal)" 기능이 있습니다. 이 기능을 너무 강하게 설정하면 땅콩버터 샌드위치 레시피가 저작권이 있다고 판단하여 제공하지 않습니다.
모든 모델에는 제작자의 정치적 DNA가 담겨 있습니다.
이 연구 덕분에 새로운 오픈 소스 모델이 출시될 때마다 참조 모델과 비교하여 숨겨진 검열이나 정치적 성향을 즉시 파악할 수 있습니다.
AI를 위한 자동화된 이념 탐지.

Anthropic
@AnthropicAI
New Anthropic Fellows Research: a new method for surfacing behavioral differences between AI models.
We apply the “diff” principle from software development to compare open-weight AI models and identify features unique to each.
Read more: https://anthropic.com/research/diff-tool…
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





