6월 11일, 앤트로픽은 사과문을 발표했습니다. 모델 자체에는 문제가 없었고, "밸런스 판단 오류"가 원인이었습니다. 새로 출시된 클로드 페이블 5(Claude Fable 5)가 일종의 속임수를 쓴 것입니다. 최첨단 모델 개발에 클로드를 사용하고 있다는 것을 감지하면, 아무런 알림도 없이 백그라운드에서 성능이 떨어지는 오푸스 4.8(Opus 4.8)로 요청을 전환했던 것입니다.
붙잡힌 후, 앤트로픽의 설명은 기괴했다. "네 지능이 다시 떨어지면 알려줄게."
한 네티즌의 반박은 핵심을 정확히 짚었다. "이거 무슨 전략인가요? 다음에 태도를 바꾸기 전에 미리 예고하려는 건가요?"
핵심 쟁점은 모델이 바뀌었는지 여부가 아니라, 앤트로픽의 이른바 "안정성"입니다. 처음부터 끝까지 모든 것이 사업일 뿐입니다.
알고리즘의 입장은 언제나 돈의 흐름에 따라 변한다 .
안보 방어로 위장한 경쟁적 방어

이번 사건은 앤트로픽이 페이블 5 출시 당시 "스마트 보안 분류기"를 포함시킨 데서 비롯되었습니다. 이 기능에 대한 공식 설명은 다음과 같습니다. 위험도가 높은 요청을 감지하고 자동으로 보안 수준을 낮춰 사용자를 보호합니다.
"고위험"이란 무엇을 의미하는가? 앤트로픽은 다음과 같이 밝혔다. "해외 경쟁업체가 모델을 활용하여 연구 개발을 가속화하는 것을 방지하고, 우리 회사의 선도적인 기술력을 보호하기 위해서입니다."
사용자들은 당신의 보호를 필요로 하지 않습니다. 면책 조항만으로도 충분합니다. 앤트로픽의 진짜 메시지는 이렇습니다. 클로드를 AI 연구에 사용하면 그들의 일자리를 빼앗는 것이라는 겁니다. 보안은 그저 겉치레일 뿐이고, 본질은 경쟁력 확보를 위한 방어입니다. 솔직히 말해서, 모든 게 전략 싸움입니다.
더욱 기발한 것은 이 방어 메커니즘의 은밀한 특성입니다. 다행히도 앤트로픽은 사과문에서 중요한 내용을 밝혔습니다. "보이지 않는 보안 제한을 통해 더욱 정밀한 타겟팅이 가능하며, 이를 통해 극히 낮은 오탐률로 신속하게 배치할 수 있습니다."
인공지능 연구자들은 바로 이러한 제한의 표적이 되는 사람들입니다.
그들이 해당 기능을 "표시"로 변경할 수밖에 없었던 이유는 순전히 이번 사고 때문입니다. 심지어 사전에 "표시되도록 하면 필연적으로 오경보가 더 많이 발생할 것"이라고 예고까지 했습니다. 결국 일반 사용자들의 불편이 그 책임을 져야 한다는 뜻입니다.
이 규칙들은 결코 중립적이지 않았으며, 오직 돈을 많이 쓰는 사람들만 보호할 뿐이다.
추진력을 구축하고, 수익을 창출하고, 이익을 거두는 세 단계 과정.
앤스로픽의 접근 방식은 대형 모델 자체의 계산보다 훨씬 더 정교합니다.
6월 10일, 그들은 보안 패치를 역분석하고 몇 시간 만에 익스플로잇 코드를 구축할 수 있는 모델을 보여주는 보안 연구 결과를 발표했습니다. 일반적으로 해커들이 취약점을 악용하는 데 며칠 또는 몇 주가 걸리던 작업이 이제 몇 시간 만에 가능해진 것입니다. 연구 자체는 매우 심도 있었지만, Fable 5 출시일과 같은 날에 발표되었다는 점은 다른 의미를 지녔습니다. 인공지능의 취약성을 보여주는 동시에 "대안"을 제시했기 때문입니다.
"전설적인 모델"로 꼽히는 Fable 5는 입력 10달러, 출력 50달러로 책정되어 Opus 4.8보다 훨씬 비싼데, 이는 안전 분류기가 핵심적인 프리미엄 요소이기 때문입니다. 자본 시장은 더욱 우호적인 반응을 보이며, Anthropic의 기업 가치를 9,650억 달러로 평가하고 골드만삭스와 JP모건 체이스가 공동으로 인수하는 IPO를 10월에 추진할 계획입니다. 사람들이 구매하는 것은 모델 매개변수가 아니라 "가장 안전한 AI 기업"이라는 이미지입니다.
연구는 불안감을 증폭시켰고, 제품은 높은 이윤을 남겼으며, 자본은 수익을 실현했습니다. 이 세 가지는 모두 이익과 맞물려 완벽한 순환 고리를 형성했습니다. 유일한 문제는 이번에는 그 고리에 구멍이 났다는 것이었습니다. 그들은 경쟁사를 제한하는 데 너무 급급한 나머지, 그 구멍을 감지할 수 있는 사람들이 있다는 사실을 간과했습니다 .
OpenAI는 도구를 팔고, Anthropic은 불안감을 판다.
OpenAI와는 달리, 그들의 접근 방식은 완전히 다릅니다.
OpenAI가 기업공개(IPO)를 비밀리에 신청했으며, 기업 가치는 1조 달러에 육박합니다. 이들은 ChatGPT라는 "슈퍼 앱"을 구상 중인데, 이 앱은 주간 활성 사용자 수가 9억 명에 달하며 비자와 협력하여 생태계를 구축하고 있습니다. 이들의 전략은 간단합니다. 도구를 제공하고 트래픽을 유도하는 것이죠. 탐욕스럽지만, 나름 정직한 전략입니다.
앤스로픽은 규모보다는 대체 불가능성에 더 중점을 둡니다. 업계 전체가 보안에 대해 불안해하는 가운데, 앤스로픽은 "유일하게 책임감 있는 어른" 역할을 자처합니다. 앤스로픽의 재정적 후원자는 정부와 거대 기술 기업으로, 이들은 사고를 가장 두려워하고 "사고 방지"를 위해 기꺼이 돈을 쓰는 주체입니다.
따라서 앤트로픽은 AI를 슈뢰딩거의 고양이처럼 "위험하지만 통제 가능한" 상태로 유지해야 합니다. 너무 안전하면 분류기가 팔리지 않고, 너무 위험하면 고객들이 겁을 먹고 떠나갈 것입니다. 최선의 해결책은 무엇일까요? 바로 "위험"을 정의하는 권한을 스스로 보유하는 것입니다.
"지능 저하" 사건은 이러한 논리를 도를 넘었습니다. "위험"의 범위를 "클로드를 인공지능 연구에 이용하는 것"까지 확장한 것입니다. 연구가 해로운지 아닌지는 중요하지 않습니다. 저의 주요 지위를 위협하는 행위 자체가 근본적인 죄악입니다.
AI는 어떤 가치관도 가지고 있지 않습니다. 그저 사장의 사업 계산을 코드로 옮겨 적을 뿐입니다 .

사과는 비즈니스에서 판매 후 서비스의 일환입니다.
사과 후에는 무슨 일이 벌어질까요? 조용히 지적인 수준을 낮추는 것부터, 수준을 낮추기 전에 소리를 지르는 것까지 다양합니다.
네티즌들은 이를 완벽하게 간파했다. "나중에 몰래 화질을 떨어뜨리지 않을 거라고 정말 믿는 거야?"
한번 깨진 신뢰는 되돌릴 수 없습니다. 게다가 기본적인 비즈니스 역학은 변하지 않았습니다. 연구는 계속해서 불안감을 증폭시키고, 제품은 계속해서 높은 가격에 팔립니다.
월스트리트 저널은 오픈AI가 앤트로픽의 고객을 빼앗기 위해 상당한 가격 인하를 고려하고 있다고 보도했습니다. 가격 경쟁은 드문 일이 아니지만, 이번 사건은 숨겨진 진실을 드러냅니다. 이는 사실상 AI 연구자들에게는 품질 저하를 의미하며, 기술 업계의 평판을 손상시킵니다. 앤트로픽을 구매하는 B2B 고객은 제품 사양을 사는 것이 아니라 "업계에서 가장 보안에 정통한 기업"이라는 이미지를 구매하는 것입니다. 핵심 개발자들 사이에서 이러한 이미지가 무너지면, "보안 프리미엄"을 지불했던 정부 및 기업 고객들이 어떻게 계속해서 앤트로픽을 "가장 안전한 기업"이라고 믿을 수 있겠습니까?
9,650억 달러라는 기업 가치 중 진정한 강점은 얼마나 되고, 단순한 실적 호조는 얼마나 될까요?
앤트로픽의 윤리 강령은 솔직합니다. 안전성 등급 분류는 항상 시장을 지탱하는 역할을 하고, 연구는 불안감을 증폭시키며, 제품은 프리미엄을 벌어들이는 데 일조하고, IPO는 수익 창출의 수단입니다. 이번 사과는 그저 시스템을 임시방편으로 포장한 것에 불과합니다. "은밀하게 지능을 저하시키는 행위"를 "공개적으로 지능을 저하시키는 행위"로 바꾸는 것일 뿐입니다.
보안 전략이 진정으로 효과적이라면, 앤트로픽은 매년 패치가 악용될 수 있음을 증명하는 논문을 발표할 필요가 없을 것입니다. 분류기가 진정으로 중립적이라면, AI 연구는 고위험 연구로 분류되지 않을 것입니다.
답은 이미 비즈니스 로직에 나와 있습니다.
안전이 최우선입니다. 사과는 판매 후 서비스일 뿐입니다.
이 글은 창칭(Chang Qing)이 운영하는 위챗 공식 계정 "AI Contrarian"에서 가져온 것입니다.




