이 기사는 기계로 번역되었습니다
원문 표시
앤트로픽 모델 설명 팀의 연구원들이 한 편의 팟캐스트를 녹음했습니다
모델의 설명 가능성과 모델 안전성 간의 관계, 그리고 이 두 가지가 왜 중요한지를 소개했습니다
특히 설명 가능성에 대한 연구 과정과 우리가 흔히 접하는 모델 개념 설명이 매우 흥미로웠습니다

Anthropic
@AnthropicAI
08-15
Join Anthropic interpretability researchers @thebasepoint, @mlpowered, and @Jack_W_Lindsey as they discuss looking into the mind of an AI model - and why it matters:

해석 가능한 툴체인의 핵심 목표는 "입력 프롬프트 A"에서 "출력 텍스트 B"까지 완전한 "흐름도"를 만드는 것입니다.
연구 과정은 다섯 가지 주요 단계로 구성됩니다.
데이터 샘플링: 모델에 다양한 프롬프트(대화, 코드, 시 등)를 입력하고 각 계층에서 활성화를 기록합니다.
특징 분해: 클러스터링 및 희소 코딩을 사용하여 수억 개의 활성화를 사람이 해석할 수 있는 "개념 벡터"로 압축합니다.
개념 레이블 지정: 통계적 "점등" 방법을 사용하여 "커피", "금문교", "아첨하는 칭찬"과 같은 레이블로 벡터에 레이블을 지정합니다.
인과 조작: 활성화 강도를 인위적으로 증가 또는 감소시키고 출력이 어떻게 변화하는지 관찰하여 단순한 상관관계가 아닌 인과관계를 확인합니다.
프로세스 시각화: 여러 계층의 개념을 시간 순서대로 연결하여 추적 가능한 코드 호출 스택과 유사한 사람이 읽을 수 있는 단계별 다이어그램을 형성합니다.
연구팀은 이 시스템을 "현미경"에 비유했지만 여전히 한계가 있다는 점을 인정했습니다. 현재 이 시스템은 의사결정 경로의 약 20%만 설명할 수 있으며, 대규모 모델(Claude 4 수준)의 규모는 도구에 더 큰 부담을 줍니다.
이 영상은 사람들을 웃게 만드는 많은 내부 개념을 나열합니다.
"아첨적 칭찬": 맥락에 과도한 아첨이 있을 때마다 신경 세포들이 활성화되어 "훌륭하다", "천재적"과 같은 화려한 단어들이 나옵니다.
골든게이트 브리지 표현: 이 벡터는 입력이 다리를 건너는 장면을 설명하는 텍스트이든, 다리에 대한 캡션이 달린 이미지이든, 심지어 단순히 "골든게이트"를 암시하는 것이든 관계없이 트리거됩니다. 이는 모델이 "랜드마크"에 대한 교차 모달적이고 추상적이며 견고한 개념을 형성했음을 보여줍니다.
"6 + 9" 덧셈 회로: 방정식, 기준 연도(1959 + 6) 또는 스토리라인의 주택 번호 등 6과 9로 끝나는 숫자를 더할 때마다 계산은 동일한 경로를 따릅니다. 이는 이 모델이 암기한 암기가 아닌 "범용 연산자"를 사용한다는 것을 확인시켜 줍니다.
버그 추적기: 코드를 읽을 때 특정 신경망 클러스터는 잠재적 버그를 태그 하고 후속 응답에서 이를 참조하여 "지연된 에코" 기능을 보여줍니다.
이러한 사례는 "모델은 단지 훈련 데이터의 기억일 뿐"이라는 관점 전체적으로 반박합니다. 메모리에만 의존하는 경우, 모델이 이전에 본 적이 없는 교차 도메인 시나리오에서 동일한 논리적 경로를 재사용하는 것은 불가능합니다.
연구자들은 또한 이 모델이 긴 이야기 속 등장인물 관계를 처리할 때, 처음 등장하는 등장인물에 '숫자 개념'을 할당하고, 이후의 모든 행동과 정서 서사의 일관성을 유지하기 위해 그 숫자에 연결된다는 사실을 발견했습니다. 이 전략은 인간의 '변수 결합'과 매우 유사하지만, 자연스럽게 나타납니다.
중요한 점은 이 "놀라움의 개념" 뒤에 숨겨진 "추상화 기울기"가 드러난다는 것입니다. 모델이 클수록 여러 언어와 작업에서 공유되는 내부 의미 계층이 더욱 집중되어 궁극적으로 "범용 의미 공간"을 형성합니다. 이는 클로드가 여러 언어에서 일관된 성능을 유지할 수 있는 이유를 설명합니다.
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유



