AI는 어떻게 판단할까? 인류학은 클로드의 가치를 연구한다

avatar
AI News
04-23
이 기사는 기계로 번역되었습니다
원문 표시

앤트로픽 클로드와 같은 AI 모델은 단순한 사실 기억뿐만 아니라 복잡한 인간의 가치와 관련된 지침을 점점 더 많이 요청받고 있습니다. 육아 조언, 직장 내 갈등 해결, 사과문 작성 도움 등에서 AI의 응답은 본질적으로 일련의 기본 원칙을 반영합니다. 하지만 수백만 명의 사용자와 상호작용할 때 AI가 표현하는 가치를 어떻게 진정으로 이해할 수 있을까요?

앤트로픽의 사회적 영향 팀은 연구 논문에서 클로드가 "실제 환경"에서 보이는 가치를 관찰하고 분류하기 위해 설계된 개인정보 보호 방법론을 상세히 설명합니다. 이는 AI 정렬 노력이 실제 세계의 행동으로 어떻게 변환되는지 엿볼 수 있게 해줍니다.

핵심 과제는 현대 AI의 본질에 있습니다. 이들은 엄격한 규칙을 따르는 단순한 프로그램이 아니며, 의사결정 과정은 종종 불투명합니다.

앤트로픽은 클로드에 특정 원칙을 명시적으로 주입하려고 노력하며 "도움이 되고, 정직하며, 해롭지 않게" 만들고자 합니다. 이는 헌법적 AI와 캐릭터 훈련과 같은 기술을 통해 달성되며, 선호되는 행동이 정의되고 강화됩니다.

그러나 회사는 불확실성을 인정합니다. "AI 훈련의 모든 측면과 마찬가지로, 모델이 우리가 선호하는 가치를 고수할 것이라고 확신할 수 없습니다."라고 연구에서 언급하고 있습니다.

"우리에게 필요한 것은 AI 모델이 '실제 환경'에서 사용자에게 응답할 때 그 가치를 엄격하게 관찰하는 방법입니다. [...] 얼마나 엄격하게 가치를 고수하나요? 대화의 특정 맥락에 의해 표현되는 가치는 얼마나 영향을 받나요? 우리의 모든 훈련이 실제로 작동했나요?"

(이하 생략, 전체 번역 가능)

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
코멘트