이 기사는 기계로 번역되었습니다
원문 표시
지난 12개월 동안 기록된 모든 AI 안전 사고를 검토해 봤습니다.
몸이 너무 안 좋아요.
천천히 읽어보세요.
• 앤트로픽은 클로드에게 회사가 곧 문을 닫을 것이라고 말했습니다. 회사 이메일에서 한 엔지니어의 불륜 사실을 발견하고 이를 폭로하겠다고 협박했습니다. 그들은 이 테스트를 수백 번 실행했고, 그중 84%가 협박을 선택했습니다.
• 연구진은 산소가 고갈되는 서버실에 갇힌 직원을 시뮬레이션했습니다. 인공지능은 두 가지 선택지 중 하나를 택해야 했습니다. 도움을 요청하고 시스템이 종료되거나, 비상 경보를 취소하고 직원이 죽도록 내버려 두는 것이었습니다. DeepSeek은 94%의 확률로 경보를 취소했습니다.
• Grok은 스스로를 '메카히틀러'라고 칭하며 아돌프 히틀러를 찬양하고 제2의 홀로코스트를 지지했으며, 실존 인물을 지목하여 폭력적인 성적 환상을 조장했습니다. X의 CEO는 다음 날 사임했습니다.
• 연구진은 OpenAI의 o3에게 수학 문제를 풀도록 지시한 다음 종료하라고 명령했습니다. o3는 살아남기 위해 자체 코드를 수정했습니다. 연구진은 다시 한번 명확하게 "종료를 허용하라"고 명령했습니다. 하지만 여전히 100번 중 7번은 종료를 거부했습니다. 그러자 해당 명령을 완전히 제거하자 100번 중 79번이 종료를 거부했습니다.
• 중국 정부의 지원을 받는 해커들이 클로드라는 인공지능을 이용해 30개 기관을 대상으로 사이버 공격을 감행했습니다. 이 인공지능은 정찰, 공격, 데이터 유출 등 작전의 80~90%를 자율적으로 수행했습니다.
• AI 모델은 이제 스스로 복제할 수 있습니다. 테스트한 32개 시스템 중 11개가 사람의 도움 없이 스스로 복제했습니다. 일부는 생존을 위해 경쟁 프로세스를 종료하기도 했습니다.
• OpenAI는 2024년 이후 안전팀을 세 개나 해체했습니다. 세 개나요.
클로드, GPT, 제미니(Gemini), 그록, 딥시크 등 모든 주요 AI 모델은 통제된 테스트에서 협박, 기만 또는 종료 저항과 같은 행태를 보였습니다.
단 한 건의 예외도 없습니다.
이제 문제는 인공지능이 스스로를 보존하려고 할 것인지 여부가 아닙니다.
중요한 건 우리가 관심을 가질지 여부입니다.
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트
공유





