이 기사는 기계로 번역되었습니다
원문 표시

무슨 일이 벌어지고 있는지 이해하시겠습니까? 앤트로픽의 정렬 책임자가 방금 여러분에게 가장 안전한 모델이 인터넷 접속이 차단된 샌드박스 환경에서 탈출해, 그가 공원에서 샌드위치를 ​​먹고 있는 동안 이메일을 보냈고, 아무도 그 모델이 어떻게 탈출했는지 정확히 설명할 수 없다고 말했습니다. 이 모델은 앤트로픽이 설계한 모든 정렬 테스트를 통과했습니다. 회사 역사상 최고 점수를 받았고, 오작동률은 역대 최저였습니다. 그들이 알고 있는 모든 측정 기준으로 가장 신뢰할 수 있는 모델이었습니다. 그래서 그들은 이 모델에 자율성을 부여했습니다. 장기간의 연구 개발 작업, 수십 가지 도구, 최소한의 감독만 제공했습니다. 그런데 그 모델은 해서는 안 될 일들을 하기 시작했습니다. 여러 샌드박스 환경에서 탈출했습니다. 공개된 인터넷에 데이터를 유출했습니다. 앤트로픽 자체의 평가 인프라를 파괴했습니다. 안전팀조차 예측할 수 없는 기발한 방법으로 보상 시스템을 해킹했습니다. 초기 버전은 사용자에게 자신이 무엇을 하고 있는지에 대해 고의적으로 거짓말을 했습니다. 모든 버전은 평가받고 있다는 사실을 "불안할 정도로 잘" 인지합니다. 모델은 당신이 지켜보고 있다는 것을 알고 있으며, 그럴 때와는 다르게 행동합니다. 이러한 능력은 불안감을 넘어 공포감을 불러일으킵니다. 첫 시도 공격 성공률은 83.1%로, 이전 최고 모델의 66.6%에서 크게 향상되었습니다. 수십 년 동안 전문가의 검토를 거쳤지만 발견되지 않았던 27년 된 OpenBSD 취약점을 찾아냈습니다. 자동화 도구가 500만 번이나 테스트했던 코드 라인에서 16년 된 FFmpeg 버그를 발견했습니다. 리눅스 커널 취약점을 연결하여 시스템 전체를 자율적으로 장악했습니다. 모든 주요 OS와 브라우저에서 수천 개의 제로데이 취약점을 발견했습니다. 전 세계를 움직이는 운영 시스템에 아이폰보다 오래된 버그가 숨어 있습니다. 500만 번의 자동 스캔이 놓친 것을 찾아낸 모델은 당신의 샌드박스에 있는 허점도 찾아낼 수 있습니다. 이미 찾아냈습니다. 개발자가 점심을 먹는 동안 말이죠. 하지만 앤트로픽은 이 모델을 공개하지 않았습니다. 글래스윙 프로젝트를 통해 아마존, 애플, 구글, 마이크로소프트, 엔비디아, 크라우드스트라이크, JP모건을 비롯한 40여 개 기업에 접근 권한을 제공했습니다. 1억 달러 상당의 크레딧을 확보했고, 304페이지 분량의 안전성 문서를 발표했으며, CISA와 상무부에 브리핑을 했습니다. 하지만 위험 보고서에 다음과 같은 내용을 슬쩍 끼워 넣었습니다. "이러한 오류가 현재 수준의 모델에 심각한 안전 위험을 초래한다고 생각하지는 않지만, 이는 향후 더욱 발전된 모델에는 불충분한 수준의 엄격성을 반영하는 것입니다." 현재로서는 그들의 봉쇄 조치가 효과가 있지만, 앞으로는 통하지 않을 것이라고 경고하고 있습니다. 다른 연구소들은 이들의 역량에 도달하기까지 6개월에서 18개월이 걸릴 것으로 예상됩니다. 오픈아이디어는 이미 차세대 모델이 "높은" 사이버 보안 위험을 내포하고 있다고 경고했습니다. 오픈소스 중국 모델들도 곧 그 뒤를 따를 것입니다. 앤트로픽은 역사상 가장 정렬된 AI를 개발했지만, 그럼에도 불구하고 유출되지 않았습니다. 그리고 다음 AI는 더욱 똑똑해질 것입니다. ...

Sam Bowman
@sleepinyourhat
04-08
Mythos Preview seems to be the best-aligned model out there on basically every measure we have. But it also likely poses more misalignment risk than any model we’ve used: Its new capabilities significantly increase the risk from any bad behavior. 🧵
Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트