OpenAI, 사용자들이 '딸기' AI 모델을 조사하면서 금지 위협

avatar
WIRED
2일 전
이 기사는 기계로 번역되었습니다
원문 표시

OpenAI는 자사의 최신 AI 모델이 "생각하는" 내용을 여러분이 알기를 원하지 않습니다. 이 회사가 지난주 o1-preview와 o1-mini로 소위 추론 능력을 내세우며 "딸기" AI 모델 패밀리를 출시한 이후, OpenAI는 모델의 작동 방식을 조사하려는 모든 사용자에게 경고 이메일과 금지 위협을 보내고 있습니다.

GPT-4o 와 같은 OpenAI의 이전 AI 모델과 달리, 이 회사는 o1을 특별히 훈련시켜 답변을 생성하기 전에 단계별 문제 해결 프로세스를 거치도록 했습니다. 사용자가 ChatGPT 에서 "o1" 모델에 질문을 하면, 사용자는 ChatGPT 인터페이스에 쓰여진 이 사고의 사슬 프로세스를 볼 수 있는 옵션이 있습니다. 그러나 OpenAI는 설계상 사용자에게 원시 사고의 사슬을 숨기고, 대신 두 번째 AI 모델이 만든 필터링된 해석을 제공합니다.

열광자들에게 정보가 가려지는 것보다 더 매력적인 것은 없으므로, 해커와 레드팀원들 사이에서는 o1의 원시 사고의 사슬을 밝혀내기 위해 탈옥 이나 모델을 속여 비밀을 흘리게 하는 신속한 주입 기술을 사용하려는 경쟁이 벌어지고 있습니다. 일부 성공 사례에 대한 초기 보고가 있었지만, 아직 확실하게 확인된 것은 없습니다.

그 과정에서 OpenAI는 ChatGPT 인터페이스를 통해 감시하고 있으며, 단순히 호기심이 많은 사람들조차도 o1의 추론을 알아내려는 시도에 강경하게 대처하고 있다고 합니다.

한 X 사용자는 (Scale AI 프롬프트 엔지니어 Riley Goodside 를 포함한 다른 사람들 이 확인) o1과 대화할 때 "추론 추적"이라는 용어를 사용하면 경고 이메일을 받았다고 보고했습니다 . 다른 사람들은 ChatGPT에 모델의 "추론"에 대해 묻는 것만으로도 경고가 발생한다고 말합니다 .

OpenAI의 경고 이메일에는 특정 사용자 요청이 보호 장치 또는 안전 조치를 우회하는 것에 대한 정책을 위반했다는 이유로 플래그가 지정되었다고 나와 있습니다. "이 활동을 중단하고 ChatGPT를 이용 약관 및 이용 정책에 따라 사용하세요."라고 적혀 있습니다. "이 정책을 추가로 위반하면 Reasoning이 포함된 GPT-4o에 대한 액세스 권한이 손실될 수 있습니다." 이는 o1 모델의 내부 이름을 말합니다.

모질라의 GenAI 버그 바운티 프로그램을 관리하는 마르코 피게로아는 지난 금요일 X에서 OpenAI 경고 이메일을 가장 먼저 게시한 사람 중 한 명으로, 이 이메일이 모델에 대한 긍정적인 레드팀 안전 연구를 수행하는 자신의 능력을 방해한다고 불평했습니다 . 그는 "저는 #AIRedTeaming에 집중하느라 너무 어리둥절해서 어제 모든 탈옥을 마친 후 @OpenAI로부터 이 이메일을 받았다는 걸 깨달았습니다."라고 적었습니다. "저는 이제 금지 목록에 올랐습니다!!!"

OpenAI의 블로그에 " LLM으로 추론하는 법 배우기 "라는 제목의 게시물에서, 이 회사는 AI 모델에 숨겨진 사고의 사슬이 독특한 모니터링 기회를 제공하여 모델의 "마음을 읽고" 소위 사고 과정을 이해할 수 있다고 말합니다. 이러한 프로세스는 그대로 두고 검열하지 않으면 회사에 가장 유용하지만, 여러 가지 이유로 회사의 최상의 상업적 이익과 일치하지 않을 수 있습니다.

"예를 들어, 미래에 우리는 사용자를 조작하는 징후를 찾기 위해 사고의 사슬을 모니터링하고 싶을 수 있습니다."라고 회사는 적었습니다. "그러나 이것이 작동하려면 모델이 변경되지 않은 형태로 사고를 표현할 수 있는 자유가 있어야 하므로 사고의 사슬에 정책 준수나 사용자 선호도를 학습시킬 수 없습니다. 또한 정렬되지 않은 사고의 사슬을 사용자에게 직접 보여주고 싶지 않습니다."

OpenAI는 사용자에게 이러한 원시 사고 사슬을 보여주지 않기로 결정했으며, 자체 사용, 사용자 경험 및 "경쟁 우위"를 위해 원시 피드를 보관해야 한다는 요인을 인용했습니다. 이 회사는 이 결정에 단점이 있음을 인정합니다. "우리는 답변에서 사고 사슬의 유용한 아이디어를 재현하도록 모델을 교육하여 부분적으로 보완하려고 노력합니다."라고 그들은 썼습니다.

"경쟁 우위"에 대해, 독립 AI 연구원 사이먼 윌리슨은 개인 블로그에 올린 글 에서 좌절감을 표했다. 그는 "[이것은] 다른 모델이 투자한 추론 작업에 대해 훈련할 수 있는 것을 피하고 싶어서라고 해석합니다."라고 썼다.

AI 산업에서 연구자들이 OpenAI의 GPT-4(그리고 그 이전의 GPT-3)의 출력을 종종 나중에 경쟁자가 되는 AI 모델의 훈련 데이터로 사용한다는 것은 공공연한 비밀입니다. 이러한 관행이 OpenAI의 서비스 약관을 위반하더라도 말입니다. o1의 원시 사고 사슬을 노출하면 경쟁자들이 o1과 유사한 "추론" 모델을 훈련할 수 있는 훈련 데이터의 보물이 될 것입니다.

윌리슨은 OpenAI가 o1의 내부 작동을 이렇게 엄격하게 통제하는 것은 커뮤니티 투명성에 대한 손실이라고 생각합니다. "저는 이 정책 결정에 전혀 만족하지 않습니다." 윌리슨은 이렇게 썼습니다. "LLM에 맞서 개발하는 사람으로서, 해석 가능성과 투명성은 저에게 전부입니다. 복잡한 프롬프트를 실행하고 그 프롬프트가 어떻게 평가되었는지에 대한 주요 세부 정보를 저에게서 숨길 수 있다는 생각은 큰 퇴보처럼 느껴집니다."

본 기사는 원래 Ars Technica 에 게재되었습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
1
즐겨찾기에 추가
코멘트