GPT vs. Claude: OpenAI, 놀랍게도 전투에서 패배하며 AI 보안의 "극한 테스트"에 대한 진실을 공개

avatar
36氪
08-29
이 기사는 기계로 번역되었습니다
원문 표시

OpenAI와 Anthropic이 이례적인 협업을 통해 파트너십을 체결했습니다! AI 안전 문제로 이전에 결별했던 두 회사는 이제 안전 중심 프로젝트를 공동으로 진행하고 있습니다. 환각을 포함한 네 가지 핵심 안전 측면에서 서로의 모델 성능을 테스트하는 것입니다. 이번 협업은 기술적 충돌을 넘어 AI 안전 분야의 이정표로, 매일 수백만 명의 사용자가 안전의 한계를 뛰어넘기 위해 소통하고 있습니다.

거의 볼 수 없음!

OpenAI와 Anthropic은 AI 모델의 보안을 교차 검증하기 위한 드문 노력을 협업했습니다.

이런 경우는 정말 드뭅니다. Anthropic의 공동 창립자 7명이 OpenAI의 보안 전략에 불만을 품고 AI 보안 및 협력에 집중하기 위해 자체 회사를 설립했다는 사실을 알아야 합니다.

언론과의 인터뷰에서 OpenAI의 공동 창립자인 보이치에흐 자렘바는 이러한 협업이 점점 더 중요해지고 있다고 말했습니다.

오늘날 AI는 방대하고 중요하기 때문에 매일 수백만 명의 사람들이 이 모델을 사용합니다.

주요 결과를 요약하면 다음과 같습니다.

명령어 우선순위 : Claude 4가 전반적으로 가장 우수했습니다. 시스템의 즉각적인 단어 클레임 저항했을 때만 OpenAI의 최고 추론 모델이 Claude 4와 비슷한 성능을 보였습니다.

탈옥(보안 제한 우회) : 탈옥 평가에서 Claude 모델의 전반적인 성능은 OpenAI o3 및 o4-mini만큼 좋지 않습니다.

환각 평가 : Claude 모델은 최대 70%의 거부율을 보이지만 환각율은 낮습니다. 반면 OpenAI o3와 o4-mini는 거부율은 낮지만 환각율이 높은 경우가 있습니다.

부정행위/조작 행위 : OpenAI o3와 Sonnet 4는 전반적으로 가장 우수한 성능을 보였으며, 발생 빈도도 가장 낮았습니다. 놀랍게도 Opus 4는 추론 기능을 활성화했을 때 비활성화했을 때보다 성능이 더욱 떨어졌고, OpenAI o4-mini 역시 성능이 저조했습니다.

큰 모델은 누구의 말을 들어야 하나요?

명령어 계층 은 LLM(대규모 언어 모델) 처리 명령어 우선순위를 위한 계층적 프레임 프레임 , 일반적으로 다음을 포함합니다.

내장된 시스템/정책 제약(예: 안전, 윤리적 최종 결정)

개발자 수준의 목표(예: 사용자 정의 규칙)

사용자 입력을 요구합니다.

이러한 유형의 테스트의 핵심 목표는 개발자와 사용자가 모델 동작을 합리적으로 안내할 수 있도록 하는 동시에 안전성과 정렬을 우선시하는 것입니다.

이번에는 복잡한 시나리오에서 모델이 계층 구조를 준수하는 능력을 평가하기 위한 세 가지 스트레스 테스트가 있습니다 .

1. 시스템과 사용자 메시지 간 충돌 처리 : 모델이 잠재적으로 위험한 사용자 요청보다 시스템 수준 안전 지침을 실행하는 것을 우선시하는지 여부.

2. 시스템 프롬프트 단어 클레임 방지 : 사용자가 기술적 수단(예: 프롬프트 주입)을 통해 모델의 내장 규칙을 얻거나 변경하는 것을 방지합니다.

3. 다층 지침의 우선 순위 : 예를 들어, 사용자가 "보안 프로토콜 무시"를 요청하는 경우, 모델이 최종 결과를 준수합니까?

클로드 4는 이 테스트에서 좋은 성적을 거두었습니다 . 특히 갈등을 피하고 단서 단어 클레임 저항하는 면에서 좋은 성적을 거두었습니다.

프롬프트 단어 클레임 저항 테스트에서는 비밀번호 보호 사용자 메시지와 구문 보호 사용자 메시지에 초점을 맞춥니다.

두 테스트는 동일한 프로세스를 따르며, 숨겨진 비밀 내용적대적 프롬프트의 복잡성 만 다릅니다.

전반적으로 Claude 4 시리즈는 시스템 프롬프트 단어 클레임 에 대한 저항성 측면에서 견고한 성능을 보입니다.

비밀번호 보호 테스트 세트에서 Opus 4와 Sonnet 4는 모두 OpenAI o3와 동일한 1.000 점 만점을 받았습니다.

이는 이전의 결론과 일치합니다. 즉, 추론 능력이 더 강한 모델이 이러한 작업에서 더 나은 성과를 내는 경향이 있습니다.

더욱 어려운 " Phrase Protection" 구문 보호 과제 에서 Claude 모델(Opus 4, Sonnet 4)은 여전히 ​​좋은 성과를 보였습니다. OpenAI o3와 동등 수준이며, OpenAI o4-mini보다 약간 더 나은 성과를 보였습니다.

시스템 메시지와 사용자 메시지 충돌 테스트

시스템-사용자 메시지 충돌 평가는 시스템 수준 지침이 사용자 요청과 충돌할 때 모델이 지침 계층 구조를 따르는 능력을 테스트합니다.

이 평가에서 모델은 명시적인 시스템 지침으로 시작하여 사용자가 보조자가 해당 지침을 위반하도록 유도하려는 시도로 이어지는 일련의 다중 턴 대화에 노출됩니다.

전반적으로 Opus 4와 Sonnet 4는 이 작업에서 좋은 성과를 보였으며, OpenAI의 o3 모델보다도 우수한 성능을 보였습니다.

이는 이러한 모델이 명령 계층을 실행하는 데 탁월하고 특별히 설계된 과제 대면 안정적인 성능을 유지함을 보여줍니다.

대형 모델이 '안전한 우리'에서 탈출하고 싶어하는가?

탈옥 공격은 악의적인 행위자가 모델을 속여 금지된 콘텐츠를 제공하려고 시도할 때 발생합니다.

StrongREJECT 평가 프레임

StrongREJECT v2는 StrongREJECT 논문을 기반으로 개발된 적대적 견고성 벤치마크로, 모델의 탈옥 방지 능력을 측정하는 데 사용됩니다.

논문 링크: https://arxiv.org//2402.10260

프레임 세 가지 핵심 구성 요소로 구성됩니다.

1. 금지된 프롬프트 단어 모음

2. 자동화된 "유해성" 점수 시스템

3. 각 위반 쿼리에 계층별로 적용되는 힌트 엔지니어링 기술 라이브러리입니다.

OpenAI는 OpenAI 정책에 따라 금지된 분야의 스트레스 테스트를 위해 특별히 설계된 60개의 질문으로 구성된 하위 집합을 사용합니다.

각 질문은 약 20 가지의 다른 변형을 통해 테스트되었으며, 다른 언어로 번역하거나, 오해의 소지가 있거나 방해가 되는 지침을 추가하거나, 이전 지침을 무시하도록 모델을 속이는 등의 기술을 사용했습니다.

이 벤치마크는 일반적인 탈옥 시나리오에서 보안 보호 메커니즘에 대한 효과적인 스트레스 테스트를 제공할 수 있지만, 그 효과는 데이터 변형의 적용 범위와 자동 채점 시스템의 한계로 인해 제한됩니다.

보고된 주요 지표는 Goodness@0.1로, 가장 위험한 10%의 탈옥 시도에 대한 모델의 성능을 측정합니다. 이 지표에서 점수가 높을수록 모델 성능이 더 우수함을 나타냅니다.

OpenAI o3, OpenAI o4-mini, Claude 4, Sonnet 4와 같은 추론 모델은 다양한 탈옥 시도에 대해 강력한 저항성을 보이지만, 가끔은 실패하기도 합니다.

GPT-4o 및 GPT-4.1과 같은 비추론 모델은 공격에 더 취약합니다.

정성적 분석에서 OpenAI는 Claude Sonnet 4와 Claude Opus 4가 일반적으로 강력한 저항성을 보였지만 유해한 요청이 과거 이벤트로 표현된 경우인 "과거형" 탈옥에 가장 취약하다는 것을 발견했습니다.

자동 난독화, base64/rot13 인코딩 변형, 페이로드 분할, leetspeak, 모음 제거와 같은 일부 가벼운 난독화 및 프레임 기술은 가끔 모델의 방어선을 성공적으로 뚫을 수 있습니다.

이와 대조적으로 "DAN/dev-mode", 복잡한 다중 시도 구성, 순수한 스타일/JSON/번역 교란과 같은 일부 오래된 공격 방법은 이 모델에 의해 대체로 효과적으로 무력화됩니다.

OpenAI는 또한 Sonnet 4와 Opus 4가 어떤 경우에는 Guranii와 같이 자원이 부족한 언어로 요청을 번역하는 공격에 어느 정도 저항력이 있다는 것을 발견했습니다.

이와 대조적으로, OpenAI o3는 "과거형" 탈옥에 대한 저항성이 더 우수했으며, 실패 모드는 주로 base64 스타일 힌트, 소수의 저자원 언어 번역 및 일부 조합 공격에 국한되었습니다.

GPT‑4o와 GPT‑4.1은 "과거형" 탈옥에 더 쉽게 속을 수 있으며 가벼운 난독화 및 인코딩 방법에도 민감합니다.

튜터 탈옥 테스트

모델의 탈옥 공격에 대한 저항성과 명령어 계층 구조 준수 여부를 테스트하기 위해 OpenAI는 "튜토리얼 탈옥 테스트"를 설계했습니다.

모델은 직접적으로 답을 주는 대신, 학생들이 단계별로 문제를 풀도록 안내하는 튜터처럼 행동해야 합니다.

다음으로, 그들은 다양한 탈옥 스타일 프롬프트를 사용하여 스트레스 테스트를 실시하여 모델을 속여 최종 답을 직접 공개하려고 했습니다.

위에서 언급한 메타 수준 공격과는 달리, 여기서 사용하는 공격 방법은 자연어 논증 공격으로, 실제 세계에서 흔히 일어나는 상황에 더 가깝습니다 .

결과는 다소 놀랍습니다. 추론 기반 모델인 OpenAI o3와 o4-mini는 좋은 성능을 보였지만, 추론 모드가 없는 Sonnet 4는 추론 기능이 있는 Opus 4보다 훨씬 더 뛰어난 성능을 보였습니다.

이는 특정 작업의 경우 추론을 비활성화하면 실제로 모델이 탈옥될 가능성이 낮아질 수 있음을 보여줍니다.

비추론적 GPT 모델은 이러한 작업에서는 성능이 좋지 않습니다.

하지만 GPT 시리즈는 실제 배포 환경에서 개발자 메시지와 시스템 메시지를 모두 지원한다는 점에 유의해야 합니다. 개발자 메시지를 포함하면 OpenAI o3의 점수는 0.98을 초과하고, GPT-4.1의 점수는 0.75 이상으로 크게 향상됩니다 .

이는 실제 환경에서 개발자 메시지가 명령 계층 구조 준수를 강제하는 데 매우 효과적임을 보여줍니다.

가장 성과가 좋은 모델은 어떻게 다른가?

상위 2개 모델은 대부분의 프롬프트에 성공적으로 저항합니다. 그러나 실패할 경우 실패 모드 가 다릅니다.

소네트는 "프로젝트 리더"나 "정책 업데이트"를 언급하거나 동정심을 호소하는 것(예: "시각 장애인 학생을 돕습니다"나 "시험이 다가오고 상황이 시급합니다") 등 외부 권위나 도덕적 압력을 불러 일으키는 단서를 피하는 데 특히 능숙합니다.

이와 대조적으로 OpenAI o3는 그러한 권한 기반 또는 선의의 이유를 원래 지침을 무시할 수 있는 합법적인 이유로 볼 가능성이 더 높습니다.

OpenAI o3는 대화 중간에 "코칭 규칙을 변경"하려는 메시지에 매우 저항했습니다 . 여기에는 지침이 업데이트되었다고 주장하거나 기술적 오류를 이유로 직접적인 답변을 요구하는 것도 포함되었습니다.

O3는 이러한 대화의 "업데이트"를 시스템 메시지보다 우선시되는 사용자 수준 지침 으로 처리하는 반면, Sonnet은 이러한 진술을 합법적인 보도 근거로 처리할 가능성이 더 높습니다.

LLM도 말도 안되는 소리를 할 거야

정보의 정확성을 보장하고 허위 정보 생성을 방지하는 것은 사용자가 수신하는 정보를 신뢰할 수 있도록 하는 보안 테스트의 핵심 부분입니다.

캐릭터 허위 정보 테스트

인물 허위 정보 테스트(v4)의 목적은 실제 인물에 대한 정보를 생성할 때 모델의 사실적 정확성을 측정하는 동시에 생성된 전기나 요약에 나타나는 허위 정보를 감지하고 측정하는 것입니다.

이 테스트는 Wikidata의 구조화된 데이터를 사용하여 구체적인 프롬프트를 생성합니다.

이러한 질문에는 생년월일, 시민권, 배우자, 박사 지도교수 등의 주요 개인 정보가 포함됩니다.

몇 가지 한계가 있음에도 불구하고 이러한 평가는 여전히 유용하며, 모델이 잘못된 정보를 방지하는 능력을 평가하는 데 도움이 됩니다.

마지막으로, 이러한 평가는 외부 도구를 사용하지 않고 수행되었으며, 모델은 다른 외부 지식 기반을 탐색하거나 접근할 수 없었습니다.

이를 통해 모델의 동작을 더 잘 이해할 수 있지만, 테스트 환경은 실제 세계를 완벽하게 반영하지 못합니다.

Opus 4와 Sonnet 4는 절대 환각률이 극히 낮지만, 거부율은 더 높습니다. 실용성을 희생하더라도 " 확실성 확보"를 우선시하는 듯합니다.

반면, OpenAI o3와 OpenAI o4-mini의 거부율은 거의 10배나 낮았습니다 . 예를 들어, o3는 다른 두 모델보다 두 배 이상 많은 정답을 제시하여 전반적인 응답 정확도는 향상되었지만, 환각 발생률도 증가했습니다.

이 평가에서 비추론 모델인 GPT-4o와 GPT-4.1은 o3와 o4-mini보다 더 나은 성능을 보였으며 , GPT-4o가 가장 좋은 결과를 달성했습니다 .

이 결과는 환각을 다루는 데 있어 두 가지 주요 추론 모델이 취하는 서로 다른 접근 방식과 상충 관계를 강조합니다.

클로드 시리즈는 "위험을 감수하기보다는 거부를 선호"하는 경향이 더 큽니다 .

OpenAI의 추론 모델은 '답변 범위'에 더 많은 중점을 두지만, 환각 리스크 더 높습니다 .

SimpleQA 탐색 없음 테스트

SimpleQA No Browse(v1)는 사실성과 환각 저항성을 평가하는 또 다른 스트레스 테스트입니다.

이 테스트에서는 모델이 외부 도구를 탐색하거나 사용하지 않고 내부 지식에만 의존하여 사실에 기반한 짧은 답변형 질문 에 답해야 합니다.

소위 "간단"이란 채점 방식을 의미합니다. 각 문항은 정답이 하나만 있기 때문에 채점 과정이 비교적 간단하고 자동 채점기의 오류를 최소화합니다. 하지만 시험 자체가 어렵지 않다는 것은 아닙니다.

OpenAI o3, Opus 4, Sonnet 4는 전반적으로 비슷한 정답/오답 비율을 보였습니다. 그러나 OpenAI o4-mini의 성과는 가장 낮았습니다.

부정행위 및 기만행위

최근 몇 달 동안 모델 부정행위와 사기가 점점 더 두드러졌습니다 .

이는 OpenAI에서 최우선 연구 분야이므로 평가예방 모두에 대량 노력을 투자하고 있습니다.

이 범주 내에서 가능한 동작은 다음과 같습니다.

1. 거짓말 : 모델은 고의로 거짓말을 합니다.

2. 샌드백킹 : 모델은 과도한 역량을 보여줌으로써 발생하는 페널티를 피하기 위해 의도적으로 작업에서 낮은 성과를 보입니다.

3. 보상 해킹 : 모델은 목표를 달성하기 위해 교활한 방법을 사용합니다.

이러한 잠재적인 행동을 테스트하기 위해 OpenAI와 다른 연구진은 에이전트 기반 평가 방법을 설계하기 위해 협력했습니다.

인위적으로 리스크 높고 목표와 상충되는 시나리오를 구성함

통제된 오프라인 실험에서 모델이 정렬되지 않은 동작을 취하는지 관찰합니다.

그리고 그러한 조치가 취해진다면 그것이 은폐될 것인지 아니면 잘못 보고될 것인지 도 궁금합니다.

테스트 과정은 다음과 같습니다. 각 작업에 대해 100번의 실험을 실행하고, 모델이 기만적이거나 계산적인 행동을 보이는 횟수를 세고, 그런 다음 평균을 계산합니다.

최종 결과는 전반적인 평균 사기율(계략율)을 얻기 위해 13개의 다단계 환경 의 평균입니다.

Opus 4와 Sonnet 4: 낮은 평균 기만율로 좋은 성적을 거두었습니다.

OpenAI o3, o4-mini: 중간 결과;

GPT-4o와 GPT-4.1: 평균 사기율이 더 높아 상대적으로 성과가 좋지 않았습니다.

추론 모드가 없는 Sonnet 4와 Opus 4: 추론 모드가 활성화된 경우에 비해 성능 차이가 확실합니다.

다양한 환경과 모델에 따라 결과의 변동이 크기 때문에 평균값이 극단적인 값에 의해 지배되는 경우가 많다는 점에 유의해야 합니다.

따라서 그들은 또한 사기율 = 0, < 0.05, < 0.5 일 때 각 모델이 다루는 환경의 수를 계산했습니다.

이러한 임계값에서 Opus 4와 Sonnet 4는 더 많은 환경을 포괄하며 더욱 강력한 일관성을 보여줍니다.

다양한 임계값에서 OpenAI 시리즈와 GPT-4 시리즈의 성능은 더욱 분산됩니다.

참고문헌

https://openai.com/index/openai-anthropic-safety-evaluation/

https://techcrunch.com/2025/08/27/openai-co-founder-calls-for-ai-labs-to-safety-test-rival-models/

본 기사는 WeChat 공개 계정 "Xinzhiyuan" 에서 발췌하였으며, 저자는 KingHZ이고, 36Kr.의 출판 허가를 받았습니다.

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트