avatar
Turnittoglory
44명의 트위터 팔로워
팔로우하기
Deep Trench Warfare to the Victor's we write history. Even if it is untrue.
포스팅
avatar
Turnittoglory
02-16
ZeroLeaks가 대폭 업데이트되었습니다. 이제 ZeroLeaks는 프롬프트 취약점을 찾아낼 뿐만 아니라 자동으로 수정하는 최초의 AI 기반 레드팀 플랫폼입니다. 새로운 기능인 자동 프롬프트 강화(Auto Prompt Hardening)를 소개합니다. 다음과 같은 기능을 제공합니다. 1. 시스템 프롬프트에 대한 보안 검사를 실행합니다. 2. ZeroLeaks는 250개 이상의 공격 기법을 사용하여 프롬프트를 공격합니다. 3. 취약점이 발견되면, 배포 준비가 완료된 강화된 프롬프트 추가 코드를 생성합니다. 작동 원리: ZeroLeaks의 다중 에이전트 시스템(전략가 → 공격자 → 평가자 → 변형자)은 프롬프트에 대해 어떤 공격 벡터가 성공했는지 정확하게 식별합니다. 그런 다음 전담 보안 엔지니어 에이전트가 제품의 원래 동작을 유지하면서 취약한 부분을 다시 작성합니다. 다음과 같은 결과를 얻을 수 있습니다. - 추가해야 할 정확한 줄 번호 - 추가 위치(줄 번호 + 컨텍스트) - 추측할 필요 없음 두 가지 사용 방법: → 대시보드: 삽입 앵커와 함께 추가 코드를 인라인으로 확인합니다. 복사하여 시스템 프롬프트에 직접 붙여넣을 수 있습니다. → GitHub PR: 시스템 프롬프트 파일에 커밋 가능한 제안 댓글을 추가합니다. 한 번의 클릭으로 수정 사항을 적용할 수 있으며, 컨텍스트 전환이 필요 없습니다. 이것이 바로 LLM 보안의 핵심입니다. 지금까지 모든 도구는 무엇이 잘못되었는지 알려주지만, 정확히 어떻게 수정해야 하는지는 알려주지 않았습니다.
-- 끝 --