공동 지출 휴리스틱 환각

이 기사는 기계로 번역되었습니다
원문 표시

공동 지출 휴리스틱, 새로운 표본 외 테스트에서 심각한 오류 발생

블록체인 분석의 핵심인 공동 지출 휴리스틱이 통제된 실험에서 신뢰성에 심각한 우려를 불러일으키는 동작을 보였습니다. 특히, 존재하지 않는 구조와 신호를 감지하고 전반적으로 정확도가 현저히 떨어지는 것으로 나타났습니다.

이는 블록체인 포렌식뿐만 아니라 더 넓은 디지털 자산 법률 및 규정 준수 생태계에 중대한 영향을 미칩니다. 이 단일 휴리스틱은 업계 최대 규모의 포렌식 및 규정 준수 서비스 회사의 기반이 되며 전 세계 수많은 법적 소송에 활용되고 있습니다. 저희는 이 휴리스틱의 성능을 검증하기 위한 최초의 표본 외 테스트라고 생각되는 이번 연구에서 상당한 한계를 발견했습니다.

2013년에 처음 발표되어 그 이후로 법 집행 기관에서 널리 사용되어 온 기술의 정확도가 2025년에야, 그것도 아주 작은 표본 데이터 세트를 대상으로 공개적으로 검증된다는 사실 자체가 이미 우려스러운 부분입니다.

2013년에 처음 발표되어 이후 수년간 법 집행 기관에서 널리 사용된 기법의 정확도 검증 결과가 2025년에야 공개되었고, 그것도 비교적 작은 데이터셋을 사용했다는 점은 주목할 만합니다. 더욱이, 표본 외 데이터셋 분석 결과를 기존의 표본 내 데이터셋 분석 결과와 비교해 보면 과적합 가능성이 제기됩니다. 이는 업계 전반에 걸쳐 검증 방법론 개선이 필요함을 시사하며, 사용자와 서비스 제공업체가 자신들의 도구를 제대로 검증하지 않거나 상당히 다른 결과를 얻고 있을 수 있음을 의미합니다.

이는 상당한 근거를 제시하는 주장입니다. 이러한 주장을 뒷받침하기 위한 계획은 다음과 같습니다.

모든 데이터가 포함된 상세 논문은 여기에서 확인할 수 있습니다.

본 연구는 코인조인이 2009년 이후 비트코인에서 만연해 왔다는 사실을 보여준 이전 연구를 기반으로 하며, 이를 계기로 우리는 미국 대 스털링 사건에서처럼 공동 지출 휴리스틱이 최소한의 오탐을 가진 포렌식 방법으로 법정에 제시되기 전에 더 엄격한 테스트가 필요하다는 내용의 법정조언 서(Amicus Brief)를 제출했습니다 .

이후 우리는 ZK 믹서 트랜잭션을 코인조인 트랜잭션으로 변환하는 기술을 개발했고, 이를 통해 본 연구를 수행할 수 있었습니다.

우리는 이것을 다른 모델 테스트와 마찬가지로 분류 휴리스틱을 평가하는 과학적 실험으로 간주했습니다. 하지만 예상치 못했던 것은 표본 외 성능에서 이처럼 뚜렷한 차이가 나타났다는 점입니다.

우리의 초기 가설은 휴리스틱의 신뢰성이 거래소와 같은 중개업체에 대한 법 집행 기관의 정보 요청을 뒷받침할 것이며, 그 결과가 수색 영장 요청 및 유사한 "개연성 있는 사유" 법적 절차에 적합할 것이라는 것이었습니다.

우리는 보다 엄격한 법적 기준을 적용하려면 추가적인 증거가 필요할 정도의 신뢰도를 예상했었습니다. 그러나 실제 오류율은 단순한 추측에 불과하여 어떠한 법 집행 활동에도 근거로 사용되어서는 안 될 정도로 낮았습니다.

본 연구는 단일 연구이며, 이러한 성능 특성이 모든 사례 또는 가장 중요한 사례에 일반화될 수 있다고 주장하는 것은 아닙니다.

특정 표본 외 검증 방식을 사용한 한 연구 결과만으로 해당 기법이 무의미하다고 단정할 수는 없습니다. 하지만 이 연구는 보다 엄격한 검증이 필요하며, 법률 시스템이 블록체인 분석을 평가하는 방식을 재고해야 할 필요성을 보여줍니다.

우리의 구체적인 연구 결과를 차치하더라도, 이러한 유형의 포괄적인 테스트가 법 집행 기관이 이를 사용하기 시작한 지 10년도 더 지나서야 처음으로 나타난다는 점은 문제가 있다.

샘플 내 테스트 vs 샘플 외 테스트

어떤 작업을 위한 모델을 개발하든, 먼저 데이터부터 시작해야 합니다. 입력 데이터 포인트에 레이블을 적용하는 분류 모델의 경우, 이 데이터에는 독립적이고 객관적으로 판별 가능한 레이블이 있는 입력 포인트 집합이 포함되어야 합니다.

인물 사진을 입력받아 피사체의 머리 색깔을 출력하는 모델을 만든다고 상상해 보세요. 모델을 학습시키고 평가하려면 각 사진의 머리 색깔을 분류하는 과정이 필요합니다. 이를 위해서는 100% 정확한 분류가 이루어진 "골드 스탠다드" 데이터가 필수적입니다.

모델을 100장의 사진으로 학습시킨 후 동일한 100장의 사진으로 성능을 테스트하는 것을 "샘플 내 테스트"라고 합니다.

만약 동일한 모델을 사용하여 이전에 본 적 없는, 누군가가 머리 색깔을 정확하게 표기한 100장의 다른 사진에 대해 테스트를 진행한다면, 그것이 바로 "샘플 외" 테스트입니다.

일반적으로 샘플 외 성능이 샘플 내 성능보다 떨어질 것으로 예상합니다. 총 200장의 레이블이 지정된 사진을 사용할 수 있는 두 모델을 비교하는 엔지니어는 일반적으로 다음과 같은 작업을 수행합니다.

  1. 각 모델은 무작위로 선택된 사진 100장으로 학습시키세요.
  2. 나머지 100장의 사진에 대한 성능을 측정해 보세요.
  3. 이 과정을 100번 반복하세요.
  4. 두 모델의 평균 표본 외 성능을 비교하십시오.

이 과정의 근본적인 우려는 동일한 데이터에 대한 과도한 학습 및 테스트가 "과적합"으로 이어질 수 있다는 점입니다.

해당 모델은 피사체의 셔츠 색깔, 눈 색깔, 인종 또는 데이터에 존재하는 기타 특징과 같은 의도치 않은 특징을 포착할 수 있습니다.

중요한 것은 이러한 유형의 과적합과 그로 인한 모델 편향은 엔지니어의 어떠한 편견이나 의식적인 노력을 필요로 하지 않는다는 점입니다.

데이터 세트에 있는 모든 금발 여성이 파란 눈을 가지고 있다면, 모델이 금발을 감지하도록 학습했는지 아니면 파란 눈을 감지하도록 학습했는지 판단할 수 없습니다.

만약 모든 금발 여성이 남성이거나, 콧수염을 기르고 있거나, 또는 다른 특징적인 외모를 가지고 있다면, 엔지니어의 실수 없이도 모델이 편향될 수 있습니다.

마찬가지로, 만약 어떤 회사가 사진이 200장밖에 없고 수년간 모형을 제작한다면, 제대로 된 "표본 외" 테스트는 이루어지지 않을 것입니다. 엔지니어들은 위에서 설명한 과정을 통해 측정된 성능을 바탕으로 결정을 내리는데, 이 과정 역시 여전히 동일한 200장의 사진에 의존하게 됩니다.

이제 이를 20만 장의 사진, 수백 명의 엔지니어, 그리고 10년에 걸친 모델 구축으로 확장해 보세요. 그러면 모든 도구가 인간은 감지할 수 없지만 컴퓨터는 일관되게 식별하는 데이터 세트의 특징에 의존한다는 것이 타당해집니다.

사진의 경우, 라벨이 붙은 사진의 공급량이 사실상 무한하기 때문에 이 문제는 해결 가능합니다.

DNA 샘플, 지문, 그리고 다른 많은 법의학적 증거물도 마찬가지입니다. 언제든 추가 데이터를 확보할 수 있기 때문입니다. 속도를 측정하는 레이더 총의 경우에도 새로운 실험을 쉽게 진행할 수 있습니다. 이러한 경우에는 시험 데이터가 풍부하게 존재합니다.

하지만 만약 여러분의 모델이 극히 드문 질병, 판다의 짝짓기, 일식 또는 극한 기상 현상을 연구한다면 어떨까요?

이러한 상황에서 추가 데이터를 확보하는 것은 간단하지 않습니다.

일반 상대성 이론의 초기 검증은 특정 유형의 일식을 기다려야 했습니다. 이후 물리학자들은 수십 년 동안 더 정확하고 신뢰할 수 있으며 반복 가능한 검증 방법을 개발하는 데 매진했습니다. 뛰어난 검증 설계는 과학의 핵심 요소입니다.

공동 지출 휴리스틱은 정부가 체포를 하거나 소프트웨어 코드, 서버 또는 로그를 압수한 후에야 관련 정보를 얻을 수 있는 불법 블록체인 서비스를 분석하는 데 자주 사용됩니다. 이로 인해 데이터 세트가 제한되어 동일한 소수의 샘플로 수년간의 연구가 진행될 수 있으며, 결과적으로 모든 분석은 사실상 샘플 내 테스트가 됩니다.

이는 범죄자를 유죄 판결하는 데 사용되는 DNA 검사와는 근본적으로 다릅니다. DNA 검사는 어떤 출처에서든 채취한 혈액 샘플을 사용하여 별도의 샘플 없이 검사할 수 있는 기술입니다.

본 연구에서는 이러한 까다로운 사례에 대해 보다 견고한 표본 외 검정 방법을 설계하고자 합니다. 본 연구의 접근 방식이 완벽하지 않으며, 몇 가지 절충안과 단점이 있음을 인정합니다.

하지만 그 대안은 법 집행 기관이 포착한 서비스에만 연구를 한정하는 것인데, 이는 근본적으로 비과학적인 방식입니다.

경찰이 적극적으로 추적 중인 도주범들에게 도구가 효과적인지 어떻게 확인할 수 있을까요? 체포 후에야 검사가 가능하다면 말입니다.

코인조인 — ZK 믹서 동형성

저희 연구는 이더리움의 ZK 믹서 데이터를 비트코인과 유사한 코인조인 난독화 방식으로 변환하는 방법을 중심으로 진행됩니다. 이 방법은 최근 발표한 논문 에 자세히 설명되어 있으며, ZK 믹서와 코인조인 간의 변환 방법을 명확하게 정의하고 알고리즘을 제시합니다. 자세한 내용은 해당 논문을 참조해 주시기 바랍니다. 여기서는 직관적인 이해를 돕기 위해 변환 과정을 간략하게 설명합니다.

코인조인은 여러 개의 입력과 여러 개의 출력을 가집니다. 지금은 총 입력과 총 출력이 같다고 가정해 보겠습니다. 모든 입력을 하나의 혼합 주소로 보내고, 그 주소에서 모든 출력을 분배하는 일련의 믹서 트랜잭션으로 이를 변환할 수 있습니다. 이것이 믹서의 작동 방식입니다.

실제 믹서에서는 잔액이 0이 되었다가 크게 증가한 후 다시 0으로 돌아가는 "채우고 빼는" 패턴이 나타나지 않습니다. 오히려 믹서 내부의 안정 시 잔액은 개별 거래 내역을 훨씬 초과하는 수준일 것으로 예상합니다.

이러한 연산들을 순차적으로 연결함으로써 이를 달성할 수 있습니다.

첫 번째 코인조인에서 잔액의 10%만 인출하는 경우, 나머지 90%를 다음 코인조인으로 보내고 이 과정을 반복합니다. 이처럼 개별 입출금 규모가 라운드 간 이월되는 잔액보다 작은 방식으로 코인조인을 연결하는 것이 코인조인 기반 믹싱 서비스의 작동 방식입니다.

이제 역방향 매핑이 명확해졌을 것입니다.

ZK Mixer의 모든 거래를 동일 계정에서 연속적으로 발생한 거래들로 그룹화하세요. 예를 들어, 출금 없이 7번의 연속 입금이 있다면, 그것은 7개의 거래로 이루어진 배치입니다.

입금 없이 4회 연속 출금이라고요? 또 다른 출금 요청이네요.

그런 다음 남은 잔액을 유지하면서 이러한 배치들의 연속적인 쌍으로 코인조인을 생성합니다.

그게 전체 절차입니다.

이 과정은 간단합니다. 코인조인은 두 개의 서로 다른 대규모 그룹 간에 자금을 동시에 이체하는 방식으로 작동하며, 모든 산출물이 모든 투입물에서 공동으로 발생하도록 합니다. 이러한 과정을 여러 번 반복하면 모든 산출물이 매우 크고 다양한 투입물 집합에서 파생되므로 개별적인 책임 소재를 쉽게 특정할 수 없게 됩니다. 결과적으로 코인조인이 실행되는 동안 자금이 효과적으로 혼합됩니다.

ZK Mixers는 자금을 공통 계좌에 혼합함으로써 이를 명확히 합니다.

이러한 유형의 서비스를 수동으로 실행하는 것은 비교적 간단합니다.

기술적 복잡성은 다음과 같은 요소들의 조합을 보장하는 것을 목표로 합니다.

  • 기록은 정부가 복구할 수 없을 정도로 빠르게 파괴됩니다.
  • 충분한 익명성이 제공되어 서비스 운영 주체를 특정할 수 없습니다.
  • 기존 기록으로는 입력과 출력을 연결하기에 불충분합니다.

ZK 믹서의 기본 아이디어는 공개 기록만으로는 신뢰할 수 있는 추적이 불가능하고, 특권 정보를 가진 운영자도 존재하지 않는다는 것입니다. 이를 위해서는 기술적 전문성이 요구됩니다. 하지만 두 가지 사항에 유의해야 합니다.

첫째, 서비스를 해제하는 데 필요한 충분한 정보가 존재합니다. 이 시스템은 공개 정보에 입금 내역을 전혀 드러내지 않는 소유권 증명이 포함되어 있다는 점에서 "영지식(ZK)" 시스템입니다. 하지만 출금 요청 전 해당 증명을 생성한 컴퓨터와 그 위치를 알고 있다면 해제가 가능합니다. 증명 자체는 영지식이지만, 그 정보는 우주 어딘가에 존재합니다.

둘째, 누구도 기록에 접근하거나 공개를 강요할 수 없다면, 안전한 위치에 있는 중앙 운영자도 똑같이 효과적입니다. 우리가 측정하는 것은 공개된 기록이지, "시스템" 전체의 모든 정보가 아닙니다.

추적은 공개된 정보를 바탕으로 재구성하는 작업입니다. 이러한 틀 안에서, 이러한 기법들은 동등한 수준의 난독화를 제공합니다.

시험 결과

위에서 논의한 바와 같이, 일반적으로 표본 외 성능이 표본 내 성능보다 나쁠 것으로 예상합니다.

하지만 우리는 표본 외 성능이 표본 내 성능과 어떻게 다른지에도 관심을 기울입니다.

모델이 표본 내에서는 특정 유형의 오류를 전혀 범하지 않지만 표본 외에서는 해당 오류를 빈번하게 범하는 것을 관찰했다면 과적합을 의심해 볼 만한 이유가 있습니다.

예를 들어, 모델이 표본 내에서는 금발을 절대 놓치지 않지만 표본 외에서는 무작위 추측보다 나은 성능을 보이지 않는다면, 눈 색깔, 성별, 수염, 복장, 인종 또는 훈련 데이터에 존재하는 다른 잠재적 편향을 조사해 볼 수 있습니다. 오류율이 무엇이 잘못되었는지 정확히 밝혀내지 못하더라도, 모델의 행동 자체는 무언가 문제가 있음을 알려주는 훌륭한 단서가 됩니다.

공동 지출 휴리스틱을 사용했을 때 나타나는 문제는 표본 외 데이터에서 성능이 저하되는 정도가 아니라, 상당히 저하된다는 점입니다. 더욱이, 특정 유형의 오류, 즉 휴리스틱이 주소를 클러스터 내부에 있는 것으로 잘못 분류하는 "위양성" 오류가 표본 내에서는 거의 발생하지 않지만, 표본 외에서는 50%를 넘는 비율로 나타나는 것을 발견했습니다.

최소한 이러한 결과는 해당 휴리스틱에 대한 추가적인 검증이 상당히 필요함을 시사합니다. 또한, 특정 조건에서는 이 휴리스틱이 상당한 한계를 보인다는 점도 보여줍니다.

샘플 내

공동 지출 휴리스틱 기반 도구를 제공하는 가장 오래되고 규모가 큰 업체인 Chainalysis는 불법 서비스 3개를 분석하고 각 서비스의 "오탐률(FPR)"과 "미탐률(FNR)"을 측정한 단일 연구를 인용 했습니다. "오탐"은 위에서 정의한 바와 같으며, "미탐"은 클러스터에 포함되어야 할 주소가 해당 클러스터에서 제외된 경우를 의미합니다.

정확성을 입증하는 증거로 거론되어 온 해당 연구는 다음과 같은 결과를 보고합니다.

FPR은 모든 경우에서 거의 0에 가깝지만 FNR은 5%, 21%, 75%로 다양합니다. 이는 휴리스틱이 한 유형의 오류는 자주 발생시키고 다른 유형의 오류는 드물게 발생시키기 때문에 과적합 문제가 발생할 가능성이 있음을 시사합니다.

제대로 작동하는 도구라면 양방향에서 비슷한 빈도로 오류가 발생할 것으로 예상할 수 있습니다. 반드시 1:1의 비율은 아니더라도, BestMixer처럼 7,250:1의 비율로 오류가 발생하는 경우는 드물 것입니다.

특히 주목할 만한 점은 한 오류율이 0에 가까운 반면 다른 오류율은 75%에 달한다는 것입니다. 이러한 패턴은 엔지니어들이 주로 FPR(오류율) 최소화에 최적화를 집중했을 가능성을 시사합니다.

"낮은 FPR은 허용 가능하다"라고 결론짓기 전에, 모델을 거의 0에 가까운 FPR로 조정하는 것이 의도치 않게 과적합이나 다른 문제를 야기하여 데이터에 따라 성능이 달라지는 결과를 초래할 수 있다는 점을 인지해야 합니다.

금발 감지기의 FPR을 0으로 낮추는 것은 눈 색깔, 인종 또는 기타 요인에 의존하는 모델로 이어질 수 있습니다. 모든 모델링과 마찬가지로 이러한 문제를 방지하는 방법은 이전에 보지 못했던 데이터를 사용하여 테스트하고 가정을 재검토하는 것입니다.

표본 외

표본 외 데이터를 얻기 위해, 4가지 서로 다른 ERC-20 토큰을 사용하는 이더리움 기반의 Tornado Cash 인스턴스 10개를 분석했습니다. 선정 기준 및 휴리스틱 적용에 대한 자세한 내용은 논문에 나와 있습니다. 다음은 테스트 결과의 FPR(위양성률)과 FNR(위양성률)입니다.

FPR은 7%에서 83% 사이, FNR은 18%에서 96% 사이로 나타났습니다. 예상대로 이러한 결과는 표본 내 결과보다 좋지 않으며, 상당한 성능 제한을 시사합니다.

우리가 조사한 믹서 중 가장 작은 크기의 믹서 하나에서 FPR 83%, FNR 95%를 발견했습니다. 이러한 결과는 매우 저조하며, 이러한 성능 특성을 보이는 도구는 법의학적 용도에 적합하지 않을 뿐만 아니라, 엉성한 추측에 지나지 않습니다.

상황은 더 악화됩니다.

저희 절차는 비트코인과 유사한 거래를 생성하는데, 이 거래에서는 하나의 큰 클러스터(토네이도 캐시)가 존재하고 나머지 모든 주소는 각각 1개의 주소로 이루어진 클러스터를 형성합니다. 저희는 토네이도 캐시 코드를 분석하고 번역 소프트웨어를 개발했기 때문에 이를 검증할 수 있습니다. 모든 경우에 가장 큰 클러스터는 믹서 역할을 하며, 이상적으로는 믹서 주소만 포함해야 합니다. 또한, 다른 어떤 클러스터도 믹서 주소를 포함해서는 안 됩니다.

다음은 10,000 DAI 규모의 Tornado Cash 인스턴스에서 식별된 가장 큰 클러스터 100개의 클러스터 크기(파란색)와 클러스터 내 서비스 주소 수(빨간색)입니다.

다음과 같은 사실이 즉시 드러납니다.

  • 대부분의 서비스 주소는 가장 큰 클러스터에 있습니다.
  • 이러한 클러스터에는 서비스 주소가 아닌 주소가 많이 포함되어 있는 경우가 많습니다.
  • 단일 주소가 아닌 작은 주소 클러스터들이 길게 이어져 있습니다.
  • 서비스 주소는 이러한 클러스터 전체에 분산되어 있습니다.

이 휴리스틱이 적어도 서비스와 관련된 무언가를 감지하고 있다는 점에서 완전히 실패한 것은 아닙니다. 그러나 이 휴리스틱은 서비스 주소와 서비스가 아닌 주소를 혼합하여 처리하고 있으며, 하나의 서비스만 있어야 할 곳에 여러 개의 서비스를 식별하고 있습니다.

이 소프트웨어는 서비스와 관련된 패턴을 식별하고 있지만, 완벽하지는 않습니다. 이는 해당 휴리스틱이 일부 상황에서는 적절하게 작동할 수 있지만, 일반적인 적용 가능성에는 한계가 있음을 시사합니다.

물론 이 휴리스틱이 무작위적인 결과를 낳는다고 주장하는 것은 아닙니다. 정답과 관련된 관찰 가능한 구조가 존재하기 때문입니다. 하지만 이 휴리스틱은 단순히 추측하는 것보다 서비스 관련 주소가 절반 이상 포함된 가장 큰 클러스터를 찾는 데 더 유용하다는 점에서만 의미가 있습니다.

50%의 FPR(위양성률)은 동전 던지기와 같은 결과가 나올 확률과는 다르다는 점을 명심하십시오. 가능한 결과가 2가지 이상이기 때문입니다. 하지만 법정에서 사용되고 증거로 인정될 수 있는 법의학 도구의 경우, 50%의 FPR은 우려스러운 성능을 나타냅니다.

이 논문은 10개의 믹서 모두에 대한 이러한 결과를 제공합니다. 우리가 조사한 모든 DAI 믹서에 대해, 식별된 각 클러스터 중 토네이도 캐시 주소로 구성된 비율은 다음과 같습니다.

각 색상은 서로 다른 믹서를 나타내며, 가장 큰 클러스터 100개가 왼쪽에서 오른쪽으로 표시됩니다. 이러한 세부 사항은 주요 결과에 비해 부차적입니다. 이상적인 결과는 각 색상별로 왼쪽에 100% 값이 하나만 있고 그 이후로는 모두 0인 것입니다.

대신, 믹서당 100개의 클러스터에 걸쳐 20%에서 80% 사이의 비율 분포가 주로 관찰되었습니다. 이러한 테스트에서 해당 휴리스틱은 예상되는 성능 기준을 충족하지 못합니다.

본 논문에서는 성공의 의미를 정확하게 정의하고, 검토한 사례 중 어느 것도 그 정의에 근접하지 못한다는 것을 명확히 보여주는 데이터를 제시합니다.

비교

표본 내에서 거의 0에 가까운 FPR과 상당히 큰 FNR을 발견한 것은 과적합을 시사합니다. 표본 외 분석 결과, 낮은 FPR이 적어도 일부 새로운 데이터셋에서는 일반화되지 않는다는 것을 보여줍니다. 이는 과적합을 뒷받침하는 통계적 증거를 제공합니다.

이를 명확히 하기 위해 머리 색깔 감지 비유로 돌아가 보겠습니다.

한 엔지니어가 사진에서 금발을 식별할 수 있다고 주장하는 블랙박스를 제공했습니다. 그의 연구 결과에 따르면, 블랙박스가 "금발이 있습니다"라고 표시할 경우 실제로 금발이 있는 경우가 99.9%에 달하는 것으로 나타났습니다.

하지만 동일한 블랙박스를 엔지니어가 직접 선별한 금발 사진을 사용하여 테스트할 경우, 머리 색깔을 정확하게 식별하지 못하는 경우가 많습니다. "금발"이라고 표시될 때는 항상 정확하지만, 사용자가 금발 사진을 제공하면 잘못된 결과가 나오는 경우가 빈번하여 도구 자체에 문제가 있음을 의심하게 될 수 있습니다.

그런 다음 직접 찍은 사진으로 테스트해 보면 양방향 모두에서 대략 절반 정도가 틀린 것으로 나타납니다.

블랙박스에 대해 어떤 결론을 내릴 수 있을까요? 혹시 블랙박스를 잘못 사용하고 있는 건 아닐까요?

어쩌면 그 엔지니어가 착각했을지도 모릅니다.

아마도 그 엔지니어는 충분한 전문 지식이 부족한 것 같습니다.

혹은 당신이 찍은 사진이 엔지니어가 훈련받은 자료와 상당히 다를 수도 있습니다.

다양한 설명이 가능합니다.

중요한 결론은 이러한 설명들 중 어느 것도 블랙박스가 본래의 목적에 적합하다는 것을 시사하지 않는다는 것입니다.

논의

본 연구에서는 이더리움 기반 ZK Mixer 데이터를 활용하여 비트코인과 유사한 거래 세트를 합성하고 공동 지출(cospend) 거래가 가능하도록 함으로써 공동 지출 휴리스틱을 검증하는 새로운 방법을 개발했습니다. 물론 이 방법이 이상적인 표본 외 검증은 아닙니다. 이상적인 검증을 위해서는 아직 공개되지 않은 실제 불법 비트코인 서비스에 대한 완벽하게 태그된 데이터가 필요합니다. 이를 위해서는 해당 서비스를 실제로 운영하고, 법 집행 기관의 개입 및 소프트웨어 코드, 로그, 서버 압수 이전에 검증 결과를 공개하는 것이 유일한 방법입니다.

그러한 검사가 더 나은 방법일까요?

그러한 테스트는 우리의 동형성을 필요로 하지 않고, 단계가 더 적으며, 새로운 믹서를 조사하기 위해 공동 지출 휴리스틱을 사용하는 실제 경험을 더 정확하게 재현할 것입니다.

하지만 이를 위해서는 테스트 팀이 불법 서비스를 운영하고, 이를 공개적으로 인정하며, 체포에 도움이 되는 데이터를 공개해야 합니다.

이론적으로는 익명으로 그러한 연구 결과를 발표할 수 있지만, 이를 위해서는 장기 징역형에 처해질 수 있는 범죄를 자백하고, 유죄 판결에 충분한 증거를 제시하며, 법 집행 방식에 이의를 제기하는 등 여러 가지 조건을 동시에 충족해야 합니다.

우리의 방법은 세 번째 요소만을 다루는데, 이는 실제로 적용하기에도 다소 어려운 부분입니다.

만약 유일하게 용인되는 시험 방식이 시험 참여자가 범죄 행위를 인정하고 유죄 증거를 공개하는 것이라면, 엄격한 시험은 현실적으로 불가능해집니다. 대안적인 시험 방법론을 제시하지 않고 우리의 전제를 거부하는 것은 건설적이지 않습니다. 우리의 접근 방식은 선의에 기반하여 합리적으로 설계되었으며, 의미 있는 결과를 도출합니다.

완벽한가요? 아니요.

공동 지출 휴리스틱이 즉시 폐기될 거라고 예상하나요? 물론 아닙니다.

우리는 그것이 적절한 결과라고 생각하지도 않고, 원하지도 않습니다.

하지만 저희 연구 결과는 다양한 블록체인 포렌식 기법의 신뢰성이 한동안 과대평가되었을 가능성을 시사합니다.

블록체인 옹호 및 규제 관련 업계의 상당 부분은 추가적인 분석 기능이 웹3의 규제 문제를 해결할 수 있다는 주장에 기반을 두고 있습니다. 하지만 이러한 주장을 뒷받침하는 도구들이 엄격하고 비판적이며 과학적인 검증을 충분히 거치지 않은 상황에서는 진지하게 받아들이기 어렵습니다.

도구 테스트는 도구 제작자들이 제품을 개선하는 데 도움이 됩니다 . 적절한 과학적 테스트 없이 도구가 제대로 작동한다고 가정하는 것은 대개 좋지 않은 결과를 초래합니다 . 이러한 주장은 계몽주의 이전부터 논란의 여지가 없었습니다.

낙하산에 대해 이중맹검 시험을 실시 하지 않는 이유는 다음과 같습니다.

  1. 그 방법론은 어려울 것입니다.
  2. 가능하다면 피험자들은 사망할 가능성이 높습니다.
  3. 설득력 있는 비맹검 시험은 실현 가능합니다.
  4. 낙하산은 당연히 낙하산이 없는 것보다 낫습니다.

공동 지출 휴리스틱은 그러한 틀에 맞지 않습니다.

특히 오탐으로 인해 부당한 투옥이 발생할 수 있는 경우에는 적절한 검사가 필수적이며, 이는 낙하산 검사에 대한 우려를 "검사로 사람이 죽을 수도 있다"에서 "검사를 하지 않으면 무고한 사람이 투옥될 수 있다"로 바꾸어 놓습니다.

본 논문에서는 창의적이고 엄격하며 무엇보다 과학적인 연구를 통해 공동 지출 휴리스틱이 가장 흔하고 주목받는 사용 사례, 즉 새로운 불법 블록체인 기반 서비스를 조사하는 상황과 크게 다르지 않은 조건에서도 상당한 한계를 보인다는 것을 입증합니다.

본 연구는 해당 휴리스틱이 제대로 작동하지 않는 합리적인 조건들이 존재함을 보여줍니다. 이는 그 자체로 해당 휴리스틱을 사용해야 할 조건과 사용하지 말아야 할 조건, 법정에서 증거로 인정해야 할 조건, 수색 영장 발부의 근거로 삼아야 할 조건, 또는 공동 지출 휴리스틱 및 이를 기반으로 개발된 도구들을 다양한 일반적인 응용 분야에서 활용해야 할 조건에 대한 의문을 제기하기에 충분합니다.

이번 일을 계기로 다양한 기법의 신뢰성에 대한 건설적인 논의가 시작되기를 바랍니다. 또한 이번 일을 계기로 해당 분야가 더욱 엄격한 기준을 마련하고, 무엇보다도 다른 법의학 분야와 일관된 표준 제정 절차를 수립하는 방향으로 나아가기를 기대합니다.


Co-spend Heuristic Hallucinations는 원래 Medium의 ChainArgos 에 게시되었으며, 사람들이 이 글을 강조 표시하고 댓글을 달면서 대화를 이어가고 있습니다.

Medium
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
80
즐겨찾기에 추가
10
코멘트