비탈릭: 슈퍼 AI가 인류를 멸종시킨다는 이론은 왜 방어 기술을 무시하는 걸까요?

07-11

이 기사는 기계로 번역되었습니다

원문 표시

작성자: 비탈릭 부테린

번역: 루피, 포어사이트뉴스(Foresight News)

원제목: 비탈릭이 보는 「AI 2027」: 초급 AI가 정말로 인류를 파괴할까?

올해 4월, 다니엘 코코타일로, 스콧 알렉산더 등이 「AI 2027」 보고서를 발표하며 「향후 5년간 초인간 AI의 영향에 대한 최선의 추측」을 묘사했습니다. 그들은 2027년까지 초인간 AI가 탄생할 것이며, 전체 인류 문명의 미래는 AI의 발전 결과에 달려 있을 것이라고 예측했습니다: 2030년까지 우리는 유토피아(미국의 관점에서)를 맞이하거나 완전한 파멸(전 인류의 관점에서)로 향할 것입니다.

[이하 생략]

따라서 생물무기는 《AI 2027》 시나리오에서 묘사된 방식으로 인류를 완전히 파괴할 가능성은 낮습니다. 물론, 제가 설명한 모든 결과가 인류의 "깔끔한 승리"는 아닙니다. 우리가 무엇을 하든 (아마도 "의식을 로봇에 업로드"하는 것은 제외하고), 전면적인 AI 생물전은 여전히 매우 위험할 것입니다. 그러나 "인류의 깔끔한 승리" 기준에 도달할 필요는 없습니다: 공격이 부분적으로 실패할 확률이 높다면, 이미 세계에서 강세를 차지하고 있는 AI에 대한 강력한 억지력을 형성하여 어떤 공격도 시도하지 못하게 할 수 있습니다. 물론, AI 발전 타임라인이 길수록 이러한 방어 수단이 충분히 작용할 가능성이 높아집니다.

생물무기와 다른 공격 수단을 결합하면 어떨까요?

위의 대응 조치가 성공하려면 세 가지 전제 조건을 충족해야 합니다:

· 세계 물리적 안전(생물 및 대무인기 안전 포함)이 지역 당국(인간 또는 AI)에 의해 관리되며, 완전히 합의-1(《AI 2027》 시나리오에서 최종적으로 세계를 통제하고 인류를 파괴하는 AI의 이름)의 괴뢰가 아닐 것;

· 합의-1이 다른 국가(또는 도시, 기타 안전 지역)의 방어 시스템을 침입하여 즉시 무력화할 수 없을 것;

· 합의-1이 글로벌 정보 영역을 완전히 통제하여 자위를 시도하려는 사람이 없을 정도는 아닐 것.

직관적으로 볼 때, 전제 조건 (1)의 결과는 두 극단으로 갈 수 있습니다. 현재 일부 경찰 부대는 강력한 국가 지휘 체계를 가진 고도로 집중된 반면, 다른 부대는 지역화되어 있습니다. 물리적 안전이 AI 시대의 요구에 빠르게 적응해야 한다면, 패러다임은 완전히 재설정될 것이며 새로운 결과는 향후 몇 년간의 선택에 따라 달라질 것입니다. 각국 정부는 게으르게 팔란티어에 의존할 수도 있고, 로컬 개발 및 오픈소스 기술을 결합한 솔루션을 능동적으로 선택할 수도 있습니다. 이 점에서 우리는 올바른 선택을 해야 합니다.

(이하 생략, 전체 번역을 원하시면 추가로 요청해 주세요)

초인적 인공지능(AI)의 발전을 지연시키는 것은 여전히 좋은 일이다. 초인적 인공지능은 10년 후에 등장하는 것이 3년 후보다 더 안전하며, 30년 후에 등장하면 더욱 안전하다. 인류 문명에 더 많은 준비 시간을 제공하는 것은 유익하다.

이를 어떻게 달성할 것인지는 어려운 문제다. 미국이 제안한 "10년 주(州)급 AI 규제 금지"가 부결된 것은 전반적으로 좋은 일이지만, 특히 SB-1047과 같은 초기 제안이 실패한 후에는 다음 단계의 행동 방향이 불분명해졌다. 나는 고위험 AI 발전을 지연시키는 가장 침해적이지 않고 가장 안정적인 방법은 최첨단 하드웨어를 규제하는 어떤 조약과 관련될 수 있다고 생각한다. 효과적인 방어에 필요한 많은 하드웨어 네트워크 보안 기술은 국제 하드웨어 조약을 검증하는 데도 도움이 되므로, 여기에는 심지어 시너지 효과가 존재한다.

그럼에도 불구하고, 주목할 만한 점은 위험의 주요 원천이 군사 관련 행위자들이며, 그들은 이러한 조약에 대한 면제를 극렬히 추구할 것이라는 점이다. 이는 절대 허용되어서는 안 되며, 만약 그들이 최종적으로 면제를 받는다면, 군대에 의해 추진되는 AI 발전만이 위험을 증가시킬 수 있다.

AI가 더 좋은 일을 할 가능성을 높이고 나쁜 일을 할 가능성을 줄이는 조정 작업은 여전히 유익하다. 주요 예외 상황(그리고 항상 그래왔듯이)은: 조정 작업이 궁극적으로 능력 향상으로 발전하는 경우다.

AI 연구소의 투명성을 높이는 규제는 여전히 유익하다. AI 연구소의 행동 규범을 장려하는 것은 리스크를 낮출 수 있으며, 투명성은 이 목표를 달성하는 좋은 방법이다.

"오픈소스는 해롭다"는 심성이 더욱 위험해지고 있다. 많은 사람들이 AI 가중치 공개에 반대하는데, 그 이유는 방어가 비현실적이며 유일한 밝은 전망은 좋은 AI를 가진 선한 사람들이 그렇지 않은 사람들보다 먼저 초인적 지능을 실현하여 어떤 극도로 위험한 능력을 얻는 것이라고 주장한다. 그러나 본문의 논점은 다른 그림을 그린다: 방어가 비현실적인 이유는 정확히 어떤 행위자가 크게 앞서 있고 다른 행위자들이 따라가지 못하기 때문이다. 힘의 균형을 유지하기 위해 기술 확산이 중요해진다. 그러나 동시에, 단순히 오픈소스 방식으로 진행된다고 해서 최첨단 AI 능력 증강을 가속화하는 것이 좋다고 생각하지는 않는다.

미국 연구소의 "우리는 중국을 이겨야 한다"는 심성이 비슷한 이유로 더욱 위험해지고 있다. 만약 패권이 안전 완충지대가 아니라 위험의 원천이라면, 이는 (불행하게도 너무 흔한) "선의를 가진 사람들이 선두 AI 연구소에 합류하여 더 빨리 승리하도록 도와야 한다"는 관점을 더욱 반박한다.

"공공 AI" 등의 이니셔티브가 더 많은 지지를 받아야 하며, AI 능력의 광범위한 분포를 보장함과 동시에 기반 시설 행위자들이 실제로 본문에서 언급된 방식으로 새로운 AI 능력을 신속하게 적용할 수 있는 도구를 확보하도록 해야 한다.

방어 기술은 "모든 늑대를 사냥"하는 대신 "무장한 양"의 개념을 더 많이 반영해야 한다. 취약한 세계 가설에 대한 논의는 종종 유일한 해결책이 패권 국가가 잠재적 위협의 출현을 방지하기 위해 전 세계를 감시하는 것이라고 가정한다. 그러나 비패권 세계에서는 이것이 실행 가능한 방법이 아니며, 하향식 방어 메커니즘은 강력한 AI에 의해 쉽게 전복되어 공격 도구로 변환될 수 있다. 따라서 더 큰 방어 책임은 세계의 취약성을 줄이기 위해 힘든 노력을 통해 달성되어야 한다.

위의 논점들은 추측에 불과하며, 이러한 논점에 기반한 거의 확실한 가정을 바탕으로 행동해서는 안 된다. 그러나 『AI 2027』의 이야기도 추측적이며, 우리는 "구체적인 세부 사항이 거의 확실하다"는 가정을 바탕으로 행동하는 것을 피해야 한다.

나는 특히 다음과 같은 일반적인 가정을 우려한다: AI 패권을 수립하고 "동맹"을 맺으며 "경쟁에서 승리"하는 것이 유일한 전진 방법이라는 것이다. 내 견해로는 이러한 전략이 우리의 안전성을 크게 저하시킬 가능성이 높다. 특히 패권과 군사 응용이 깊이 연결된 경우, 이는 많은 동맹 전략의 효과성을 크게 감소시킬 것이다. 패권 AI에 편차가 발생하면 인간은 모든 견제 수단을 잃게 될 것이다.

『AI 2027』 시나리오에서 인류의 성공은 미국이 결정적인 순간에 파괴가 아닌 안전한 길을 자발적으로 선택하는 데 달려 있다. 즉, AI 진전을 자발적으로 늦추고 Agent-5의 내부 사고 과정을 인간이 해독할 수 있도록 보장하는 것이다. 그럼에도 불구하고 성공은 필연적이지 않으며, 인류가 단일 초인적 지능 사고에 대한 지속적인 생존의 절벽에서 벗어나는 방법도 명확하지 않다. 향후 5-10년 동안 AI가 어떻게 발전하든, "세계의 취약성을 줄이는 것이 가능하다"는 점을 인정하고 인간의 최신 기술로 이 목표를 달성하는 데 더 많은 노력을 투자하는 것은 시도해 볼 만한 길이다.

밸비(Balvi) 자원봉사자들의 피드백과 검토에 특별히 감사드린다.

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트