텍스트 | 알파벳 AI
노동절 연휴를 앞두고 딥시크는 갑자기 시각 멀티모달 기술에 대한 보고서를 발표했다.
클릭하기 전에, 저는 대략적인 예상을 하고 있었는데, 그것은 바로 얼마나 멀리까지 볼 수 있는지, 그리고 얼마나 선명하게 볼 수 있는지였습니다.
사실 지난 1년 동안 멀티모달 모델은 기본적으로 이러한 방향으로 나아가고 있었습니다. OpenAI는 이미지로 생각하는 것에 대해 이야기하며, 모델이 추론 과정에서 이미지를 자르고, 확대하고, 회전할 수 있도록 합니다. Gemini와 Claude 또한 모델이 더 높은 해상도와 더 복잡한 시각적 입력을 처리할 수 있도록 노력하고 있습니다.
일반적으로 모델의 관점이 상세할수록 시각적 추론이 더욱 강력해질 것이라는 가정이 있습니다.
하지만 DeepSeek의 보고서를 읽어보면 그들이 완전히 다른 길을 택했음을 알게 될 것입니다.
DeepSeek은 "모델이 더 많은 픽셀을 인식하도록 만드는 것"에 집중하지 않고, 보다 근본적인 문제에 집중했습니다.
모델이 목표물을 명확히 인식했더라도, 추론 과정에서 모델과 사용자가 동일한 대상을 참조하고 있다는 것을 어떻게 보장할 수 있을까요?
이는 실제로 멀티모달 추론에서 가장 쉽게 간과되는 치명적인 결함입니다.
사람들은 이미지를 볼 때 손가락으로 사물을 태그 할 수 있습니다. 예를 들어 "이 사람은 누구누구야" 또는 "저 사람은 누구누구야"라고 말할 수 있죠. 하지만 모델은 어떻게 사용자가 누구를 지칭하는지 알 수 있을까요?
이 모델은 "왼쪽에 있는 것", "위에 있는 것", "이 줄"과 같이 언어를 사용하여 특정 대상을 지칭하는 것밖에 할 수 없습니다. 시각적 요소가 복잡해지면 언어적 참조가 모호해지고 추론 과정이 무너지게 됩니다.
그래서 DeepSeek은 모델에게 "욕"을 주는 건 어떻겠냐고 제안했습니다.
이는 점과 경계 상자를 모델 사고의 기본 단위로 변환하여, 모델이 사이버 손가락으로 사물을 가리키면서 추론할 수 있도록 합니다.
01 연속적인 시각에서 이산적인 기호로
이번 기술 보고서에서 DeepSeek은 매우 흥미로운 질문을 제기했습니다. 그들은 멀티모달 모델의 진정한 과제는 이미지를 보는 것이 아니라, 지속적인 추론 과정에서 동일한 시각적 객체를 일관되게 가리키는 것이라고 주장합니다.
예를 들어, 친구에게 "시장에서 장 할머니 가게에서 파는 채소가 제일 신선해."라고 말한다고 가정해 봅시다. 하지만 시장에는 노인분들이 너무 많아서, 그중에서 장 할머니는 누구일까요?
하지만 손가락으로 가리키며 "저거야"라고 말하면 친구는 바로 이해할 겁니다.
DeepSeek은 이 문제를 "참조 격차(Reference Gap)"라고 명명했습니다.
지난 한 해 동안 거의 모든 최첨단 멀티모달 모델은 "인식 격차" 문제를 해결하는 데 초점을 맞춰 왔습니다.
눈앞에 사진 한 장이 놓여 있다고 상상해 보세요. 사진이 너무 흐릿하거나 해상도가 낮으면 작은 글씨나 멀리 있는 세부 사항을 선명하게 볼 수 없을 것입니다. 인공지능(AI)도 마찬가지입니다. 입력 이미지 품질이 불충분하거나 처리 방식이 잘못되면 AI는 "명확하게 볼 수 없게" 되는데, 이것이 바로 지각적 격차입니다.
GPT, Claude, Gemini와 같은 모델은 고해상도 자르기, 동적 분할 및 다중 스케일 처리를 도입하여 해상도를 지속적으로 향상시키며, 이를 통해 모델이 더 많은 세부 정보를 인식할 수 있도록 합니다.
이러한 방향은 분명히 가치 있지만, DeepSeek은 보고서에서 모델이 사물을 매우 명확하게 인식하더라도 복잡한 공간 추론 작업에서는 논리적 오류가 발생할 수 있다고 지적합니다.
문제는 자연어 자체에 있다.
사진에는 12마리가 넘는 개가 있습니다. "왼쪽에 있는 개"라고 말하면 모델은 어떤 개를 가리키는지 이해하지 못합니다.
더욱 기발한 점은 모델에게 사진 속 개의 수를 세도록 요청하면, 모델은 추론 과정에서 이미 센 개와 아직 센 개를 구분하지 못해 혼란스러워할 수 있다는 것입니다.
보고서는 또한 미로 탐색과 같은 극단적인 사례를 언급하며, 순수 언어만으로는 불규칙한 모양의 경로와 복잡한 위상 관계를 정확하게 묘사할 수 없다고 지적합니다.
언어는 지시 도구로서 연속적인 시각 공간에서 본질적으로 모호하다. 언어는 추상적인 개념과 인과 관계를 표현하는 데 탁월하지만, 공간적 위치와 위상적 관계라는 측면에서 표현력은 근본적으로 제한적이다.
하지만 DeepSeek은 범용 언어 모델이므로 이 문제를 어떻게 해결해야 할까요?
그리하여 기사 서두에서 언급된 "손가락"이 탄생하게 되었습니다.
그들의 핵심 개념은 "시각적 기본 요소"이며, 이는 컴퓨터 비전에서 가장 기본적인 두 가지 공간적 태그 인 경계 상자와 점을 "사고의 가장 작은 단위"로 격상시키는 것입니다.
기존의 멀티모달 모델들도 경계 상자를 그리고 객체에 레이블을 지정할 수 있었지만, 최종 결과만 보여주며 "찾았다"는 것을 증명하는 데 그쳤습니다. 마치 풀이 과정을 적지 않고 시험 답안만 제출하는 것과 같습니다.
일부 연구에서는 AI가 사고 과정 중에 네모 상자를 그리는 것으로 나타났지만, 그 목적은 단순히 "더 정확하게 보기" 위한 것이며, 네모 상자는 보조 도구일 뿐입니다. 마치 수학 문제를 풀 때 연습장을 사용하는 것과 같습니다. 연습장은 계산 과정을 더 명확하게 해주는 역할을 할 뿐, 문제 해결 과정의 일부는 아닙니다.
DeepSeek은 완전히 다른 방식을 사용합니다.
그들은 이러한 공간적 태그 모델의 추론 과정에 직접 통합하여 추론의 필수적인 부분으로 만들었습니다. 모델이 생각할 때, "개를 봤다"라고 말로 설명할 뿐만 아니라 "개를 봤는데, 여기 [[x1,y1,x2,y2]]에 있다"라고 출력합니다.
DeepSeek은 이러한 메커니즘을 "추론하는 동안 포인트를 지정"이라고 부릅니다.

모델의 사고 과정 모든 단계는 이미지의 특정 좌표에 기반을 두고 있습니다.
기술 보고서에는 다음과 같은 예시가 제시되었습니다. 모델은 시작점에서 출발하여 탐색하고, 되돌아가서 다시 시도한 후, 최종적으로 미로에서 이동한 지점에 해당하는 좌표를 포함하는 완전한 좌표 경로를 출력합니다.
이러한 방식으로 모델은 추론 과정에서 "길을 잃지" 않습니다. 모델은 자신이 무엇을 말하고 있는지, 무엇을 참조하고 있는지에 대해 혼란스러워하지 않습니다. 각 시각적 객체는 명확한 공간적 기준점을 가지므로 추론 과정을 추적하고 검증할 수 있습니다.
이러한 기술적 접근 방식은 OpenAI의 방향과 흥미로운 대조를 이룹니다.
OpenAI는 o3 및 o4-mini 공식 소개에서 "이미지를 활용한 사고"라는 개념을 명시적으로 언급합니다. 이는 모델이 추론 과정에 이미지를 통합하고 자르기, 크기 조정, 회전과 같은 방법을 통해 이미지를 처리할 수 있음을 의미합니다. 이러한 접근 방식의 핵심은 이미지 자체를 사고 과정의 일부로 만들어, 모델이 추론 과정에서 새로운 이미지를 생성하고, 기존 이미지를 수정하고, 조작할 수 있도록 하는 것입니다.
OpenAI의 접근 방식은 비전, 코드, 검색, 문서화 및 도구 사용이 함께 작동하는 범용 기능을 강조합니다. 이 모델은 다양한 비전 작업을 유연하게 처리할 수 있는 강력한 "비전 워크벤치"를 갖추고 있습니다.
DeepSeek의 접근 방식은 더욱 "상징적"입니다. 좌표를 사고 과정에 통합하는 것이죠. 모델은 경계 상자와 점의 좌표를 추론 텍스트에 명시적으로 기록하여 시각적 객체를 추론을 위한 재사용 가능한 기준점으로 변환합니다.
이로 인해 OpenAI의 시각적 추론은 내부적으로 이루어지며, 사용자는 최종 답변과 필요한 설명만 볼 수 있고 중간 시각적 처리 과정은 블랙박스로 남게 됩니다. 반면 DeepSeek는 중간 시각적 기준점을 의도적으로 명시하여 추론 과정을 완전히 투명하게 만듭니다.
DeepSeek 방식의 장점은 추론 과정을 학습, 검사, 평가하기가 더 쉽다는 것입니다. 덕분에 형식, 품질, 작업 수준별 보상을 설계하는 것도 더 간편해집니다. 특히 미로 찾기나 경로 탐색과 같은 작업에서 경로의 유효성, 궤적 범위 등 다양한 측면에 대해 더욱 세밀한 피드백을 제공할 수 있습니다.
이 모델은 정답을 출력하는 방법을 학습할 뿐만 아니라 시각적 기본 요소를 사용하여 추론하는 방법도 학습합니다.
02 효율성이 핵심입니다
딥시크 보고서에는 쉽게 간과되지만 매우 중요한 세부 사항이 하나 있습니다. 바로 딥시크 모델이 이미지를 처리할 때 다른 최첨단 모델보다 훨씬 적은 토큰을 사용한다는 점입니다.
보고서에는 800×800 해상도 이미지를 처리할 때 각 모델이 소비하는 토큰 수를 보여주는 비교 차트가 포함되어 있습니다.
Gemini-3-Flash에는 약 1100개의 항목이, Claude-Sonnet-4.6에는 약 870개의 항목이, GPT-5.4에는 약 740개의 항목이, Qwen3-VL에는 약 660개의 항목이, DeepSeek에는 약 361개의 항목이 있으며, KV 캐시에는 약 90개의 항목만 유지됩니다.
차이는 상당합니다. DeepSeek은 Gemini에 비해 토큰 수의 3분의 1만 사용하고, 키-값 캐시 항목 수도 10분의 1에 불과합니다.
이러한 극도의 효율성은 어떻게 달성되는 것일까요?
DeepSeek은 "압축 희소 어텐션(Compressed Sparse Attention, CSA)"이라는 메커니즘을 사용합니다.
이렇게 생각해 보세요. 친구에게 가족사진을 보여줄 때 "왼쪽에서 237번째 픽셀부터 빨간색 영역이 있어..."라고 말하지 않고, "왼쪽이 엄마고, 오른쪽이 아빠야."라고 바로 말하잖아요.
DeepSeek-ViT는 먼저 이미지를 더 적은 수의 시각적 토큰으로 압축하고, CSA는 이러한 시각적 토큰의 표현을 KV 캐시에 추가로 압축합니다.
이 메커니즘은 DeepSeek-V4-Flash 모델에 사용되었으며 현재 시각적 멀티모달 모델에 적용되고 있습니다.
구체적인 압축 과정은 다음과 같습니다. 756×756 크기의 이미지는 571,536개의 픽셀로 구성됩니다. 이 픽셀들은 먼저 ViT(Visual Information Technology)를 통해 처리되어 14×14 크기의 패치로 분할되고, 2,916개의 패치 토큰이 생성됩니다. 그 후, 3×3 공간 압축이 수행되어 채널 크기를 따라 인접한 9개의 토큰이 각각 1개로 압축되므로 최종적으로 324개의 시각적 토큰이 생성됩니다.
이 324개의 토큰은 대규모 언어 모델에 미리 채워져 있습니다. 마지막으로, CSA 메커니즘은 KV 캐시에서 이러한 시각적 토큰을 4배로 압축하여 최종적으로 81개의 항목만 남깁니다.
571,536픽셀에서 81KV 캐시 항목으로 압축했을 때 전체 압축률은 7,056배에 달했습니다.
대부분의 대형 AI 기업들은 무차별 대입 방식으로 컴퓨팅 자원을 집중 투입하는 반면, DeepSeek은 정보 이론 수준에서 절충안을 마련하여 가장 직관적이고 이해하기 쉬운 정보만을 남겨둡니다.
가장 직접적인 결과는 추론 속도가 훨씬 빨라졌다는 것입니다.
이미지 토큰 수는 모델의 추론 지연 시간에 직접적인 영향을 미칩니다. 자기회귀 생성 과정에서 새로운 토큰이 생성될 때마다 모델은 이전 토큰들의 키-값 캐시에 대한 어텐션 계산을 수행해야 합니다. 이미지가 1000개의 토큰을 사용하는 경우, 이미지가 생성될 때마다 1000개의 토큰 모두에 어텐션을 적용해야 합니다. 하지만 90개의 토큰만 사용하는 경우에는 계산 부하가 크게 줄어듭니다.
로봇 비전, 자율 주행, 실시간 비디오 분석과 같이 실시간 응답이 필요한 애플리케이션의 경우 추론 속도 향상이 결정적인 역할을 합니다.
게다가 메모리 사용량도 더 적습니다.
키-값(KV) 캐싱은 대규모 모델 추론에서 메모리 병목 현상을 일으킵니다. 특히 긴 컨텍스트나 배치 추론을 처리할 때 KV 캐싱은 대량 의 GPU 메모리를 소모합니다. DeepSeek은 시각적 토큰 KV 캐싱을 90개 항목으로 압축하여 동일한 하드웨어에서 더 많은 이미지를 처리하거나 더 긴 다중 턴 대화를 처리할 수 있도록 합니다.
이는 실제 배포에 있어 매우 중요합니다. 많은 기업의 멀티모달 모델은 실험실에서는 뛰어난 성능을 보이지만, 실제 환경에 배포할 경우 비용 문제에 직면합니다. 이미지당 소모되는 토큰이 많을수록 추론 비용이 증가하고, 동시에 지원할 수 있는 사용자 수가 줄어듭니다. DeepSeek의 효율성 이점은 대규모 배포 환경에서 더욱 두드러집니다.
이는 또한 모델의 컨텍스트 처리 능력을 간접적으로 향상시킵니다.
이미지 하나를 처리하는 데 1000개의 토큰이 필요하다면 128KB 크기의 컨텍스트 창에는 약 100개의 이미지만 표시할 수 있습니다. 하지만 300개의 토큰만 필요하다면 400개 이상의 이미지를 표시할 수 있습니다. 이는 여러 이미지가 포함된 대화, 장시간 비디오 분석, 대량 문서 이해와 같은 시나리오에서 매우 중요합니다.
DeepSeek의 모델은 단일 대화에서 더 많은 이미지를 처리하고, 수십 또는 수백 장의 이미지를 비교 및 분석하며, 비디오의 장기적인 변화를 추적할 수 있습니다.
가장 중요한 요소는 교육 비용입니다.
이 보고서는 주로 추론 효율성에 초점을 맞추고 있지만, 이 압축 메커니즘은 학습 단계에서도 똑같이 효과적입니다. 시각적 토큰 수가 줄어들면 계산 그래프 크기가 작아지고 학습 속도가 빨라지며 하드웨어 요구 사항도 낮아집니다.
DeepSeek은 항상 "적은 자원으로 더 나은 결과를 달성하는 것"으로 유명했습니다. R1의 강화 학습 훈련부터 V4의 MoE 아키텍처, 그리고 현재의 시각적 멀티모달 학습에 이르기까지, 효율성을 최우선으로 하는 이러한 철학을 일관되게 적용해 왔습니다.
하지만 여기서 중요한 질문이 생깁니다. 압축으로 인해 정보 손실이 발생할까요?
DeepSeek은 압축으로 인해 정보 손실이 발생한다는 사실을 부인하지 않습니다. 다만, 공간 추론 및 계산 작업의 경우 압축된 표현이 여전히 충분히 효과적이라는 것이 그들의 주장입니다.
압축의 각 단계는 추론에 가장 중요한 정보를 보존하는 동시에 중복 및 노이즈를 제거합니다.
사실, 앞서 언급한 DeepSeek의 시각적 기본 메커니즘 자체가 일종의 정보 압축입니다. 경계 상자는 단 네 개의 숫자로 객체의 위치를 정확하게 나타낼 수 있고, 점은 단 두 개의 숫자로 태그 할 수 있습니다. 이러한 개별 기호가 담고 있는 정보 밀도는 원래 픽셀보다 훨씬 높습니다.
실험 결과에 따르면 이러한 압축은 성능을 저하시키지 않으며, 오히려 특정 작업에서는 성능을 향상시키는 것으로 나타났습니다.
이는 많은 시각적 추론 작업에서 병목 현상은 영상이 충분히 선명하지 않아서가 아니라 적절한 표현 방법을 찾지 못했기 때문임을 시사합니다.
이러한 효율성 이점은 멀티모달 인텔리전스가 반드시 더 큰 모델, 더 많은 해시레이트 또는 더 높은 비용을 필요로 하지 않는다는 것을 입증합니다.
딥시크는 창립 이래 "진정한 지능은 해시레이트 에 있는 것이 아니라 문제의 본질을 이해하는 데 있다"는 기본 원칙을 고수해 왔습니다.
시각적 추론에 필요한 것이 무엇인지 진정으로 이해하게 되면, 그렇게 많은 토큰이 필요하지 않을 것입니다. 올바른 표현 방법을 찾게 되면, 그렇게 큰 모델도 필요하지 않을 것입니다.
이러한 관점에서 볼 때, DeepSeek의 극단적인 효율성은 목표가 아니라 부산물일 뿐입니다. 진정한 목표는 시각적 추론을 위한 올바른 패러다임을 찾는 것입니다. 효율성은 단지 그 패러다임이 옳다는 것을 증명할 뿐입니다.
03 미완의 과제
DeepSeek은 보고서의 한계점 섹션에서 현재 접근 방식의 몇 가지 문제점을 솔직하게 나열했습니다. 이는 사소한 기술적 결함이 아니라 시각적 추론의 다음 단계를 제시하는 중요한 사항입니다.
첫 번째 문제는 트리거 단어 의존성입니다.
보고서는 현재 "시각적 기본 요소를 활용한 사고" 능력이 활성화되려면 명시적인 트리거 단어가 필요하다고 명시적으로 언급합니다. 다시 말해, 해당 모델은 아직 "언제 프레임을 그리고 언제 점을 추가해야 하는지"를 자연스럽고 자율적으로 결정할 수 없습니다.
이는 모델이 시각적 기본 요소를 언제 사용해야 하고 언제 언어만으로 충분한지 판단하는 방법을 아직 완전히 학습하지 못했음을 의미합니다.
이상적으로는 모델이 작업의 특성에 따라 자율적인 결정을 내릴 수 있어야 합니다. 하지만 사용자가 "사진에 있는 개가 몇 마리인지 세어 보세요"라고 요청하면, 모델은 자동으로 시각적 기본 요소 모드로 전환하여 경계 상자를 활용해 개수를 세도록 도와야 합니다.
엄밀히 말하면, 이를 위해서는 모델 내에 메타인지 계층을 구축해야 합니다. 이 메타인지 계층은 현재 작업의 복잡성을 평가하고, 순수 언어 추론만으로 충분한지 판단하며, 시각적 기본 요소를 활용할지 여부를 결정할 수 있습니다.
DeepSeek은 아직 이러한 메타인지 계층을 구현하지는 않았지만, 그 방향을 제시했습니다. 향후 버전에서는 모델이 외부 자극에 의존하지 않고 추론 전략을 자율적으로 결정할 수 있도록 학습할 수 있을 것입니다.
두 번째 문제는 해상도 제한입니다.
보고서에 따르면 입력 해상도의 한계로 인해 모델이 세밀한 시나리오에서 충분한 성능을 발휘하지 못하고, 출력 시각적 기본 요소가 때때로 충분히 정확하지 않다고 합니다.
이 문제는 DeepSeek의 효율성 우선 전략과 관련이 있습니다. 토큰 수를 제어하기 위해 시각적 토큰 범위를 81개에서 384개 사이로 제한합니다. 이 범위를 벗어나는 이미지는 크기가 조정됩니다.
이 설계는 대부분의 시나리오에서 적합하지만, 극도로 높은 정밀도가 요구되는 일부 작업에서는 병목 현상이 발생합니다. 예를 들어, 의료 영상 분석에서는 미세한 병변을 식별해야 하고, 산업 품질 검사에서는 아주 작은 결함을 감지해야 하는데, 이러한 시나리오에서는 매우 높은 해상도가 요구됩니다.
DeepSeek은 보고서에서 이 문제를 기존의 고해상도 기법들을 통합함으로써 해결할 수 있다고 언급합니다. 다시 말해, 그들의 시각적 기본 요소 프레임 와 기존의 고해상도 자르기 기법들은 서로 모순되는 것이 아니라 상호 보완적이라는 것입니다.
DeepSeek이 하이브리드 솔루션을 내놓을 수 있을 것 같습니다.
구체적으로, 대부분의 일상적인 작업에서는 높은 효율성을 유지하기 위해 압축된 시각적 표현과 시각적 기본 요소 추론이 사용됩니다. 세밀한 분석이 필요한 영역에서는 고해상도 자르기 기능을 동적으로 사용하여 더 자세한 시각적 정보를 클레임. 이를 통해 전반적인 효율성을 유지하면서 특정 영역의 정확도 요구 사항을 충족할 수 있습니다.
이 하이브리드 접근 방식의 핵심은 모델이 어떤 영역에 고해상도 처리가 필요한지 판단하도록 학습시키는 것입니다. 이는 앞서 제기했던 메타인지에 대한 질문으로 다시 이어집니다.
세 번째 문제는 시나리오 간 일반화입니다.
보고서에 따르면 점을 시각적 기본 요소로 사용하여 복잡한 위상 추론 문제를 해결하는 것은 여전히 어렵고, 모델의 장면 간 일반화 능력은 제한적입니다.
이 문제는 특히 미로 탐색 및 경로 추적 작업에서 두드러지게 나타납니다. DeepSeek은 자체 구축 테스트 세트에서 66.9%와 56.7%의 정확도를 달성하여 다른 모델들을 능가했지만, 이러한 수치는 여전히 불충분합니다.
더 중요한 것은 이러한 작업들이 모두 합성 데이터를 사용하여 학습 및 테스트되었다는 점입니다. 미로는 알고리즘적으로 생성되었고, 경로 추적 곡선 또한 절차적으로 그려졌습니다. 따라서 모델이 실제 지도에서 경로를 계획하거나 복잡한 파이프라인 그래프에서 연결을 추적하는 것과 같은 실제 세계의 위상 추론 문제를 접할 경우 성능이 저하될 수 있습니다.
DeepSeek의 접근 방식은 대규모의 매우 다양한 데이터를 활용하여 일반화 능력을 향상시키는 데 중점을 둡니다. 그들은 97,984개의 데이터 소스를 크롤링하고 엄격한 필터링을 거쳐 31,701개의 데이터 소스만 남겨 최종적으로 4천만 개 이상의 샘플을 확보했습니다. 미로 및 경로 추적 작업의 경우, 가능한 한 많은 변수를 포함하도록 다양한 토폴로지, 시각적 스타일 및 난이도를 설계했습니다.
하지만 데이터 다양성은 일반화 능력의 한 측면에 불과합니다. 모델이 위상 추론의 본질을 진정으로 이해하고 있는 것일까요, 아니면 단순히 훈련 데이터의 패턴을 암기한 것일까요?
또한, DeepSeek의 시각적 기본 요소는 새로운 표현 체계이므로 특수한 데이터 형식, 학습 과정 및 평가 방법이 필요합니다. 이는 기존의 멀티모달 생태계와 완전히 호환되지 않습니다.
대부분의 멀티모달 데이터셋과 벤치마크는 시각적 기본 요소를 고려하지 않고 기존의 "이미지 + 텍스트" 패러다임을 기반으로 설계되었습니다. 이러한 벤치마크에서 DeepSeek 모델을 평가하려면 시각적 기본 요소 기능을 비활성화하거나 평가 방법을 재설계해야 합니다.
다른 연구자들이 이 연구를 재현하거나 개선하려면 전체 데이터와 학습 과정을 재구축해야 하는데, 이는 상당히 어려운 과제입니다.
DeepSeek이 보고서에서 이러한 문제들을 논의할 수 있었다는 사실은 그들이 자신들의 업무를 명확하게 이해하고 있음을 보여줍니다.
완벽한 답을 제시하는 것보다 이것이 더 가치 있을지도 모릅니다. 왜냐하면 사회 발전을 진정으로 이끄는 것은 종종 답이 아니라 질문이기 때문입니다.



