ChainCatcher에 따르면, 비탈릭 부테린은 2026년 4월까지 사용 가능한 로컬화된 비공개 LLM 배포 솔루션을 공유했습니다. 핵심 목표는 개인 정보 보호, 보안 및 자율성을 우선시하여 원격 모델과 외부 서비스가 개인 데이터에 접근할 가능성을 최소화하고, 로컬 추론, 로컬 파일 저장 및 샌드박스 격리를 통해 데이터 유출, 모델 탈옥 및 악성 콘텐츠 악용 리스크 줄이는 것입니다.
하드웨어 측면에서, 그들은 NVIDIA 5090 GPU, AMD Ryzen AI Max Pro 128GB 통합 메모리 장치 및 DGX Spark가 장착된 노트북을 테스트했으며, 로컬 추론을 위해 Qwen3.5 35B 및 122B 모델을 사용했습니다.
구체적으로, 5090 노트북의 35B 모델은 약 90 토큰/초, AMD 솔루션은 약 51 토큰/초, DGX Spark는 약 60 토큰/초의 처리 속도를 보입니다. 비탈릭 부테린은 llama-server, llama-swap, NixOS와 같은 도구를 사용하여 전체 워크플로우를 구축하면서 고성능 노트북을 기반으로 로컬 AI 환경을 구축하는 것을 선호한다고 밝혔습니다.



