2025년 12월 22일 – 테더(Tether) 데이터의 AI 연구 부문인 QVAC는 오늘 인공지능 사전 학습을 위한 세계 최대 규모의 공개 교육용 합성 데이터셋인 QVAC Genesis II를 대폭 확장했다고 발표했습니다. 1,070억 개의 새로운 토큰이 추가됨에 따라, QVAC Genesis 데이터셋은 이제 19개 교육 영역에 걸쳐 총 1,480억 개의 토큰을 보유하게 되었으며, 이를 통해 공개 AI 학습 데이터의 규모, 깊이 및 추론 품질이 크게 향상되었습니다.
QVAC Genesis II는 핵심 STEM 분야를 아우르는 엄격한 검증을 거친 교육용 합성 데이터셋을 선보인 QVAC Genesis I의 기반 위에 구축되었습니다. 이번 두 번째 버전에서는 화학, 컴퓨터 과학, 통계학, 머신러닝, 천문학, 지리학, 계량경제학, 전기공학을 포함한 10개 영역으로 범위를 확장했으며, 개선된 방법론을 사용하여 대학 수준의 물리학 데이터셋을 새롭게 생성했습니다. Genesis I과 II를 합치면 지금까지 공개된 교육용 합성 데이터셋 중 가장 포괄적인 데이터셋이 됩니다.
이번 릴리스의 핵심은 '옵션 수준 추론(Option-Level Reasoning)'이라는 새로운 데이터 생성 방식입니다. 이 방식은 모델의 오류뿐만 아니라 정답에서도 구조화된 추론을 추출하도록 설계되었습니다. 정답을 완성된 출력으로 취급하는 대신, 이 방법은 객관식 문제의 모든 선택지를 체계적으로 분석하여 올바른 추론을 강화하고 일반적인 오개념을 명확하게 바로잡습니다. 그 결과, 표면적인 정확성뿐 아니라 명확성, 인과관계, 그리고 의사결정 과정을 강조하는 학습 데이터가 생성됩니다.
이 새로운 접근 방식은 Genesis I에서 소개된 기존의 실패 분석 방법을 보완하여, 생성된 모든 문제가 교육적 가치를 제공하도록 보장하는 이중 방법 파이프라인을 구축합니다. 독립적인 평가 결과, Genesis II 데이터로 학습된 모델은 이전의 합성 데이터 세트로 학습된 모델보다 추론 정확도가 훨씬 높고, 명확하고 모호하지 않은 답변을 훨씬 더 일관되게 생성하는 것으로 나타났습니다.
이번 릴리스는 단순한 규모 확대를 넘어 교육용 AI 데이터 구축 방식에 대한 의도적인 변화를 반영합니다. 업계 대부분이 방대한 양의 텍스트를 수집하고 통합하는 데 집중하는 반면, QVAC의 접근 방식은 모델이 생각하고 추론하고 설명하는 방법을 학습하도록 설계되어 모방이 아닌 이해를 바탕으로 지능을 구축합니다.
테더(Tether) 의 CEO인 파올로 아르도이노는 “오늘날 대부분의 AI 학습은 이해력보다는 유창성에 초점을 맞추고 있습니다.”라고 말했습니다 . “이번 공개를 통해 우리는 거래량 넘어 구조, 추론, 그리고 명확성에 집중하고자 합니다. 인공지능은 단순히 그럴듯하게 들리는 것을 예측하는 것이 아니라, 왜 어떤 것이 사실인지 이해하는 데 기반을 두어야 합니다. 이 데이터셋을 공개함으로써 우리는 연구자와 개발자들이 더욱 신뢰할 수 있고, 더 잘 설명할 수 있으며, 궁극적으로 사회에 더 유용한 AI를 개발할 수 있는 도구를 제공하게 되었습니다.”
Genesis I과 마찬가지로, 확장된 데이터셋은 폐쇄적인 독점 시스템 외부에서 연구자, 학술 기관 및 독립 개발자들이 활용할 수 있도록 공개적으로 배포됩니다. 이 데이터셋은 크리에이티브 커먼즈 저작자표시-비영리(CC-BY-NC 4.0) 라이선스 하에 제공되며, 이는 개방적이고 커뮤니티 중심적인 AI 연구에 대한 QVAC의 노력을 보여줍니다.
이번 발표는 중앙 집중식 클라우드 플랫폼에 의존하지 않고 AI 모델을 학습, 개선 및 배포할 수 있는 지역적이고 분산된 인텔리전스를 발전시키려는 QVAC의 광범위한 사명을 이어가는 것입니다. 테더(Tether) 데이터는 AI 학습 데이터의 개방형 기반을 강화함으로써 혁신을 가로막는 구조적 장벽을 줄이고 고품질 인텔리전스가 전 세계 연구 커뮤니티에 지속적으로 제공될 수 있도록 보장하고자 합니다.
"QVAC Genesis II: 사전 학습을 위한 최대 규모 및 최고 품질의 다중 도메인 교육용 합성 데이터셋 확장"이라는 제목의 데이터셋에 대한 전체 기술 분석 자료는 QVAC 연구 블로그에서 확인할 수 있으며, Hugging Face에서도 데이터셋과 모델에 접근할 수 있습니다. 자세한 FAQ를 포함한 추가 정보는 QVAC 웹사이트에서 확인할 수 있습니다.
테더(Tether) 데이터 소개
테더(Tether) 데이터(Tether Data, SA de CV, 이하 "테더(Tether) 데이터")는 기술을 통해 자유, 투명성, 혁신을 증진하고자 하는 테더의 광범위한 비전의 일환입니다. 테더 데이터의 사명은 불필요한 중개자 없이 개인과 조직이 직접 연결하여 정보를 공유할 수 있도록 지원하는 것입니다. 안전한 P2P 시스템을 구축함으로써 테더(Tether) 데이터는 사용자에게 데이터, 통신 및 디지털 상호 작용에 대한 더 큰 제어권을 제공합니다. 테더(Tether) 데이터는 전 세계적인 연결성을 더욱 빠르고 안전하며 개인정보가 보호되는 방식으로 만들어 개인과 기관 모두가 자유롭고 안전하게 정보를 교환할 수 있도록 지원하는 것을 목표로 합니다.
QVAC 소개
QVAC는 테더(Tether) 데이터의 첨단 AI 연구 이니셔티브로, 개방형, 분산형, 적응형 인텔리전스 시스템 구축에 전념합니다. QVAC의 목표는 '로컬 AI, 무한한 지능, 타협 없는 AI'이며, 기업 데이터 센터에 권력이 집중되는 대신 AI가 모든 기기에서 존재하고 학습하여 개인과 커뮤니티에 힘을 실어주는 세상을 envisions합니다.



