2025年12月22日Tether Data旗下人工智能研究部门QVAC今日宣布发布QVAC Genesis II,这是全球最大的公开人工智能预训练合成教育数据集的重大扩展。新增1070亿个代币后,QVAC Genesis数据集的总代币数达到1480亿,涵盖19个教育领域,显著提升了开放人工智能训练数据的规模、深度和推理质量。
QVAC Genesis II 直接建立在 QVAC Genesis I 的基础上,后者引入了一个经过严格验证、以教育为中心的合成数据集,涵盖了核心 STEM 学科。第二版将覆盖范围扩展到 10 个新领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程,同时还使用改进的方法重新生成了大学水平的物理学数据。Genesis I 和 II 共同构成了迄今为止向公众发布的最全面的合成教育数据集。
此次更新的核心是一种名为“选项级推理”的全新数据生成方法,旨在从模型错误答案和正确答案中都提取结构化推理过程。该方法并非将正确答案视为最终输出,而是系统地分析多项选择题中的每个选项,强化正确的推理过程,并明确指出常见的误解。最终生成的训练数据强调清晰度、因果关系和决策过程,而不仅仅是表面上的正确性。
这种新方法是对 Genesis I 中引入的原始故障分析方法的补充,形成了一个双方法流程,确保生成的每个问题都能贡献教育价值。独立评估表明,基于 Genesis II 数据训练的模型比基于先前合成数据集训练的模型展现出更高的推理准确率,并且能够更稳定地生成清晰明确的答案。
此次发布不仅仅是规模上的提升,更体现了教育人工智能数据构建方式的重大转变。当业界普遍专注于抓取和聚合海量文本时,QVAC 的方法旨在教会模型如何思考、推理和解释,将智能建立在理解而非模仿之上。
Tether首席执行官 Paolo Ardoino 表示:“如今大多数人工智能训练都以流畅性为目标,而非理解力。此次发布,我们不再追求数量,而是着眼于结构、推理和清晰度。智能应该建立在理解事物本质的基础上,而不仅仅是预测听起来是否正确。通过开放这个数据集,我们为研究人员和开发者提供了工具,帮助他们开发出更可靠、更易解释、最终对社会更有用的人工智能。”
与 Genesis I 一样,扩展后的数据集也以开放形式发布,旨在支持在封闭的专有系统之外开展工作的研究人员、学术机构和独立开发者。该数据集采用知识共享署名-非商业性使用 (CC-BY-NC 4.0) 许可协议,进一步体现了 QVAC 对开放的、社区驱动的人工智能研究的承诺。
此次发布延续了QVAC推进本地化、去中心化智能的更广泛使命,在这种智能模式下,人工智能模型无需依赖集中式云平台即可进行训练、优化和部署。通过强化人工智能训练数据的开放基础, Tether Data旨在减少创新面临的结构性障碍,并确保全球研究界能够持续获取高质量的智能数据。
该数据集的完整技术分析报告,题为“QVAC Genesis II:扩展用于预训练的最大、最高质量的多领域教育合成数据集”,现已发布在QVAC研究博客上,同时Hugging Face平台也提供了该数据集和模型的访问权限。更多信息,包括详细的常见问题解答,请访问QVAC网站。
关于Tether Data
Tether Data, SA de CV(简称“Tether Data”)是Tether公司愿景的一部分,旨在通过技术促进自由、透明和创新。其使命是使个人和组织能够直接连接和共享信息,无需不必要的中介机构。通过创建安全的点对点系统, Tether Data使用户能够更好地控制其数据、通信和数字互动。Tether Data致力于通过以去中心化基础设施取代集中式模型,重新定义信息在网络中的流动方式,该基础设施的设计兼顾隐私性、效率和弹性。公司的目标是使全球连接更快、更安全、更私密,从而赋能个人和机构自由安全地交换信息。
关于 QVAC
QVAC 是Tether Data 的先进人工智能研究计划,致力于构建开放、去中心化和自适应的智能系统。其使命是“本地人工智能,无限智能,绝不妥协”,设想人工智能可以在任何设备上运行和学习,从而赋能个人和社区,而不是将权力集中在企业数据中心。





