数字资产市场的系统性特征发现

09-11

本文为机器翻译

展示原文

在Glassnode，我们通过数百个链上指标监控区块链活动，其中许多指标被用作交易机器学习模型的特征。巨大的特征空间带来了一个关键挑战：每个指标都可以通过无数指标进行转换，并以几乎无限的方式组合。在本案例研究中，我们引入了一个自下而上的特征发现框架，旨在系统地应对这种复杂性，并识别潜在的、非同寻常的高价值指标组合。

执行摘要

我们提出了一种自下而上的结构化方法来探索链上交易指标的组合空间，展示了一种手动自上而下的特征工程的替代方法。
应用于仅使用 2 个特征模型的比特币上升趋势检测的特定案例研究，探索揭示了意想不到的模式：最佳上下文窗口为 800-1,200 天，而不是传统的较短周期。
表现最佳的指标组合包括已实现的市值和用户保留率指标，尽管这些仅代表潜在指标的表面。
该分析为实践者提供了一个起点，展示了结构化探索如何补充传统方法。

组合挑战

要理解结构化探索的重要性，请思考当今分析师面临的挑战之大。现代金融市场生成海量数据。加密货币生态系统提供了一个尤为丰富的例子：区块Glassnode每天以前所未有的透明度结算数十亿笔交易。Glassnode 追踪不同资产、时间范围和网络段的数百个基本指标。每个指标都可以使用数十个技术指标进行转换，每个指标都有各自的参数范围。当组合成多特征模型时，可能的配置数量会迅速激增，形成一个难以处理的搜索空间，即所谓的“维数灾难”。这使得详尽的探索变得不可能。

自上而下与自下而上的特征工程

传统的自上而下的特征工程依赖于领域专家，他们根据经济理论、市场理解和历史先例来选择指标。特征的选择基于可解释性和理论合理性，能够有效地利用专业知识，但自然而然地会侧重于理论驱动的组合。

相比之下，自下而上的探索在特征空间中采样时没有预先设定的偏好，因此可能会发现直觉可能遗漏的模式。这种方法并非从假设哪些指标应该有效开始，而是让数据揭示意想不到的组合。

系统发现方法

鉴于这种计算上的不可能性，我们需要一种结构化的方法，能够在保持统计严谨性的同时，对特征空间中具有代表性的子集进行采样。我们的方法通过严格的探索和评估来探索这个领域。

我们通过从可用指标、变换和参数范围的整个空间中采样来生成特征组合，确保广泛的覆盖范围，并防止因偏差而将搜索限制在熟悉的模式中。每个组合都使用简单、低复杂度的机器学习模型（深度有限的决策树）进行评估，以识别真正的模式而非过度拟合的噪声，从而专注于发现更有可能在训练数据之外推广的稳健指标。

每个功能组合都会经过多个基于时间的测试，各个测试组合之间的性能一致性与整体性能同等重要，这有助于识别在不同市场条件下可靠运行的功能。生成的功能数据集及其各自的性能支持事后分析，不仅可以了解哪些组合表现良好，还可以了解其在何种情况下表现良好。

案例研究设置：比特币趋势检测

为了在实践中演示该方法，我们将其应用于一个与市场相关的具体目标：比特币上涨趋势检测。我们的实现采用三阶段采样策略，系统地探索用于识别上涨趋势的特征空间。通过这种方式，我们在计算可行性和全面覆盖潜在指标组合之间取得了平衡。

投资目标和标签

重点在于在市场上涨阶段确定比特币多头敞口的最佳时期。我们的标签采用分层趋势细分方法，通过检测局部波峰和先前的波谷，递归地识别趋势周期。这捕捉到了从业者所谓的“迷你牛市”——在更大的市场周期中持续上涨的时期。

该算法应用最小持续时间阈值来过滤噪声，从而实现二分类：标签 1 表示上升趋势，标签 0 表示下降趋势或横盘市场。这意味着，在“标签 1”的时间段内，我们希望进入市场；而在“标签 0”的时间范围内，模型应该预测“退出市场”。请注意，这种特定的标签选择从根本上决定了所有后续结果，不同的目标会产生不同的结果。

图 1：应用于比特币的分层趋势细分。绿色表示上升趋势期（标签 1），灰色表示下降趋势/横盘市场（标签 0）。

评估框架

建立了趋势定义框架后，我们需要一种评估方法，以提升研究结果的普适性。我们采用基于时间的交叉验证，通过对每个测试年份的所有数据进行训练来模拟不同的市场结构，并以各个年份（2017-2025）作为测试集。特征选择基于 2017-2023 年的数据，而 2024-2025 年的数据则保留用于样本外验证。

绩效衡量指标是扣除交易成本后的净收益，相对于买入并持有策略。选择此指标仅供参考——该算法方法可以同样针对风险调整指标（例如夏普比率或索提诺比率）、经典机器学习指标（例如准确率或 F-beta 分数）或以实施为中心的标准（例如信号频率和回撤特征）进行优化。不同的优化目标将呈现不同的最优特征组合，而绩效指标的选择从根本上决定了探索过程中能够发现哪些关系。

特征空间配置

在定义了评估框架之后，我们面临的实际挑战是如何让庞大的搜索空间易于计算处理。为了提高可解释性，我们配置了一个受限的搜索空间，使用 1,600 个比特币指标（包括子迹线），将转换限制为仅限 Z 得分和 RSI，允许上下文窗口最长为 1,536 天，并将模型限制为仅 2 个特征。即使有这些限制，理论搜索空间仍可达到：

(1,600 metrics × 2 transformations × 1,536 context windows)² = 24 trillion combinations

这一计算挑战需要系统地进行降维。我们采用如下所述的三阶段方法来实现这一目标。

三阶段勘探过程

第一阶段：单一特征筛选

我们评估了 153,600 个单特征组合，并跨指标、转换和上下文窗口进行采样。我们并非寻求绝对的赢家，而是寻找那些展现潜力的指标。

前 10 个个人指标：

这些指标涵盖估值比率、持有人行为和利润/损失分布——评估无需任何预选即可确定的多样化且合理的集合。

图 2：Top 50 个单项特征的性能热图。行表示指标，列表示上下文窗口时段（0-1,535 天）。颜色强度表示 2017 年至 2023 年的年度平均性能。

第一阶段的结果如图 2 所示。例如，指标“ MVRV 按年龄：1 个月至 3 个月”结合 64-95 天的上下文窗口，相对于简单的买入并持有策略，平均表现为 1.152。但请注意，这些发现仅构成我们流程的第一步，其本身很可能与任何稳健的交易信号无关。

第二阶段：度量对发现

扩展此分析，我们使用第一阶段的前 50 个指标，从约 2300 万个可能的组合中抽取了 10 万个评估样本。目标是识别潜在的协同组合，而非最终的优化。

图 3：前 50 个指标的成对绩效矩阵。单元格颜色表示组合绩效。

初步研究结果表明某些组合值得更深入的研究：

已实现资本指标显示出一致的有效性
活动留存指标似乎与估值指标相辅相成
一些对的组合结果比单个成分的结果更强。

第三阶段：参数优化

虽然第二阶段揭示了一些引人注目的指标组合，但我们尚未优化它们的历史上下文窗口。对于我们在成对分析中确定的最值得关注的指标对——已实现市值和活动留存率，我们跨上下文窗口进行了有针对性的参数搜索。您认为哪个时间范围最适合比特币趋势检测——几天、几周还是几个月？

模拟结果总结在图 5 中。有趣的是，出现了一种意想不到的关系：最佳窗口范围是 800-1,200 天，比传统的技术分析周期长得多。

图 5：上下文窗口优化显示所选指标对在不同窗口组合中的性能。

我们的发现需要解释，因为它们与技术分析中的传统观点相矛盾。虽然比特币的脉搏通常指引方向，但我们发现，比特币三年多来的缓慢呼吸模式似乎勾勒出了这一目标的真实路径。一个关键因素是我们的标签构建：分层趋势细分识别出通常跨越数周或数月的上升趋势段。较长的上下文窗口可能更好地捕捉这些延长趋势周期的逐渐建立和确立，而较短的窗口可能会对更广泛趋势结构中的噪声做出反应。800-1200天的窗口可能正在探测先于并维持广泛上升趋势阶段的较慢变化的潜在条件。

然而，我们强调，这些观察结果仅来自我们标签方法的有限案例研究。针对短期波动的修改后的标签定义将适用于不同的上下文窗口。

时间性能分析

我们的探索发现了一些引人注目的组合，但一个关键问题依然存在：这些关系随着时间的推移有多稳定？为了解决这个问题，我们研究了不同特征架构在不同时间段内的表现。我们根据指标类型对组合进行了分类：

已实现市值 × 已实现市值：两个指标均基于链上成本
活动 × 已实现市值：混合行为和估值指标
活跃度×活跃度：这两个指标都基于用户行为模式

图 10：测试年份（2018-2023）的架构性能轨迹。x 轴上的每个簇代表指标对和上下文窗口桶的独特组合，条形图显示年度性能。

样本期间的主要观察结果：

已实现的资本组合方差较低，但回报率适中
混合架构平衡一致性和有效性
仅活动对表现出与特定时期结果的高度差异

重要的是，所有架构在 2017 年至 2023 年期间的结果都呈现下降趋势，这表明市场效率正在提高或市场动态正在发生变化。

样本外结果：现实检验

虽然实时交易仍是最终的检验标准，但评估算法在先前排除的数据上的发现，可以洞察潜在的实际有效性。2024-2025 年的验证期为我们的发现提供了至关重要的视角：

图 7：样本外表现（2024-2025 年）。架构类别与训练期相同。

样本外时期揭示了一些现象：一些之前表现强劲的策略（例如纯活动留存组合）的有效性有所下降，而某些已实现的市值组合则保持了稳定的业绩。这些结果的变化引发了关于市场演变的根本性问题。有效性特征为何会发生变化？原因可能有多种，例如生态系统结构或参与者行为的真正变化、ETF 等新市场基础设施的影响以及机构采用率的提高，或者其他完全不同的因素。

这些结果强调，结构化探索是调查的起点，而不是交易系统开发的终点。

实际意义和局限性

分析结果

我们的结构化探索揭示了传统分析无法发现的隐性关系，尤其是对 800-1,200 天长上下文窗口的偏好。即使我们仅使用来自有限指标集的 2 个特征进行受限搜索，我们也能发现值得进一步研究的行为，这表明即使在严格的限制下，结构化采样也能产生有价值的洞察。该方法展示了自下而上的探索和自上而下的特征工程如何相互补充，并通过计算发现来指导领域专业知识的重点。最重要的是，该框架代表了一种可扩展的方法，可应用于不同的投资目标、各种资产和替代约束，为从业者提供探索其特定用例的工具。

这项分析没有显示什么

然而，承认这些能力需要同样重视约束条件。该分析并未提供完整的交易策略——使用简单决策树的两个特征无法捕捉加密货币市场的全部复杂性。结果特定于我们对标签、指标和时间段的特定选择，不应被解读为关于市场行为的普遍真理。由于我们只采样了即使在受限特征空间中的一小部分，因此最优解或最佳特征仍然难以捉摸。此外，这从根本上来说是一种历史分析，过去的关系并不能保证未来的有效性，这进一步强调了持续验证而非静态实施的必要性。

未来研究方向

这些限制因素为未来的研究指明了若干令人信服的途径。凭借数千条可用的个体轨迹和无限的转换可能性，广阔的未开发配置空间蕴藏着发现有价值指标的巨大潜力。该方法可以扩展到不同的预测目标，例如波动率预测、回撤风险评估和制度变迁检测，以及包括日内、周和月分析期在内的其他时间范围。跨不同加密货币的多资产组合有助于识别普遍行为与特定资产行为，从而更深入地洞察加密货币市场。此外，探索超越简单交易对的更复杂特征交互对于构建稳健的预测模型至关重要，因为更多样化的输入既可以提供增强的个体预测指标，又能够捕捉单一指标无法揭示的特征之间的交互。

我们开发的工具使我们能够以相对较少的努力探索不同的假设，为针对特定目标和限制的定制研究开辟了可能性。

结论

这些实证研究结果虽然仅针对我们的案例研究，但却阐明了金融市场计算发现的更广泛问题，并指明了当前的应用和未来的研究方向。我们的工作展示了结构化的自下而上的探索如何能够补充传统的自上而下的方法，例如，通过揭示扩展上下文窗口的意外有效性。虽然我们的分析仅仅触及了无限可能组合的表面，但它展现了一种实践者可以根据自身特定需求进行调整的方法。

样本外结果至关重要地提醒我们：加密货币市场仍然充满挑战，不仅需要探索，还需要持续适应。对于Glassnode 的客户和算法交易者来说，这个框架提供了一个起点，其方法本身不受先入之见的影响，有助于应对区块链数据的巨大复杂性。

随着加密货币市场的发展，分析方法也必须随之演变。计算探索并非取代专业知识，而是增强专业知识，帮助揭示显而易见的隐藏关系。

在 X 上关注我们，获取及时的市场更新和分析
加入我们的电报频道，获取定期的市场洞察
如需了解链上指标、仪表盘和警报，请访问Glassnode Studio

免责声明：本报告仅供参考及教育之用。本分析基于有限的案例研究，且包含重大限制，不应被视为投资建议或最终交易信号。过往业绩模式不保证未来业绩。投资决策前，请务必进行彻底的尽职调查，并考虑多种因素。

来源

免责声明：以上内容仅为作者观点，不代表Followin的任何立场，不构成与Followin相关的任何投资建议。

喜欢