第104封信:将领域知识应用于预测模型

本文为机器翻译
展示原文

上周我向大家讲解如何从零开始写一个预测模型

反应非常好,很多人开始制作自己的模型,这真是太棒了。

我本周收到的一些问题类似于“我应该尝试预测什么?”以及“一旦模型运行起来,是否就应该盲目地遵循它?”

所以我决定再多写一些关于领域知识的概念,因为它能回答这两个问题以及更多问题。

领域知识是构成(或应该构成)任何模型的基础层,也是建构模型的基础。它区分了拥有模型的人、拥有优秀模型的人以及能够有效利用模型的人。

这是你对自己专业领域所了解的、任何资料集都无法完全捕捉的知识。例如背景、细微差别、特殊情况等等。这些东西难以量化,但如果你在某个领域投入了数千小时,就很容易辨认出来。

我认为,在使用预测模型的过程中,理解如何以及何时运用你的领域知识是最重要的技能之一。这也是我在不断完善我的Dota 2模型并追踪真实投注数据时一直在思考的问题。

顺便说一句,我的模型持续证明它相当有利可图。以下是最新结果。虽然现在还处于早期阶段,但我对它的信心正在稳步增长:

已经下了137注,而且获利了。不到500注我都不会觉得太放心,可能要到1000注以上才会真正放心,但是…我们正在朝著目标前进。

总之,回到领域知识的议题。今天我们将讨论以下内容:

  1. 领域知识究竟是什么?

  2. 领域知识有助于建立更好的模型

  3. 何时应该相信自己而不是模型

  4. 何时应该相信模型而不是自己

  5. 这不仅适用于电子竞技博彩。

  6. 最后想说的

1. 领域知识究竟是什么?

领域知识是指你透过经验、观察和参与所累积的关于某个主题的所有知识。它存在于你的脑海中,很难用电子表格、JSON 档案或 Python 程式码来表达。

对我而言,在 Dota 2 领域,这些知识来自我 20 多年的游戏经验和数千小时观看职业比赛的累积。以下是一些领域知识的例子:

我的模型训练资料里没有这些资讯。你或许可以想办法把这些资讯加到模型里,但是:a) 你首先得知道该去哪里找这些资讯(我怀疑大多数非Dota玩家都找不到),b) 很多时候这些资讯很难甚至不可能抓取,而且只适用于极少数的比赛,尝试这样做反而会损害模型的整体性能。

模型看到的是数据:胜率、英雄对战、近期状态、历史表现。它能很好地处理这些数据。但它实际上并不观看比赛,不观看赛前赛后采访,它也不理解……姑且称之为「氛围」吧。

没错,我在这里用「感觉」这个词是认真的,因为有时候事情就是这么回事。你看一支球队比赛,感觉哪里不对劲,于是你开始调查,然后发现:哦,原来他们的教练因为X、Y、Z之类的原因没来参加这次比赛。所以他们的选秀没发挥出应有的水平,这解释了我的感受!

这是领域知识。

具体细节会因预测物件类型而异,但原理相同。领域知识分为两类:a) 你知道但大多数人不知道的信息,你可以将其输入模型;b) 你知道但无法合理地输入任何模型的信息,这些信息可能会影响你对模型预测结果的信任程度。

现在让我们更详细地看一下这些内容。

2. 领域知识如何帮助你建立更好的模型

阅读更多

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
66
收藏
16
评论