第104封信:將領域知識應用於預測模型

本文為機器翻譯
展示原文

上週我向大家講解如何從零開始寫一個預測模型

反應非常好,很多人開始製作自己的模型,這真是太棒了。

我本週收到的一些問題類似於“我應該嘗試預測什麼?”以及“一旦模型運行起來,是否就應該盲目地遵循它?”

所以我決定再多寫一些關於領域知識的概念,因為它能回答這兩個問題以及更多問題。

領域知識是構成(或應該構成)任何模型的基礎層,也是建構模型的基礎。它區分了擁有模型的人、擁有優秀模型的人以及能夠有效利用模型的人。

這是你對自己專業領域所了解的、任何資料集都無法完全捕捉的知識。例如背景、細微差別、特殊情況等等。這些東西難以量化,但如果你在某個領域投入了數千小時,就很容易辨認出來。

我認為,在使用預測模型的過程中,理解如何以及何時運用你的領域知識是最重要的技能之一。這也是我在不斷完善我的Dota 2模型並追蹤真實投注數據時一直在思考的問題。

順便說一句,我的模型持續證明它相當有利可圖。以下是最新結果。雖然現在還處於早期階段,但我對它的信心正在穩步增長:

已經下了137注,而且獲利了。不到500注我都不會覺得太放心,可能要到1000注以上才會真正放心,但是…我們正在朝著目標前進。

總之,回到領域知識的議題。今天我們將討論以下內容:

  1. 領域知識究竟是什麼?

  2. 領域知識有助於建立更好的模型

  3. 何時應該相信自己而不是模型

  4. 何時應該相信模型而不是自己

  5. 這不僅適用於電子競技博彩。

  6. 最後想說的

1. 領域知識究竟是什麼?

領域知識是指你透過經驗、觀察和參與所累積的關於某個主題的所有知識。它存在於你的腦海中,很難用電子表格、JSON 檔案或 Python 程式碼來表達。

對我而言,在 Dota 2 領域,這些知識來自我 20 多年的遊戲經驗和數千小時觀看職業比賽的累積。以下是一些領域知識的例子:

我的模型訓練資料裡沒有這些資訊。你或許可以想辦法把這些資訊加到模型裡,但是:a) 你首先得知道該去哪裡找這些資訊(我懷疑大多數非Dota玩家都找不到),b) 很多時候這些資訊很難甚至不可能抓取,而且只適用於極少數的比賽,嘗試這樣做反而會損害模型的整體性能。

模型看到的是數據:勝率、英雄對戰、近期狀態、歷史表現。它能很好地處理這些數據。但它實際上並不觀看比賽,不觀看賽前賽後採訪,它也不理解……姑且稱之為「氛圍」吧。

沒錯,我在這裡用「感覺」這個詞是認真的,因為有時候事情就是這麼回事。你看一支球隊比賽,感覺哪裡不對勁,於是你開始調查,然後發現:哦,原來他們的教練因為X、Y、Z之類的原因沒來參加這次比賽。所以他們的選秀沒發揮出應有的水平,這解釋了我的感受!

這是領域知識。

具體細節會因預測物件類型而異,但原理相同。領域知識分為兩類:a) 你知道但大多數人不知道的信息,你可以將其輸入模型;b) 你知道但無法合理地輸入任何模型的信息,這些信息可能會影響你對模型預測結果的信任程度。

現在讓我們更詳細地看一下這些內容。

2. 領域知識如何幫助你建立更好的模型

閱讀更多

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
66
收藏
16
評論