지난주에는 처음부터 예측 모델을 바이브 코딩하는 방법을 안내해 드렸습니다.
반응이 정말 좋았고, 많은 사람들이 직접 모델을 만들기 시작했는데, 정말 멋진 일입니다.
이번 주에 제가 받은 질문 중 일부는 "무엇을 예측하려고 해야 하나요?"와 "모델이 작동하기 시작하면 그냥 맹목적으로 따라야 하나요?"와 같은 내용입니다.
그래서 저는 도메인 지식이라는 개념에 대해 비트(Bit) 더 자세히 써보려고 합니다. 이 개념은 앞서 언급한 질문들을 비롯해 더 많은 질문에 대한 답을 제공하기 때문입니다.
도메인 지식은 여러분이 구축하는 모든 모델의 기반이자 최상단에 자리 잡아야 할 중요한 요소입니다. 단순히 모델을 가진 사람과 훌륭한 모델을 가진 사람, 그리고 모델을 효과적으로 활용하는 사람을 구분 짓는 것이 바로 도메인 지식입니다.
이는 데이터 세트로는 완벽하게 담아낼 수 없는, 당신의 전문 분야에 대한 지식입니다. 맥락, 미묘한 차이, 예외적인 상황 이더리움 클래식(ETC). 수치화하기는 어렵지만, 해당 분야에 수천 시간을 투자했다면 쉽게 알아차릴 수 있는 것들입니다.
예측 모델을 다루면서 가장 중요한 능력 중 하나는 자신의 전문 지식을 언제 어떻게 적용해야 하는지 이해하는 것이라고 생각합니다. 그리고 저는 도타 2 모델을 계속해서 개선하고 실제 베팅 내역을 추적하면서 이 점에 대해 많이 고민해 왔습니다.
참고로 제 모델은 꽤 수익성이 좋은 것으로 계속해서 입증되고 있습니다. 최신 결과는 다음과 같습니다. 아직 초기 단계이지만, 제 확신은 천천히, 하지만 확실하게 커지고 있습니다.
137번의 베팅으로 수익을 냈네요. 500번은 넘어야 좀 안심이 될 것 같고, 1000번 이상 넘어야 완전히 안심이 될 것 같지만… 그래도 순조롭게 가고 있는 것 같아요.
자, 그럼 다시 도메인 지식 이야기로 돌아가서, 오늘 다룰 내용은 다음과 같습니다.
도메인 지식이란 실제로 무엇인가?
도메인 지식이 더 나은 모델을 구축하는 데 도움이 되는 경우
모델보다 자신을 더 신뢰해야 할 때는 언제일까요?
언제 모델을 스스로보다 더 신뢰해야 할까요?
이는 e스포츠 베팅을 넘어 다른 분야에도 적용됩니다.
마지막으로
전문 지식이란 경험, 관찰, 참여를 통해 특정 주제에 대해 축적해 온 모든 지식을 말합니다. 머릿속에 있는 지식으로, 스프레드시트나 JSON 비트(Bit) , 파이썬 코드로 표현하기 어려운 것입니다.
저에게 있어 도타 2에 대한 지식은 20년 넘게 게임을 플레이하고 수천 시간 동안 프로 경기를 시청하면서 얻은 경험에서 비롯됩니다. 몇 가지 전문 지식의 예를 들자면 다음과 같습니다.
제 모델의 학습 데이터에는 그런 정보가 전혀 없습니다. 그런 정보들을 모델에 추가하는 방법을 생각해낼 수는 있겠지만, a) 애초에 그런 정보를 찾아야 한다는 것 자체가 어렵고 (도타 팬이 아닌 사람들은 그런 정보를 찾을 수 없을 거라고 생각합니다), b) 그런 정보는 대부분 수집하기 어렵거나 불가능하며, 극히 일부 경기에만 해당되는 정보라서 시도하는 것 자체가 모델 성능에 악영향을 미칠 수 있습니다.
모델은 숫자를 분석합니다. 승률, 영웅 상성, 최근 경기력, 과거 성적 등을 말이죠. 이런 숫자들을 바탕으로 꽤 괜찮은 결과를 보여줍니다. 하지만 모델은 실제로 경기를 시청하지 않고, 경기 전후 인터뷰도 보지 않으며, 달리 표현할 말이 없지만, 경기 분위기를 파악하지 못합니다.
네, 제가 여기서 '분위기'라는 단어를 진심으로 쓰는 이유는, 때로는 그게 핵심이기 때문입니다. 어떤 팀의 경기를 보다가 뭔가 이상하다고 느껴서 알아보면, '아, 맞다. 저 팀 감독이 어떤 이유로 이번 대회에 불참했구나. 그래서 픽을 제대로 못 하고 있었던 거였네. 그래서 내가 그런 느낌을 받았던 거였구나!' 하는 생각이 들 때가 있죠.
그건 해당 분야 지식이에요.
구체적인 내용은 예측하려는 대상의 유형에 따라 다르지만, 원리는 동일합니다. 도메인 지식은 a) 다른 사람들이 대부분 모르는, 당신이 알고 있고 모델에 입력할 수 있는 지식, b) 어떤 모델에도 합리적으로 입력할 수는 없지만 모델 예측에 얼마나 의존할지에 영향을 줄 수 있는 지식으로 나눌 수 있습니다.
이제 이것들을 비트(Bit) 더 자세히 살펴보겠습니다.
더 읽어보기