네, 요즘 AI 콘텐츠에 대한 반응이 좋으신 것 같아서 계속 이어가도록 하겠습니다. 덧붙여 말씀드리자면, 최근 시장이 상승세를 보이고 있으니 조만간 암호화폐에 대해서도 다시 한번 살펴보고 주목할 만한 종목이 있는지 알아보겠습니다.
하지만 오늘은 LLM에 대한 기초적인 내용을 살펴보겠습니다. ChatGPT나 Claude를 매일 사용하는 대부분의 사람들이 LLM이 실제로 어떻게 작동하는지 잘 모른다는 것을 알게 되었습니다.
물론 괜찮습니다. 자동차를 운전하는 데 엔진 작동 원리를 알 필요는 없으니까요. 하지만 기본적인 작동 원리를 이해하는 것은 더 나은 사용자가 되는 데 도움이 된다고 생각합니다. 인공지능이 어떤 부분에서는 뛰어나고 어떤 부분에서는 부족한지 이해하는 데 도움이 되고, 더 나은 질문을 할 수 있게 해주며, 출력 결과를 지나치게 신뢰하거나 과소평가하는 경향을 줄여줍니다.
글이 꽤 길어졌네요. 다룰 내용은 다음과 같습니다.
LLM이란 무엇인가요?
LLM 과정 학생은 어떻게 "학습"하는가?
잠깐, 그럼 자동 완성 기능인가요?
토큰이란 무엇인가요?
매개변수는 어떻습니까?
LLM은 실제로 어떻게 응답을 생성하는가?
그렇다면 이 모델들은 실제로 무엇을 "알고" 있는 걸까요?
훈련과 미세 조정의 차이점은 무엇인가요?
어떤 모델은 다른 모델보다 왜 더 나은가요?
모델 크기: 어떤 모델은 노트북에서 실행되고, 어떤 모델은 데이터 센터가 필요한 이유
이 모든 것을 아는 것이 당신에게 어떻게 도움이 되나요?
인공지능 학습 여정을 한 단계 더 발전시키고 싶으시다면, 제가 친구 몇 명과 함께 설립한 새로운 회사인 The Stoa of AI를 확인해 보세요.
저희는 영상 강좌를 제작하고 매주 라이브 워크숍 과 통화를 통해 일상 업무에 AI를 적용하는 실질적인 방법을 보여드립니다.
현재 얼리 액세스 모드로 할인된 가격에 제공 중입니다. 여기에서 확인해 보세요: https://www.skool.com/thestoaofai
LLM이란 무엇인가요?
LLM은 Large Language Model의 약자입니다. ChatGPT, Claude, 제미니(Gemini) 비롯한 모든 AI 챗봇은 바로 이 LLM을 기반으로 구축되었습니다.
언어. 이 모델들은 언어를 기반으로 작동합니다. 텍스트를 입력하면 텍스트가 출력됩니다. 단어를 입력하면 모델이 단어를 생성합니다. (물론 이제는 이미지, 오디오, 코드도 처리하지만, 본질적으로는 언어 기계이며, "언어"라는 단어는 이러한 LLM이 생성하는 모든 입력/출력을 지칭하는 데 사용할 수 있습니다.)
모델. 인공지능에서 모델은 데이터를 학습하여 패턴을 인식하도록 훈련된 프로그램입니다. 고양이를 한 번도 본 적 없는 사람에게 다양한 품종의 고양이 사진 백만 장을 보여주면 결국에는 고양이들을 구별하는 데 능숙해질 것입니다. LLM도 같은 개념입니다.
규모가 큽니다. 이 모델들은 엄청나게 큰 데이터를 기반으로 학습됩니다. 인터넷 전체의 상당 부분을 차지하는 데이터, 즉 책, 기사, 위키피디아, 포럼, 코드 저장소, 학술 논문 등을 포함합니다. 수십억, 어쩌면 수조 단어에 달하는 데이터일 수도 있습니다.
이 모든 것을 종합하면, 방대한 양의 인간 텍스트를 읽고 언어 패턴을 학습한 프로그램이 탄생합니다.
핵심 학습 과정인 "훈련"은 개념적으로 놀라울 정도로 간단합니다. 문장을 하나 가져와서 마지막 단어를 숨기고, 모델에게 다음에 올 단어를 예측하도록 요청하는 것입니다.
“고양이가 ___ 위에 앉았다.”
모델은 추측합니다. 만약 틀리면, 다음번에 더 잘 작동하도록 모델을 약간씩 조정합니다. 그리고 이 과정을 수십억, 수조 개의 문장에 대해 반복합니다.
시간이 흐르면서 모델은 다음 단어를 예측하는 데 능숙해집니다. 그리고 그 다음 단어, 또 그 다음 단어까지. 결국 사람이 쓴 것처럼 들리는 문단 전체와 페이지 전체를 만들어냅니다.
이는 과정을 단순화한 버전입니다(기술 용어로는 "다음 토큰 예측"이라고 합니다). 하지만 핵심 아이디어는 잘 나타냅니다. LLM은 기본적으로 예측 머신입니다. 이전에 학습한 모든 데이터를 기반으로 다음에 어떤 텍스트가 와야 할지 예측합니다.
어느 정도는 맞습니다. 이런 비교는 흔히 하는데, 부분적으로는 정확하죠.
스마트폰의 자동 완성 기능은 간단한 패턴을 기반으로 다음 단어를 예측합니다. LLM도 같은 작업을 수행하지만, 훨씬 더 많은 데이터, 훨씬 더 강력한 컴퓨팅 성능, 그리고 훨씬 더 깊이 있는 문맥 이해를 바탕으로 합니다.
규모의 차이가 본질적인 차이를 만들어냅니다. 스마트폰의 자동 완성 기능은 "in" 다음에 "the"를 제안할 수 있습니다. 법학 석사(LLM)는 양자 물리학에 대한 논리적인 에세이를 작성하고, 2,000단어에 걸쳐 일관된 주장을 유지하며, 적절한 형식으로 글을 완성할 것입니다. 둘 다 다음 단어를 예측하는 것이지만, 전자는 깊이 있고 세련된 방식으로 예측하여 마치 이해한 것처럼 보이는 결과물을 만들어냅니다.
인공지능이 이해력을 갖춘 것인지 아닌지는 현재 인공지능 분야에서 가장 큰 논쟁거리 중 하나입니다. 하지만 여기서 그 결론을 내릴 필요는 없다고 생각합니다. 실질적인 관점에서 중요한 것은 결과물이 유용하고, 종종 놀라울 정도로 훌륭하다는 점입니다.
토큰은 LLM에서 사용하는 단위이며, LLM의 통화와 같은 역할을 합니다. Anthropic이나 OpenAI의 프론티어 모델을 사용할 때는 일반적으로 사용한 토큰 수에 따라 비용을 지불하게 됩니다.
대부분의 사람들이 모르는 사실이 하나 있습니다. 모델은 실제로 당신의 단어를 보는 것이 아니라 숫자만 본다는 것입니다.
메시지를 입력하면 가장 먼저 텍스트가 토큰으로 인코딩되고, 각 토큰에는 번호가 할당됩니다. 예를 들어 "hello"라는 단어는 토큰 15339가 될 수 있고, "the"는 토큰 1820이 될 수 있습니다. "cryptocurrency"라는 단어는 "crypto"(54219)와 "currency"(26072) 두 개의 토큰으로 분리될 수도 있습니다.
이 숫자들은 모델이 작동하는 데 사용되는 데이터입니다. 모델 내부에서 일어나는 모든 계산, 즉 패턴 매칭과 예측은 모두 숫자에 대한 수학적 연산입니다. 모델은 신경망을 통해 이러한 숫자들을 처리하고, 또 다른 숫자들을 출력합니다. 그리고 이 출력된 숫자들은 다시 해독되어 화면에 표시되는 단어로 변환됩니다.
인코딩 → 연산 → 디코딩. 이게 전체 과정입니다.
텍스트를 숫자로 변환하는 과정을 인코딩이라고 합니다. 변환된 숫자를 다시 텍스트로 변환하는 과정을 디코딩이라고 합니다. 사용자는 숫자를 직접 볼 수 없고, 모델도 단어를 볼 수 없습니다. 사용자와 모델 사이에는 인코딩과 디코딩을 반복하는 변환 계층(토큰라이저)이 존재합니다.
그렇다면 "수학" 부분에서는 무슨 일이 일어날까요? 각 토큰 번호는 벡터로 변환되는데, 이 벡터는 해당 토큰의 의미와 맥락을 나타내는 수백 또는 수천 개의 숫자로 이루어진 긴 목록입니다. "강둑"에서 "은행"이라는 단어는 "은행 계좌"에서 "은행"이라는 단어와 다른 벡터를 가지는데, 이는 주변 토큰들이 표현에 영향을 미치기 때문입니다.
이 모델은 이러한 벡터들을 여러 단계의 계산 과정을 거치면서 조정하고 결합하며, 모든 토큰을 서로 비교하여 관계와 문맥을 파악합니다(이것이 바로 여러분이 들어보셨을 "어텐션" 메커니즘입니다). 수십 개의 단계를 거친 후, 최종 출력은 다음에 나올 수 있는 모든 토큰에 대한 확률 분포입니다. 모델은 그중 하나를 선택하여 텍스트로 디코딩하고, 그러면 화면에 단어가 나타납니다.
이것이 바로 LLM이 단어의 글자 수를 세거나 산술 연산을 하는 것과 같은 작업에서 때때로 이상한 결과를 보이는 이유이기도 합니다. 모델은 "딸기"라는 단어를 딸기로 인식하지 않습니다. 하나 또는 두 개의 토큰 숫자로 인식합니다. 모델은 개별 글자에 대한 개념이 없는데, 그 이유는 모델이 접근하기 전에 이미 그 글자들이 인코딩 과정에서 사라졌기 때문입니다.
토큰은 대략 단어의 3/4 또는 약 4개의 문자에 해당합니다. "the"나 "and"와 같은 숏 단어는 하나의 토큰으로 구성됩니다. 더 길거나 덜 일반적인 단어는 여러 개의 토큰으로 나뉩니다.
이것이 중요한 이유는 LLM이 한 번에 처리할 수 있는 토큰 수에 제한이 있기 때문입니다. 이를 컨텍스트 윈도우라고 하며, 모델의 작업 메모리라고 생각하면 됩니다.
만약 어떤 모델이 20만 토큰 규모의 컨텍스트 창을 가지고 있다면, 대략 15만 단어 정도를 동시에 기억할 수 있다는 뜻입니다. 최근에는 이보다 훨씬 더 높은 용량을 지원하는 모델들도 등장했습니다. Claude Opus 4.6, Claude Sonnet 4.6, 그리고 제미니(Gemini) 모두 100만 토큰 규모의 컨텍스트 창을 지원합니다. 이는 약 75만 단어, 즉 소설 10~15권 분량에 해당합니다. Meta의 Llama 4 Scout는 무려 1천만 토큰 규모의 컨텍스트 창을 지원합니다. 이는 몇 년 전과 비교하면 실로 놀라운 수치입니다.
하지만 명심해야 할 점은 컨텍스트 창이 크다고 해서 반드시 또는 본질적으로 더 좋은 것은 아니라는 것입니다.
컨텍스트 창에 토큰을 점점 더 많이 채워 넣을수록 모델의 응답 품질이 저하되는 경향이 있습니다. 연구자들은 이를 "컨텍스트 부패"라고 부릅니다. 모델은 컨텍스트 내의 모든 요소에 동일하게 주의를 기울이지 않습니다. 컨텍스트의 시작과 끝 부분에 있는 요소에 가장 많은 주의를 기울이고, 중간 부분에 있는 요소에는 상대적으로 적은 주의를 기울이는 경향이 있습니다. 2023년 연구 논문에 따르면, 관련 정보가 긴 컨텍스트의 중간에 묻혀 있을 경우, 모델은 해당 정보를 찾아 활용하는 데 있어 성능이 현저히 떨어지는 것으로 나타났습니다.
즉, 모델에 더 많은 맥락 정보를 제공하는 것이 항상 더 나은 결과를 가져오는 것은 아닙니다. 만약 관련성이 떨어지는 문서 토큰 50만 개를 맥락 창에 입력했는데, 실제 질문이 그 중간 어딘가에 있는 세부 정보와 관련된 것이라면, 가장 관련성이 높은 토큰 1만 개만 제공했을 때보다 오히려 더 나쁜 결과를 얻을 수도 있습니다. 맥락 정보의 양보다 질이 중요합니다. 다소 직관적이지 않게 들릴 수 있지만, 이것이 바로 원리입니다.
모든 AI 관련 분야가 그렇듯, 이 모델들도 점점 더 나아지고 있습니다. 클로드는 장기 컨텍스트 벤치마크에서 최상위권을 차지하고 있으며, 단기 컨텍스트와 장기 컨텍스트 성능 간의 격차는 세대가 거듭될수록 줄어들고 있습니다.
이것도 흔히 듣는 엄청난 숫자 중 하나입니다. 많은 모델들이 수십억, 수천억 개의 매개변수를 자랑하고, 어떤 모델은 수조 개의 매개변수를 가지고 있다고 합니다. 그런데 매개변수란 도대체 무엇일까요?
파라미터는 모델의 내부 설정입니다. 마치 작은 다이얼처럼 생각하면 되는데, 학습 과정에서 모델이 예측을 하고 그 예측이 맞았는지 틀렸는지에 대한 피드백을 받을 때마다 이 다이얼이 조금씩 조정됩니다.
좀 더 구체적으로 말하자면, 파라미터는 앞서 언급한 벡터들이 모델을 통과하면서 어떻게 변환되는지를 결정하는 숫자들입니다. 파라미터는 다음과 같은 것들을 제어합니다. 이 단어가 저 단어에 얼마나 주의를 기울여야 할까요? 이 개념은 저 개념과 어떻게 관련되어야 할까요? 어떤 패턴이 중요하고 어떤 패턴은 노이즈일까요?
신경망의 뉴런 간 연결에는 각각 연결 강도를 조절하는 매개변수(가중치)가 있습니다. 70억 개의 매개변수를 가진 모델은 70억 개의 연결을 가지고 있으며, 1조 개의 매개변수를 가진 모델은 1조 개의 연결을 가지고 있습니다. 각각의 모델은 수조 개의 훈련 예제 비트(Bit) 통해 비트(Bit) 조정되었습니다.
매개변수가 많을수록 조정할 수 있는 요소가 많아지므로 더 미묘하고 복잡한 패턴을 학습할 수 있습니다. 작은 모델은 "고양이가 매트 위에 앉았다"라는 문장이 흔한 패턴이라는 것을 학습할 수 있습니다. 큰 모델은 이러한 패턴도 학습하지만, "그러나"라는 단어를 사용했을 때 문단의 분위기가 바뀐다는 점이나, 정중하게 표현된 질문이 직설적인 답변과는 다른 종류의 답변을 기대하게 한다는 점까지 학습합니다. 모델이 클수록 이러한 미묘한 관계를 더 많이 파악할 수 있습니다.
일반적으로 매개변수가 많을수록 모델이 더 똑똑해지지만, 유일한 요인은 아닙니다. 학습 데이터의 품질, 아키텍처 설계, 미세 조정 등도 모두 중요하며, 이에 대해서는 비트(Bit) 후에 자세히 살펴보겠습니다. 하지만 다른 모든 조건이 동일하다면, 매개변수가 많을수록 복잡한 모델을 학습할 수 있는 능력이 커집니다.
절충점은 리소스입니다. 모든 매개변수는 메모리를 차지합니다. 모델을 실행한다는 것은 이러한 모든 매개변수를 RAM(또는 GPU 메모리)에 로드하고 생성되는 모든 토큰에 대해 연산을 수행해야 함을 의미합니다. 따라서 모델 규모가 클수록 더 비싼 하드웨어가 필요하고, 실행 비용이 더 많이 들며, 토큰 생성 속도가 느려집니다.
이런 일에는 정확한 수치를 기억하거나 작동 원리를 정확히 알 필요는 없습니다.
핵심은 다음과 같습니다. 매개변수는 모델이 복잡성을 학습하는 능력을 의미합니다.
클로드나 ChatGPT에게 메시지를 입력하면 대략 다음과 같은 일이 발생합니다.
입력하신 메시지는 토큰(숫자)으로 변환됩니다.
이 모델은 수십억 개의 매개변수로 이루어진 신경망을 통해 이러한 수치들을 처리합니다.
다음으로 나올 가능성이 가장 높은 토큰(숫자)을 예측합니다.
그 숫자가 수열에 더해지고, 모델은 다음 숫자를 예측합니다.
응답이 완료될 때까지 토큰을 하나씩 반복합니다.
이것이 바로 AI가 답변할 때 텍스트가 단어 단위로 나타나는 이유입니다. AI는 실시간으로 답변을 한 부분씩 생성하고 있습니다. 전체 답변을 먼저 작성한 다음 보여주는 것이 아니라, 답변을 생성하면서 동시에 생각하는 것입니다.
이것이 바로 동일한 질문에 대해 때때로 다른 답변이 나오는 이유입니다. 선택 과정에는 어느 정도의 무작위성(이른바 "온도")이 내재되어 있습니다. 모델은 항상 가장 가능성이 높은 다음 토큰을 선택하는 것이 아닙니다. 때로는 두 번째 또는 세 번째로 가능성이 높은 옵션을 선택하여 응답이 약간 다른 방향으로 흘러가게 됩니다.
대부분의 모델에서는 이 설정을 조정하여 모델이 비표준적인 응답을 더 많이 사용하도록 요청할 수 있습니다. 이는 창작 글쓰기와 같이 틀에 박히지 않은 사고가 필요한 작업에 유용합니다. 사실과 정확성이 요구되는 작업에는 저온 모델이 더 나은 성능을 보이는 경향이 있습니다 .
LLM(학습 모델)은 사실 데이터베이스를 검색하거나 질문을 받았을 때 서류 캐비닛을 뒤지는 방식이 아닙니다. 대신, 지식은 모델 매개변수의 패턴에 내재되어 있습니다. 이 모델은 특정 사실이 특정 맥락에서 나타나는 경향이 있음을 학습하고, 해당 맥락이 요구할 때 그 사실을 재현합니다.
이것이 바로 LLM(언어 기억 모델)이 때때로 사실을 왜곡하는 이유입니다. AI 커뮤니티에서는 이를 "환각"이라고 부릅니다. 모델이 거짓말을 하는 것이 아닙니다. 모델은 대화의 가장 가능성 있는 흐름처럼 보이는 텍스트를 생성하는 것이며, 때로는 가장 가능성 있어 보이는 내용이 사실이 아닐 수도 있습니다. 모델은 기억하는 것이 아니라 예측하는 것입니다.
LLM에 대해 이해해야 할 가장 중요한 점 중 하나는 바로 이것입니다. LLM은 '옳은' 텍스트를 생성하는 데 최적화되어 있지, ' 그럴듯하게 들리는' 텍스트를 생성하는 데 최적화되어 있지 않습니다. 이 두 가지는 많은 경우 겹치지만 항상 그런 것은 아닙니다.
일반적인 원칙은 다음과 같습니다. 사실이 모호하거나 구체적일수록 모델이 오류를 범하거나 임의로 결론을 내릴 가능성이 높아집니다. 학습 데이터에 자주 등장하는 잘 알려진 주제에 대해 질문하면 모델은 상당히 신뢰할 수 있습니다. 하지만 틈새 주제, 최근 사건 또는 특정 수치에 대해 질문하는 경우에는 결과를 검증해야 합니다.
훈련은 모델이 모든 텍스트를 읽고 패턴을 학습하는 초기 과정입니다. 이 과정은 비용이 많이 들고 시간이 오래 걸립니다. 최첨단 모델을 훈련하는 데에는 컴퓨팅 자원에만 수억 달러가 소요됩니다(이 단계는 추가적인 개선 작업이 이루어지기 전에 진행되므로 사전 훈련이라고도 합니다).
사전 학습 결과물을 기본 모델이라고 합니다. 기본 모델은 똑똑하고 언어에 대해 많은 것을 알고 있지만, 대화하기에는 다소 어색합니다. 기본 모델에 질문을 하면 마치 위키피디아 문서를 작성하는 것처럼 텍스트를 이어가거나, 무작위 포럼 게시글을 생성하거나, 예상치 못한 방향으로 문장을 완성할 수도 있습니다. 기본 모델은 도움을 주어야 한다는 것을 인지하지 못합니다. 텍스트 예측 기계일 뿐, chatGPT 이더리움 클래식(ETC) 우리가 익숙하게 사용하는 대화형 비서와는 다릅니다.
미세 조정은 기본 모델을 유용한 모델로 만들어주는 과정입니다. 이는 훨씬 더 작고 신중하게 선별된 데이터셋을 사용하여 수행하는 두 번째 학습 단계입니다. 이 단계에서 모델은 지시를 따르고, 질문에 답하고, 대화를 나누고, 일반적으로 챗봇이 기대하는 방식으로 작동하는 법을 학습합니다.
알아두면 유용한 미세 조정 유형은 몇 가지가 있습니다.
사전 학습과 미세 조정의 비용 차이는 엄청납니다 . GPT-5나 Claude 같은 모델을 처음부터 사전 학습하는 데는 수억 달러가 소요됩니다. 반면, 오픈 소스 모델을 자체 데이터로 미세 조정하는 데 드는 비용은 모델의 크기와 사용하는 데이터 양에 따라 몇 달러에서 수천 달러 정도입니다.
이것이 바로 오픈 소스 모델이 매우 중요한 이유 중 하나입니다. Llama나 Mistral 같은 무료 기본 모델을 가져와 특정 데이터에 맞게 미세 조정하면 도메인을 이해하고 자체 하드웨어에서 실행되며 쿼리당 비용이 들지 않는 맞춤형 모델을 얻을 수 있습니다. 이는 대량의 데이터를 처리하고 타사 API에 데이터를 전송하고 싶지 않은 기업에게 매우 중요한 이점입니다.
이 내용은 이미 어느 비트(Bit) 다뤘지만, 몇 가지 요소를 비트(Bit) 더 자세히 강조하고 설명드리겠습니다.
앞서 살펴본 바와 같이 모든 모델의 크기가 동일한 것은 아닙니다. 매개변수 개수는 모델마다 크게 다르며, 이는 모델을 실행하는 데 필요한 하드웨어를 직접적으로 결정합니다.
대략적인 경험 법칙은 다음과 같습니다. 파라미터 10억 개당 약 0.5GB에서 1GB의 RAM이 필요합니다(정밀도/양자화 방식에 따라 다름). 파라미터 70억 개 모델에는 약 4GB에서 8GB의 RAM이 필요하고, 파라미터 700억 개 모델에는 약 40GB가 필요합니다. OpenAI, Anthropic, Google의 최첨단 모델은 수천억 개에서 1조 개가 넘는 파라미터를 가지고 있으며, 수백만 달러에 달하는 대규모 특수 GPU 클러스터가 필요합니다.
이 때문에 일부 모델은 사용자의 컴퓨터에서 로컬로 실행할 수 있지만, 다른 모델은 클라우드 API를 통해서만 접근할 수 있습니다. GPT-5나 Claude를 사용하려면 토큰당 비용을 지불해야 하는데, 이는 이러한 모델을 실행하는 데 필요한 인프라가 엄청나기 때문입니다. 하지만 Llama 8B나 Mistral 7B는 괜찮은 사양의 노트북에 다운로드하여 무료로 실행할 수 있습니다.
또한, 모델이 방대한 수의 매개변수를 가지고 있지만 각 토큰마다 일부만 활성화하는 '전문가 혼합 모델(Mixture of Experts, MoE)'이라는 기법이 있습니다. DeepSeek V3는 총 6,710억 개의 매개변수를 가지고 있지만 토큰당 370억 개만 사용합니다. 골렘(GLM)-5.1은 총 7,440억 개의 매개변수를 가지고 있지만 400억 개만 활성화합니다. 이러한 방식을 통해 예상보다 작은 하드웨어에서도 대규모 모델을 실행할 수 있습니다.
가장 작은 모델과 가장 큰 모델 사이의 품질 격차는 분명히 존재하지만, 그 격차는 점차 줄어들고 있습니다. 오늘날 노트북에서 실행되는 잘 선택된 14B 파라미터 모델은 최첨단 모델과 비교해도 일상적이고 간단한 작업을 충분히 처리할 수 있습니다(물론 속도는 느릴 수 있습니다).
이러한 격차는 복잡한 다단계 추론, 장문의 창의적 글쓰기, 그리고 광범위한 세계 지식을 요구하는 작업에서 가장 두드러지게 나타납니다. 이메일 작성, 문서 요약, 질문에 대한 답변과 같은 일상적인 작업에서는 로컬 모델이 놀라울 정도로 뛰어납니다.
물론 모든 로컬 모델이 똑같이 만들어진 것은 아닙니다. GLM5.1은 놀라울 정도로 훌륭한 모델로, 맥 스튜디오에서도 실행될 수 있습니다. 맥 스튜디오는 여전히 매우 비싸지만($5,000~$10,000 이상), 수백만 달러가 드는 대규모 데이터 센터 구축 비용에 비하면 훨씬 저렴합니다.
제 말은, 여러분도 저처럼 이런 것들에 굉장히 흥미를 느끼셨으면 좋겠다는 거예요! 지식에는 가치가 있고, 사물이 어떻게 작동하는지 아는 것은, 비록 실제로 사용하기 위해 꼭 필요한 것은 아니더라도, 나름의 의미가 있잖아요.
그러한 가치의 일부는 이러한 도구를 사용할 때 발생할 수 있는 몇 가지 변경 사항에서 비롯됩니다.
모델이 패턴을 기반으로 다음 토큰을 예측한다는 것을 알게 되면, 더 많은 맥락 정보를 제공할수록 더 나은 결과가 나오는 이유를 이해하게 됩니다. 프롬프트를 구체적으로 작성하는 것이 왜 중요한지, 그리고 때때로 모델이 틀렸음에도 불구하고 확신에 찬 답변을 하는 이유를 이해하게 됩니다.
컨텍스트 윈도우에 대해 알게 되면 긴 대화가 때때로 엉뚱한 방향으로 흘러가는 이유를 이해할 수 있습니다.
온도와 무작위성에 대해 알게 되면, 반응을 재생성하는 것이 때로는 더 나은(또는 더 나쁜) 결과를 가져오는 이유를 이해할 수 있습니다. 이는 확률 공간을 통과하는 다른 경로입니다. 또한 작업에 따라 온도 설정을 조정할 수 있다는 것을 알면 필요에 맞게 이러한 도구를 활용할 수 있습니다.
이러한 도구들이 무엇이고 무엇이 아닌지를 이해하기 시작할 것입니다. 이것들은 검색 엔진이 아닙니다(물론 이제는 검색 기능이 내장되어 있긴 합니다). 데이터베이스도 아니고, 신탁도 아닙니다. 이것들은 인류가 남긴 방대한 양의 기록된 지식을 바탕으로 훈련된, 매우 정교한 패턴 매칭 기계이며, 여기에 더해 선별된 인간의 피드백을 통해 지속적으로 훈련되고 미세 조정됩니다.
그것이 바로 그것들이 유용한 이유입니다.
또한 이는 그들이 특정한 예측 가능한 방식으로 오류를 범하게 만든다.
이 모든 것을 알게 되면 더욱 능숙한 사용자가 될 수 있고, 앞으로 프롬프트 사용에 대한 자신감도 높아질 것입니다.
면책 조항: 본 뉴스레터의 내용은 투자 조언으로 간주되어서는 안 됩니다 . 저는 금융 자문가가 아니며, 이는 단지 저의 개인적인 의견과 생각일 뿐입니다. 암호화폐 관련 상품 거래 또는 투자 전에 반드시 전문 금융 자문가와 상담하시기 바랍니다. 공유된 링크 중 일부는 제휴 링크일 수 있습니다.