편지 108: LLM이란 무엇이며, 어떻게 운영되나요?

04-14

이 기사는 기계로 번역되었습니다

원문 표시

네, 요즘 AI 콘텐츠에 대한 반응이 좋으신 것 같아서 계속 이어가도록 하겠습니다. 덧붙여 말씀드리자면, 최근 시장이 상승세를 보이고 있으니 조만간 암호화폐에 대해서도 다시 한번 살펴보고 주목할 만한 종목이 있는지 알아보겠습니다.

하지만 오늘은 LLM에 대한 기초적인 내용을 살펴보겠습니다. ChatGPT나 Claude를 매일 사용하는 대부분의 사람들이 LLM이 실제로 어떻게 작동하는지 잘 모른다는 것을 알게 되었습니다.

물론 괜찮습니다. 자동차를 운전하는 데 엔진 작동 원리를 알 필요는 없으니까요. 하지만 기본적인 작동 원리를 이해하는 것은 더 나은 사용자가 되는 데 도움이 된다고 생각합니다. 인공지능이 어떤 부분에서는 뛰어나고 어떤 부분에서는 부족한지 이해하는 데 도움이 되고, 더 나은 질문을 할 수 있게 해주며, 출력 결과를 지나치게 신뢰하거나 과소평가하는 경향을 줄여줍니다.

글이 꽤 길어졌네요. 다룰 내용은 다음과 같습니다.

LLM이란 무엇인가요?
LLM 과정 학생은 어떻게 "학습"하는가?
잠깐, 그럼 자동 완성 기능인가요?
토큰이란 무엇인가요?
매개변수는 어떻습니까?
LLM은 실제로 어떻게 응답을 생성하는가?
그렇다면 이 모델들은 실제로 무엇을 "알고" 있는 걸까요?
훈련과 미세 조정의 차이점은 무엇인가요?
어떤 모델은 다른 모델보다 왜 더 나은가요?
모델 크기: 어떤 모델은 노트북에서 실행되고, 어떤 모델은 데이터 센터가 필요한 이유
이 모든 것을 아는 것이 당신에게 어떻게 도움이 되나요?

인공지능 학습 여정을 한 단계 더 발전시키고 싶으시다면, 제가 친구 몇 명과 함께 설립한 새로운 회사인 The Stoa of AI를 확인해 보세요.
저희는 영상 강좌를 제작하고 매주 라이브 워크숍 과 통화를 통해 일상 업무에 AI를 적용하는 실질적인 방법을 보여드립니다.
현재 얼리 액세스 모드로 할인된 가격에 제공 중입니다. 여기에서 확인해 보세요: https://www.skool.com/thestoaofai

LLM이란 무엇인가요?

LLM은 Large Language Model의 약자입니다. ChatGPT, Claude, 제미니(Gemini) 비롯한 모든 AI 챗봇은 바로 이 LLM을 기반으로 구축되었습니다.

언어. 이 모델들은 언어를 기반으로 작동합니다. 텍스트를 입력하면 텍스트가 출력됩니다. 단어를 입력하면 모델이 단어를 생성합니다. (물론 이제는 이미지, 오디오, 코드도 처리하지만, 본질적으로는 언어 기계이며, "언어"라는 단어는 이러한 LLM이 생성하는 모든 입력/출력을 지칭하는 데 사용할 수 있습니다.)
모델. 인공지능에서 모델은 데이터를 학습하여 패턴을 인식하도록 훈련된 프로그램입니다. 고양이를 한 번도 본 적 없는 사람에게 다양한 품종의 고양이 사진 백만 장을 보여주면 결국에는 고양이들을 구별하는 데 능숙해질 것입니다. LLM도 같은 개념입니다.
규모가 큽니다. 이 모델들은 엄청나게 큰 데이터를 기반으로 학습됩니다. 인터넷 전체의 상당 부분을 차지하는 데이터, 즉 책, 기사, 위키피디아, 포럼, 코드 저장소, 학술 논문 등을 포함합니다. 수십억, 어쩌면 수조 단어에 달하는 데이터일 수도 있습니다.

이 모든 것을 종합하면, 방대한 양의 인간 텍스트를 읽고 언어 패턴을 학습한 프로그램이 탄생합니다.