이 기사는 기계로 번역되었습니다
원문 표시

토큰이란 정확히 무엇일까요? AI를 이해하기 위한 필수 입문 과정 1. 대형 AI 모델은 입력된 원시 텍스트를 직접 처리할 수 없습니다. 모든 콘텐츠 처리의 첫 번째 단계는 텍스트를 토큰으로 변환하는 것입니다. 2. 간단히 말해, 토큰은 모델에 입력되기 전에 텍스트를 나누는 가장 작은 처리 단위입니다. 3. 토큰은 단어 전체, 단어의 일부, 구두점, 심지어 공백일 수도 있습니다. 4. 흔히 사용되는 단어는 일반적으로 하나의 토큰으로 나뉘지만, 길거나 생소한 단어는 더 작은 조각으로 나뉘는 경우가 많습니다. 예를 들어, 영어 단어 "encoding"은 "encod"와 "ing"로 나뉩니다. 5. 일반적인 변환 참고 자료는 다음과 같습니다. 토큰 하나는 대략 영어 문자 4개 또는 영어 단어 3~4개에 해당합니다. 하지만 이 값은 고정되어 있지 않으며 언어에 따라 달라질 수 있습니다. 토크나이저와 토큰화기의 차이점은 다음과 같습니다. 6. 전체 처리 흐름은 다음과 같습니다. 먼저 텍스트가 분할되어 토큰으로 변환됩니다. 그런 다음 각 토큰에 해당하는 숫자 ID가 매핑됩니다. 다음으로 ID는 모델이 인식할 수 있는 벡터로 변환됩니다. 이 세 단계를 모두 거친 후에야 모델이 콘텐츠 처리를 시작합니다. 7. 흔히 접하는 "컨텍스트 윈도우" 역시 토큰 단위로 측정됩니다. 윈도우의 토큰 상한값은 모델이 단일 대화에서 "기억"할 수 있는 콘텐츠의 양을 직접적으로 결정합니다. 8. 마지막으로, 그리고 이는 모두가 분명히 관심을 갖는 부분입니다. 토큰은 생성형 AI의 핵심 회계 단위이기도 합니다. AI에 지출하는 비용은 모두 사용된 토큰의 양을 기준으로 정산됩니다. 위에서 언급한 내용은 빙산의 일각에 불과하며, 토큰의 기본 논리는 상상 이상으로 훨씬 더 흥미롭습니다.

Twitter에서
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트