a16z의 최신 AI 음성 에이전트 그래프: 이제 통화를 재창조할 때입니다

avatar
MarsBit
05-31
이 기사는 기계로 번역되었습니다
원문 표시
전화 통화는 전 세계를 위한 API입니다. AI는 이를 한 단계 더 발전시킵니다!
전화 통화는 전 세계를 향한 API이며 인공 지능은 이를 한 단계 더 발전시킵니다.

이 기사에서는 AI 음성 비서에 대한 a16z의 통찰력을 깊이 탐구하고 B2B 및 B2C 분야의 개발 기회, 기술 아키텍처, 미래 동향 및 응용 가능성을 종합적으로 분석합니다.

01.AI 음성비서의 기회

이제 전화기를 재정의할 시간입니다. 최신 인공지능 기술 덕분에 사람들은 더 이상 직접 전화를 걸 필요가 없습니다. 그들은 전화가 실제 가치가 있을 때만 전화하기로 선택합니다.

기업의 경우 이는 다음을 의미합니다.

1. 수동 호출에 필요한 시간과 인건비를 절약합니다.

2. 수익 증대를 위해 자원을 재할당할 수 있는 기회;

3. 보다 규정을 준수하고 일관된 고객 경험을 제공하여 리스크 줄입니다.

소비자에게는 음성 비서가 추가 비용을 지불하거나 실제 사람과 연결되지 않고도 인간과 유사한 서비스를 제공할 수 있습니다. 현재 여기에는 치료사, 코치 및 동반자 서비스가 포함되며, 앞으로는 더 광범위한 음성 기반 경험으로 확장될 수 있습니다. 대부분의 toC 소프트웨어와 마찬가지로 최종 "승자"는 예측할 수 없습니다.

인프라 구축, 소비자 인터페이스 생성, 기업 수준 에이전트 서비스 제공 등 모든 수준의 음성 도우미에는 엄청난 성장 기회가 숨겨져 있습니다. 소비자(B2C)와 기업(B2B)을 대상으로 하는 음성 비서의 경우 다음과 같은 주요 특징을 요약합니다.

1. 시공 효율성에 주의하세요

우리는 음성 어시스턴트 구축에 대한 명확한 통찰력을 갖고 원활한 사용자 경험을 제공하기 위해 음성 어시스턴트의 핵심 성과 지표(속도, 정확성, 톤/감정 등)를 최적화하는 데 중점을 둔 창립자를 찾고 있습니다.

2. 수직적 전문화

우리는 잘 수행되는 음성 비서가 특정 수직 산업이나 영역에 초점을 맞추고 특정 사용 사례에 맞게 맞춤화된 모델과 긴밀하게 통합된 도구 세트를 활용할 가능성이 있다고 믿습니다. 이 접근 방식은 구현하기가 더 쉽고 시장에서 더 빠른 성공으로 이어집니다.

3. 실제 업무 범위

모든 중요한 통화를 처리하기 위해 AI에만 의존하는 것은 어려운 일이며, 음성 비서 회사가 단기적으로 "확장 불가능한" 전략을 채택할 것으로 예상됩니다. 여기에는 각 고객에 대한 통화를 개인화하거나 필요한 경우 상담원에게 통화를 라우팅하는 것이 포함될 수 있습니다.

일체 포함

02.기술적 아키텍처

1. 음성 어시스턴트 아키텍처 구축

GPT-4o와 같은 차세대 다중 모드 모델은 단일 모델을 통해 여러 레이어를 동시에 처리하여 기존 아키텍처 구조를 변경할 수 있습니다. 많은 상담원이 기존 스태킹 아키텍처에서 진정으로 인간과 같은 대화 품질을 달성하기 위해 노력하고 있기 때문에 이는 대기 시간과 비용을 줄일 뿐만 아니라 보다 자연스러운 대화 인터페이스를 가능하게 합니다.

음성 어시스턴트의 효과적인 작동에는 몇 가지 주요 단계가 필요합니다. 먼저 인간의 음성을 수신(ASR)한 다음 LLM(대형 언어 모델)을 사용하여 입력을 처리하고 출력을 생성하고 마지막으로 인간에게 다음과 같은 형식으로 응답합니다. 음성(텍스트 음성 변환), TTS).

일부 회사 또는 접근 방식에서는 단일 또는 일련의 LLM이 대화 흐름 및 감정 분석을 처리합니다. 다른 경우에는 감정 표현을 추가하고 대화 중단을 관리하는 등의 특수 엔진이 있습니다. "풀스택" 서비스를 제공하는 음성 제공업체는 위의 모든 기능을 한 곳에서 제공할 수 있습니다.

소비자(B2C) 및 비즈니스(B2B) 애플리케이션은 이 아키텍처 위에 위치합니다. 타사 서비스 제공업체를 이용하는 경우에도 이러한 애플리케이션은 맞춤형 LLM을 통합하는 경우가 많습니다. 이러한 모델은 대화 엔진으로도 사용되는 경우가 많습니다.

일체 포함

2. 풀 스택 솔루션 및 맞춤형 조립

음성 도우미를 만들 때 개발자는 전체 스택 플랫폼(예: Retell, Vapi, Bland 등)에서 에이전트를 시작하거나 필요한 기술 스택을 직접 조립하도록 선택할 수 있습니다. 이 결정을 내릴 때 고려해야 할 몇 가지 주요 요소가 있습니다.

1. 복잡성

풀 스택 솔루션은 음성 도우미 실행에 대한 간소화된 접근 방식을 제공합니다. 즉, 사용자 정의 및 조정 가능성을 유지하면서 인프라의 복잡성을 숨깁니다. 여기에는 힌트 또는 지식 문서(예: 검색 증강 생성(RAG)) 추가부터 대규모 언어 모델(LLM) 통합까지 모든 것이 포함됩니다.

2. 유연성

특정 산업이나 사용 사례를 위한 제품을 구축하는 창업자의 경우 대기 시간을 최소화하면서 스택의 모든 수준에서 최대의 운영 유연성을 원할 수 있습니다. 자체 기술 스택을 조립할 때 이러한 유연성을 달성하는 것이 더 쉬울 수 있습니다.

3. 비용

풀스택 서비스 제공업체는 수익을 창출해야 하기 때문에 각 호출에 추가 비용을 추가할 수 있습니다. 그러나 대량 사용자에게 더 나은 가격 계획을 제공할 수도 있습니다. 대규모로 배포된 음성 에이전트의 경우 분당 비용 차이가 몇 센트라도 중요한 고려 사항이 될 수 있습니다.

4. 제어

문제가 발생하면 음성 에이전트 설립자는 문제를 신속하게 찾아서 수정할 수 있어야 합니다. 특히 정확성이 가장 중요한 사용 사례의 경우 더욱 그렇습니다. 또한 기술의 각 계층에 대한 깊은 이해와 제어를 원할 수도 있습니다. 자체 조립된 기술 스택을 채택하면 이러한 요구 사항을 더 쉽게 충족할 수 있습니다.

일체 포함

다음은 현재 다양한 기술 수준에 있는 일부 주요 플레이어를 살펴보겠습니다. 이 목록은 완전한 시장 지도가 아니라 음성 비서 창립자가 가장 일반적으로 언급하는 이름 중 일부를 나타냅니다.

우리는 다중 모드 모델의 등장으로 전체 기술 스택이 상당한 변화를 겪을 것으로 예상합니다.

일체 포함

03.B2B 음성비서

1. 진화

우리는 B2B 음성 지원 분야에서 세 가지 주요 기술 물결을 목격했습니다.

IVR(대화형 음성 응답)

기존 IVR 시스템에서 소비자는 버튼 선택을 통해 시스템과 상호 작용합니다. 예를 들어, "판매는 1번, 고객 지원은 2번을 누르세요"라는 메시지를 들은 다음 음성 안내에 따라 적절한 서비스를 선택할 수 있습니다.

AI 1.0 (전화번호부)

AI 1.0은 소비자가 자연어를 사용하여 시스템과 통신할 수 있도록 하는 IVR 시스템의 발전을 나타냅니다. 상담원은 일련의 대화 과정을 통해 소비자의 요구 사항을 이해하고 올바른 서비스 옵션을 안내하려고 노력합니다.

AI 2.0(LLM)

AI 2.0은 이 개념을 더욱 발전시켜 더 자유로운 형식의 대화를 가능하게 합니다. 이 모드에서는 AI가 소비자의 모든 발언을 미리 정의된 옵션과 일치시키도록 강요하지 않습니다. 대신 소비자의 전반적인 의도를 이해하고 보다 자연스럽고 인간적인 상호 작용 경험을 제공하는 것을 목표로 합니다.

일체 포함

많은 음성 비서 회사는 다음과 같은 이유로 특정 산업(예: 자동차 서비스) 또는 특정 작업 유형(예: 약속 일정)에 수직별 접근 방식을 취했습니다.

  • 실행 난이도

통화를 AI에 위임할 때 대화 흐름의 품질 기준은 매우 높으며 빠르게 복잡하고 구체적이 될 수 있습니다. 이러한 업종에서 "극단적인 사례"를 위해 디자인하는 회사는 성공할 가능성이 더 높습니다(예: 일반 모델에서는 이해하지 못할 수 있는 고유한 용어).

  • 규정 및 라이센스

일부 음성 비서 회사는 특별한 규제 제한 및 인증 요구 사항에 직면해 있습니다. 의료 산업(예: HIPAA 준수)이 대표적인 예이지만 이는 국가 차원에서 AI 텔레마케팅 규정이 있는 판매와 같은 범주에서도 발생합니다.

  • 통합

일부 범주에서는 비즈니스 또는 소비자 모두에게 좋은 사용자 경험을 제공하기 위해 대량 하거나 전문적인 통합이 필요할 수 있습니다. 이러한 통합은 특정 사용 사례의 요구 사항을 충족하도록 설계되지 않으면 구축할 가치가 없을 수 있습니다.

  • 다른 소프트웨어와의 통합

음성은 예약, 갱신, 견적 등과 같은 핵심 고객 행동에 대한 자연스러운 진입점입니다. 경우에 따라 이는 이러한 기업이 더 광범위한 수직 SaaS 플랫폼에 진입할 수 있는 기회가 될 수 있습니다. 특히 고객 기반이 여전히 주로 오프라인으로 운영되는 경우에는 더욱 그렇습니다.

2. 전체 관점

우리는 1.0 AI Voice(Phone Tree)에서 2.0 AI Voice(LLM 기반)로의 전환기에 있습니다. 지난 6개월여 동안 2.0개 기업이 생겨났다. 현재 1.0 기업은 정확성 측면에서 우위를 점할 수 있지만 장기적으로는 2.0 접근 방식이 확장성과 정확성 측면에서 우위를 점할 것입니다.

서로 다른 업종 간에 몇 가지 주요 차이점이 있기 때문에 하나의 보편적인 기업 음성 지원 모델이나 플랫폼이 있을 가능성은 없습니다.

  • 통화 유형, 톤 및 구조;
  • 통합 및 프로세스;
  • 시장 진입 전략(GTM)과 “킬러 기능”.

이는 수직 분야에서 음성 도우미의 등장을 예고할 수 있습니다. 이러한 전문 에이전트는 사용자 인터페이스(UI) 디자인에 대한 강력한 개인화 요구를 가지고 있습니다. 이를 위해서는 창립팀이 심층적인 도메인 전문 지식을 보유하거나 특정 영역에 대한 강한 관심을 갖고 있어야 합니다. 인건비는 많은 기업의 주요 비용 중심점이며, "제대로" 할 수 있는 기업의 경우 총 주소 지정 가능 시장(TAM)은 엄청납니다.

단기적인 기회는 노동 의존도가 높고 노동력 부족이 심각하며 통화 복잡성이 낮은 산업에서 발생할 수 있습니다. 상담원의 기술이 향상되면 더 복잡한 통화를 처리할 수 있게 됩니다.

3. 우리가 보는 기회

1. LLM을 기반으로 하지만 처음부터 완전히 자동화된 것은 아닙니다.

AI 음성 비서의 '강력한 형태'는 전통적인 대화형 음성 응답(IVR)이나 전화 트리 방식이 아닌 대규모 언어 모델(LLM)에 의해 전적으로 구동되는 대화가 될 것입니다. 그러나 LLM이 항상 100% 신뢰할 수 있는 것은 아니라는 점을 고려하면 보다 민감하거나 가치가 높은 거래에는 일시적으로 "사람의 개입"이 필요할 수 있습니다. 이는 사람의 개입과 극단적 사례 발생을 최소화하면서 성공 가능성을 극대화하는 수직별 워크플로우의 중요성을 강조합니다.

2. 맞춤형 모델과 프롬프트된 LLM 방식의 결합

B2B 음성 도우미는 도메인별(또는 업종별) 대화를 처리해야 하며 일반 LLM은 이러한 요구 사항을 처리하기에 충분하지 않을 수 있습니다. 많은 회사에서는 각 고객의 데이터(수백 또는 수천 개의 데이터 포인트)를 기반으로 모델을 조정하고 이를 회사 전체의 기본 모델로 다시 추정할 수 있습니다. 맞춤형 조정은 기업 고객을 위해 더욱 발전할 수도 있습니다. 참고: 일부 회사에서는 특정 사용 사례에 맞게 "일반" 모델(고객이 사용할 수 있음)을 적용한 다음 각 고객에 맞게 메시지를 맞춤화할 수 있습니다.

3. 도메인 전문성을 갖춘 기술팀

B2B 음성 도우미의 복잡성을 고려할 때 인공 지능에 대한 배경 지식이 있으면 고품질 솔루션을 구축하고 확장하는 데 도움이 됩니다(필수는 아니지만). 그러나 제품을 특정 업종으로 패키징하는 방법을 이해하는 것도 마찬가지로 중요합니다. 이를 위해서는 해당 분야의 전문 지식이나 깊은 관심이 필요합니다. 엔터프라이즈급 음성 도우미를 구축하기 위해 인공 지능 박사 학위가 필요하지 않습니다.

4. 통합 및 생태계에 대한 깊은 통찰력을 가지십시오.

위의 상황과 유사하게 각 업종의 구매자는 일반적으로 구매하기 전에 몇 가지 특정 기능이나 통합을 확인하고 싶어합니다. 실제로 이는 제품 평가가 "유용함"에서 "놀라움"으로 이동하는 지점일 수 있습니다. 이는 수직적 영역에서 시작하여 제품을 구축하는 포인트이기도 합니다.

5. "엔터프라이즈 수준" 시장을 목표로 삼거나 강력한 제품 주도 성장(PLG) 추세를 갖고 있습니다.

수익이 주로 상위 기업/공급업체에 집중되어 있는 수직 산업의 경우 음성 비서 회사는 엔터프라이즈 시장에서 시작하여 결국 셀프 서비스 제품을 통해 중소기업에 "침투"할 수 있습니다. SMB 고객은 솔루션이 절실히 필요하며 옵션을 실험할 의향이 있습니다. 하지만 스타트업이 모델을 엔터프라이즈급 수준으로 확장할 수 있는 충분한 데이터 규모/품질을 제공하지 못할 수도 있습니다.

일체 포함

04.B2C 음성 도우미

1. 진화

지금까지 소비자 시장을 장악한 AI 음성 비서는 ChatGPT Voice, Inflection의 Pi 앱 등 대기업에서 나왔습니다. 소비자 음성 도우미의 개발 속도가 느린 데에는 몇 가지 이유가 있습니다.

  • 대기업은 이미 광범위한 소비자 기반과 동급 최고의 모델(정확성, 대기 시간 등)을 보유하고 있습니다. 특히 최근 GPT-4o 출시로 인해 음성 서비스를 대규모로 제공하기가 쉽지 않습니다.
  • B2B 음성 도우미는 기존 프로세스에 AI를 '삽입'하는 반면, B2C 음성 도우미는 사용자에게 새로운 행동을 채택하도록 요구하는데, 이는 속도가 느리거나 더 매력적인 제품이 필요할 수 있습니다.
  • 소비자들은 역사적으로 Siri와 같은 제품에 대한 과거 경험으로 인해 음성 AI를 부정적으로 보아 왔기 때문에 새로운 애플리케이션을 시도하는 것을 꺼릴 수 있습니다.
  • 현재 제품은 이미 튜터링, 동료애 등 음성 AI의 기본 사용 사례를 충족할 수 있습니다. B2C 음성 스타트업은 이제 막 특정 사용 사례를 해결하거나 ChatGPT, Pi 등이 처리할 수 없는 경험을 만들기 시작했습니다.

2. 전체 관점

B2B 세계에서 음성 도우미는 주로 기존 전화 통화를 대체하여 특정 작업을 완료합니다. 소비자 대면 상담원의 경우 사용자는 계속 참여하도록 선택해야 하는데, 이는 음성 상호작용이 항상 편리한 것은 아니기 때문에 더욱 어렵습니다. 이는 제품이 더 매력적이어야 함을 의미합니다.

소비자 음성 도우미의 첫 번째이자 가장 확실한 적용은 비싸거나 접근하기 어려운 인간 서비스를 인공 지능으로 대체하는 것입니다. 여기에는 치료, 코칭, 코칭 등 대화를 기반으로 하고 가상으로 완료할 수 있는 모든 서비스가 포함됩니다.

그러나 우리는 B2C 음성 비서의 진정한 잠재력이 아직 완전히 실현되지 않았을 수도 있다고 생각합니다. 우리는 음성의 힘을 활용하여 이전에는 존재하지 않았던 새로운 유형의 "대화"를 만들어내는 제품을 찾고 있습니다. 이로 인해 기존 서비스가 재구성되거나 완전히 새로운 서비스가 탄생할 수 있습니다.

뛰어난 사용자 경험을 제공하는 제품의 경우 음성 도우미는 인간의 연결을 실제로 모방하여 전례 없는 수준으로 소비자와 소통할 수 있는 전례 없는 기회를 제공합니다. 이는 대행사에서 제품 자체로 나타날 수도 있고 더 넓은 제품의 모델로 목소리를 낼 수도 있습니다.

3. 우리가 보는 기회

1. 소리가 왜 필요한지 명확하게 설명하세요.

우리는 음성이 단순히 제품을 사용하기 위해서가 아니라 어떻게 제품에 고유한 가치를 부여하는지 명확하게 설명할 수 있는 제품과 창립자를 만나기를 기대합니다. 많은 경우, 음성 인터페이스는 실제로 텍스트 인터페이스에 비해 사용하기 편리하지 않고 정보를 얻는 효율성도 떨어지기 때문에 불리합니다.

2. 실시간 음성이 필요한 이유를 명확하게 설명하세요.

음성을 사용하는 데 어려움이 있지만 실시간 음성은 비동기식 음성 메시징에 비해 사용하기가 더 어렵습니다. 우리는 창립자들이 인간과 같은 동료애, 연습 환경 등을 제공하기 위해 실시간 대화를 중심으로 제품을 구축해야 하는 이유를 이해하기를 기대합니다.

3. 스큐어모피즘에서 인공지능 이전의 '제품'까지

우리는 강력한 형태의 제품이 단순히 인간 대 인간의 대화를 복제하는 것이 아니라 AI 음성 도우미를 인간 서비스 제공자의 대체품으로 사용할 것이라고 의심합니다. 첫째, 이러한 표준을 충족하는 것은 어렵지만 더 중요한 것은 AI를 활용하여 동일한 가치를 보다 효율적이고 즐겁게 전달할 수 있는 기회가 있다는 것입니다.

4. 모델 품질이 승자를 결정하지 않는 수직화

ChatGPT, Pi, Claude 등 주요 일반 소비자 AI 제품에는 고품질 음성 모드가 있습니다. 그들은 다양한 유형의 대화와 상호작용에 효과적으로 참여할 수 있습니다. 그리고 자체 모델과 스택을 보유하고 있기 때문에 대기 시간과 대화 흐름 측면에서 단기적으로 승리할 가능성이 높습니다.

우리는 특정 유형의 대화에 맞게 사용자 정의하거나 조정하거나 음성 도우미 경험에 더 많은 컨텍스트와 가치를 제공하는 UI를 구축함으로써 스타트업이 성공할 것으로 기대합니다. 대화/경험.

일체 포함

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트