Cuộc gọi điện thoại là một API với thế giới — và AI đưa điều này lên một tầm cao mới!
Cuộc gọi điện thoại là API cho thế giới — và trí tuệ nhân tạo đưa điều đó lên một tầm cao mới.
Bài viết này khám phá sâu sắc những hiểu biết sâu sắc của a16z về trợ lý giọng nói AI, phân tích toàn diện các cơ hội phát triển, kiến trúc kỹ thuật, xu hướng trong tương lai và tiềm năng ứng dụng trong lĩnh vực B2B và B2C.
01.Cơ hội của trợ lý giọng nói AI
Đã đến lúc xác định lại điện thoại. Nhờ công nghệ trí tuệ nhân tạo mới nhất, mọi người không còn cần phải gọi điện thoại trực tiếp nữa. Họ chỉ chọn gọi khi cuộc gọi có giá trị thực.
Đối với doanh nghiệp, điều này có nghĩa là:
1. Tiết kiệm thời gian và chi phí lao động cần thiết cho các cuộc gọi thủ công;
2. Cơ hội tái phân bổ nguồn lực để tăng thu nhập ;
3. Giảm rủi ro bằng cách cung cấp trải nghiệm khách hàng phù hợp và nhất quán hơn.
Đối với người tiêu dùng, trợ lý giọng nói có thể cung cấp các dịch vụ tương đương với dịch vụ của con người mà không cần phải trả thêm tiền hoặc phải kết hợp với người thật. Hiện tại, điều này bao gồm các nhà trị liệu, huấn luyện viên và dịch vụ đồng hành – trong tương lai, điều này có thể mở rộng sang nhiều trải nghiệm dựa trên giọng nói hơn. Như với hầu hết các phần mềm toC, “người chiến thắng” cuối cùng là không thể đoán trước được.
Có những cơ hội phát triển to lớn ẩn giấu ở mọi cấp độ trợ lý giọng nói - cho dù là xây dựng cơ sở hạ tầng, tạo giao diện người tiêu dùng hay cung cấp dịch vụ đại lý cấp doanh nghiệp. Đối với trợ lý giọng nói nhắm mục tiêu đến người tiêu dùng (B2C) và doanh nghiệp (B2B), chúng tôi tóm tắt các đặc điểm chính sau:
1. Chú ý đến hiệu quả thi công
Chúng tôi đang tìm kiếm những người sáng lập có nhận xét rõ ràng về việc xây dựng trợ lý giọng nói và tập trung vào việc tối ưu hóa chỉ báo hiệu suất chính của trợ lý giọng nói - tốc độ, độ chính xác, âm sắc/cảm xúc, v.v. để mang lại trải nghiệm liền mạch cho người dùng.
2. Chuyên môn hóa theo chiều dọc
Chúng tôi cho rằng rằng trợ lý giọng nói hoạt động tốt có khả năng tập trung vào các ngành hoặc lĩnh vực dọc cụ thể, tận dụng các mô hình và bộ công cụ tích hợp chặt chẽ được tùy chỉnh cho các trường hợp sử dụng cụ thể. Phương pháp này dễ thực hiện hơn và dẫn đến thành công nhanh hơn trên thị trường.
3. Phạm vi việc kinh doanh thực tế
Việc chỉ dựa vào AI để xử lý tất cả các cuộc gọi quan trọng là một thách thức—và chúng tôi hy vọng các công ty trợ lý giọng nói có thể áp dụng một số chiến lược "không thể mở rộng" trong thời gian ngắn. Điều này có thể bao gồm việc cá nhân hóa cuộc gọi cho từng khách hàng hoặc định tuyến cuộc gọi đến nhân viên hỗ trợ khi cần thiết.
02. Kiến trúc kỹ thuật
1. Xây dựng kiến trúc trợ lý giọng nói
Thế hệ mô hình đa phương thức mới, chẳng hạn như GPT-4o, có thể thay đổi cấu trúc kiến trúc hiện có bằng cách xử lý đồng thời nhiều lớp thông qua một mô hình duy nhất. Điều này không chỉ làm giảm độ trễ và chi phí mà còn cho phép giao diện đàm thoại tự nhiên hơn, vì nhiều tổng đài viên đang nỗ lực để đạt được chất lượng đàm thoại thực sự giống con người trong các kiến trúc xếp chồng truyền thống.
Hoạt động hiệu quả của trợ lý giọng nói yêu cầu một số bước chính: đầu tiên là nhận giọng nói của con người (nhận dạng giọng nói tự động, ASR), sau đó sử dụng mô hình ngôn ngữ lớn (LLM) để xử lý đầu vào và tạo đầu ra, cuối cùng là trả lời con người dưới dạng của lời nói (chuyển văn bản thành giọng nói), TTS).
Ở một số công ty hoặc phương pháp, một hoặc sê-ri LLM xử lý luồng hội thoại và phân tích tình cảm. Trong các trường hợp khác, có các công cụ chuyên dụng để thêm biểu cảm cảm xúc, quản lý các đoạn hội thoại bị gián đoạn, v.v. Các nhà cung cấp dịch vụ thoại cung cấp dịch vụ "đầy đủ" có thể cung cấp tất cả các khả năng trên ở một nơi.
Các ứng dụng dành cho người tiêu dùng (B2C) và doanh nghiệp (B2B) nằm trên kiến trúc này. Ngay cả khi sử dụng các nhà cung cấp dịch vụ bên thứ ba, các ứng dụng này thường tích hợp LLM tùy chỉnh - những mô hình này cũng thường được sử dụng làm công cụ hội thoại.
2. Giải pháp ngăn xếp đầy đủ và lắp ráp tùy chỉnh
Khi tạo trợ lý giọng nói, các nhà phát triển có thể chọn khởi chạy tác nhân của họ trên nền tảng full-stack (chẳng hạn như Retell, Vapi, Bland, v.v.) hoặc tự lắp ráp ngăn xếp công nghệ cần thiết. Có một số yếu tố chính cần xem xét khi đưa ra quyết định này:
1. Độ phức tạp
Các giải pháp toàn ngăn cung cấp phương pháp hợp lý để khởi chạy trợ lý giọng nói—chúng che giấu sự phức tạp của cơ sở hạ tầng trong khi vẫn duy trì khả năng tùy chỉnh và điều chỉnh. Điều này bao gồm mọi thứ từ việc thêm gợi ý hoặc tài liệu kiến thức (như Thế hệ tăng cường truy xuất, RAG) đến tích hợp các mô hình ngôn ngữ lớn (LLM).
2. Tính linh hoạt
Đối với những người sáng lập xây dựng sản phẩm cho các ngành hoặc trường hợp sử dụng cụ thể, họ có thể muốn có được sự linh hoạt vận hành tối đa ở mọi cấp độ của hệ thống với độ trễ ít nhất có thể. Đạt được tính linh hoạt này có thể dễ dàng hơn khi tập hợp nhóm công nghệ của riêng bạn.
3. Chi phí
Các nhà cung cấp dịch vụ toàn diện có thể thêm chi phí bổ sung cho lần cuộc gọi vì họ cần kiếm lợi nhuận từ cuộc gọi đó. Tuy nhiên, họ cũng có thể đưa ra các gói giá tốt hơn cho lượng lớn người dùng. Đối với các tác nhân thoại được triển khai trên quy mô lớn, chênh lệch chi phí mỗi phút, thậm chí chỉ vài xu, có thể trở thành một yếu tố quan trọng cần cân nhắc.
4. Kiểm soát
Khi có vấn đề phát sinh, người sáng lập trợ lý giọng nói cần có khả năng nhanh chóng xác định và khắc phục chúng—đặc biệt đối với các trường hợp sử dụng mà độ chính xác là tối quan trọng. Họ cũng có thể muốn hiểu biết sâu sắc và kiểm soát từng lớp công nghệ. Việc áp dụng ngăn xếp công nghệ tự lắp ráp có thể giúp đáp ứng những nhu cầu này dễ dàng hơn.
Dưới đây là cái nhìn về một số người chơi hàng đầu hiện nay ở các cấp độ kỹ thuật khác nhau. Danh sách này không phải là bản đồ thị trường đầy đủ nhưng đại diện cho một số cái tên được những người sáng lập trợ lý giọng nói nhắc đến nhiều nhất.
Chúng tôi kỳ vọng rằng với sự gia tăng của các mô hình đa phương thức, toàn bộ nền tảng công nghệ sẽ trải qua những thay đổi đáng kể.
Trợ lý giọng nói 03.B2B
1. Sự tiến hóa
Chúng tôi đã chứng kiến ba làn sóng công nghệ chính trong không gian trợ lý giọng nói B2B:
IVR (Phản hồi bằng giọng nói tương tác)
Trong hệ thống IVR truyền thống, người tiêu dùng tương tác với hệ thống thông qua việc lựa chọn nút. Ví dụ: họ có thể nghe thấy lời nhắc: "Nhấn phím 1 để bán hàng, nhấn phím 2 để được hỗ trợ khách hàng" rồi chọn dịch vụ phù hợp dựa trên lời nhắc bằng giọng nói.
AI 1.0 (Cây điện thoại)
AI 1.0 thể hiện sự tiến bộ trong hệ thống IVR cho phép người tiêu dùng giao tiếp với hệ thống bằng ngôn ngữ tự nhiên. Đại lý cố gắng hiểu nhu cầu của người tiêu dùng thông qua sê-ri quy trình đàm thoại và hướng dẫn họ lựa chọn dịch vụ phù hợp.
AI 2.0 (LLM)
AI 2.0 đưa khái niệm này đi xa hơn, cho phép thực hiện nhiều cuộc trò chuyện tự do hơn. Ở chế độ này, AI không buộc mọi lời nói của người tiêu dùng phải khớp với một tùy chọn được xác định trước. Thay vào đó, nó nhằm mục đích hiểu được ý định chung của người tiêu dùng và cung cấp trải nghiệm tương tác tự nhiên và nhân văn hơn.
Nhiều công ty trợ lý giọng nói đã áp dụng phương pháp theo chiều dọc cụ thể cho các ngành cụ thể (chẳng hạn như dịch vụ ô tô) hoặc các loại nhiệm vụ cụ thể (chẳng hạn như lên lịch cuộc hẹn) vì những lý do sau:
- khó khăn thực hiện
Khi ủy quyền cuộc gọi cho AI, tiêu chuẩn chất lượng cho quy trình đàm thoại rất cao – nó có thể nhanh chóng trở nên phức tạp và cụ thể. Các công ty thiết kế cho "các trường hợp đặc biệt" trong các ngành dọc này có nhiều khả năng thành công hơn (ví dụ: các thuật ngữ duy nhất mà các mô hình chung có thể không hiểu được).
- quy định và giấy phép
Một số công ty trợ lý giọng nói phải đối mặt với các hạn chế pháp lý đặc biệt và yêu cầu chứng nhận. Ngành chăm sóc sức khỏe (chẳng hạn như tuân thủ HIPAA) là một ví dụ điển hình, mặc dù điều này cũng xảy ra trong các danh mục như bán hàng, vốn có các quy định về tiếp thị qua điện thoại bằng AI ở cấp quốc gia.
- tích hợp
Trong một số danh mục, có thể tích hợp phải tích hợp lượng lớn hoặc chuyên biệt để mang lại trải nghiệm tốt cho người dùng, cho dù là dành cho doanh nghiệp hay người tiêu dùng. Tích hợp này có thể không đáng để xây dựng trừ khi chúng được thiết kế để đáp ứng nhu cầu của một trường hợp sử dụng cụ thể.
- Tích hợp với phần mềm khác
Giọng nói là điểm truy cập tự nhiên vào các hành vi cốt lõi của khách hàng như đặt chỗ, gia hạn, báo giá, v.v. Trong một số trường hợp, đây sẽ là cơ hội để các doanh nghiệp này thâm nhập vào nền tảng SaaS dọc rộng hơn - đặc biệt khi cơ sở khách hàng vẫn hoạt động chủ yếu ngoại tuyến.
2. Quan điểm tổng thể
Chúng tôi đang trong giai đoạn chuyển đổi từ Giọng nói AI 1.0 (Cây điện thoại) sang Giọng nói AI 2.0 (dựa trên LLM). Trong khoảng sáu tháng qua, các công ty 2.0 đã xuất hiện. Mặc dù các công ty 1.0 hiện có thể có lợi thế về độ chính xác nhưng về lâu dài, phương pháp 2.0 sẽ có lợi thế về mở rộng và độ chính xác.
Khó có thể có một mô hình hoặc nền tảng trợ lý giọng nói chung dành cho doanh nghiệp vì có một số điểm khác biệt chính giữa các ngành dọc khác nhau:
- kiểu cuộc gọi, âm điệu và cấu trúc;
- Tích hợp và Quy trình;
- Chiến lược thâm nhập thị trường (GTM) và “tính năng sát thủ”.
Điều này có thể báo trước sự gia tăng của trợ lý giọng nói trong các lĩnh vực dọc. Những nhân viên chuyên nghiệp này có nhu cầu cá nhân hóa mạnh mẽ trong thiết kế giao diện người dùng (UI). Điều này đòi hỏi đội ngũ sáng lập phải có chuyên môn sâu về lĩnh vực hoặc có mối quan tâm sâu sắc đến một lĩnh vực cụ thể. Chi phí lao động là trung tâm chi phí chính đối với nhiều doanh nghiệp và đối với những công ty có thể “làm đúng”, tổng thị trường có thể định địa chỉ (TAM) là rất lớn.
Các cơ hội ngắn hạn có thể xuất hiện trong các ngành có sự phụ thuộc lớn vào lao động, tình trạng thiếu lao động nghiêm trọng và độ phức tạp của cuộc gọi thấp. Khi các đại lý trở nên có tay nghề cao hơn, họ sẽ có thể xử lý các cuộc gọi phức tạp hơn.
3. Những cơ hội chúng ta nhìn thấy
1. Dựa trên LLM, nhưng không nhất thiết phải tự động hóa hoàn toàn ngay từ đầu
“Dạng mạnh” của trợ lý giọng nói AI sẽ là các cuộc hội thoại được điều khiển hoàn toàn bởi các mô hình ngôn ngữ lớn (LLM), thay vì phản hồi bằng giọng nói tương tác truyền thống (IVR) hoặc phương pháp cây điện thoại. Tuy nhiên, do LLM không phải lúc nào cũng đáng tin cậy 100% nên "sự can thiệp của con người" có thể tạm thời được yêu cầu đối với các giao dịch nhạy cảm hơn hoặc có giá trị cao hơn. Điều này nhấn mạnh tầm quan trọng của quy trình làm việc theo chiều dọc cụ thể vì chúng tối đa hóa khả năng thành công đồng thời giảm thiểu sự can thiệp của con người và sự xuất hiện của các trường hợp nguy hiểm.
2. Kết hợp mô hình tùy chỉnh và phương pháp LLM nhanh chóng
Trợ lý giọng nói B2B cần xử lý các cuộc hội thoại theo miền cụ thể (hoặc theo ngành dọc) và LLM chung có thể không đủ để xử lý các nhu cầu này. Nhiều công ty đang điều chỉnh các mô hình dựa trên dữ liệu từ mỗi khách hàng (hàng trăm hoặc hàng nghìn điểm dữ liệu) và có thể suy đoán nó trở lại mô hình cơ sở toàn công ty. Các chỉnh sửa tùy chỉnh thậm chí có thể tiến xa hơn đối với khách hàng doanh nghiệp. Lưu ý: Một số công ty có thể điều chỉnh mô hình "chung" (để khách hàng sử dụng) cho trường hợp sử dụng cụ thể của họ, sau đó điều chỉnh lời nhắc cho phù hợp với từng khách hàng.
3. Đội ngũ kỹ thuật có chuyên môn về miền
Do sự phức tạp của trợ lý giọng nói B2B, việc có một số bối cảnh về trí tuệ nhân tạo sẽ giúp (nếu không bắt buộc) xây dựng và mở rộng các giải pháp chất lượng cao. Tuy nhiên, điều quan trọng không kém là hiểu cách đóng gói sản phẩm của bạn theo một ngành dọc cụ thể – điều này đòi hỏi kiến thức chuyên môn về lĩnh vực tương ứng hoặc sự quan tâm sâu sắc. Bạn không cần phải có bằng tiến sĩ về trí tuệ nhân tạo để xây dựng trợ lý giọng nói cấp doanh nghiệp.
4. Có hiểu biết sâu sắc về tích hợp và hệ sinh thái
Tương tự như tình huống ở trên, người mua ở mỗi ngành thường muốn xem một số tính năng hoặc tích hợp cụ thể trước khi mua hàng. Trên thực tế, đây có thể là thời điểm mà một sản phẩm chuyển từ “hữu ích” sang “tuyệt vời” trong đánh giá của họ. Đây cũng là quan điểm của việc xây dựng một sản phẩm bắt đầu từ một miền dọc.
5. Nhắm mục tiêu vào thị trường “cấp doanh nghiệp” hoặc có xu hướng tăng trưởng mạnh mẽ do sản phẩm dẫn đầu (PLG)
Đối với những ngành dọc nơi thu nhập chủ yếu tập trung ở các công ty/nhà cung cấp hàng đầu, các công ty trợ lý giọng nói có thể bắt đầu thâm nhập vào thị trường doanh nghiệp và cuối cùng “thâm nhập” vào các doanh nghiệp vừa và nhỏ thông qua các sản phẩm tự phục vụ. Khách hàng SMB khao khát các giải pháp và sẵn sàng thử nghiệm các tùy chọn – nhưng họ có thể không cung cấp đủ quy mô/chất lượng dữ liệu cho các công ty khởi nghiệp để mở rộng mô hình của họ lên cấp doanh nghiệp.
Trợ lý giọng nói 04.B2C
1. Sự tiến hóa
Cho đến nay, trợ lý giọng nói AI thống trị thị trường tiêu dùng đều đến từ các công ty lớn, chẳng hạn như ứng dụng ChatGPT Voice và Inflection's Pi. Có một số lý do khiến trợ lý giọng nói của người tiêu dùng phát triển chậm hơn:
- Các công ty lớn đã có cơ sở người tiêu dùng rộng rãi và các mô hình tốt nhất (về độ chính xác, độ trễ, v.v.). Các dịch vụ thoại không dễ dàng được cung cấp trên quy mô lớn, đặc biệt là khi GPT-4o ra mắt gần đây.
- Trợ lý giọng nói B2B “chèn” AI vào các quy trình hiện có, trong khi trợ lý giọng nói B2C yêu cầu người dùng áp dụng các hành vi mới, có thể chậm hơn hoặc yêu cầu một sản phẩm hấp dẫn hơn.
- Người tiêu dùng trước đây có quan điểm tiêu cực về AI bằng giọng nói do đã trải nghiệm trước đây với các sản phẩm như Siri, vì vậy họ có thể miễn cưỡng thử các ứng dụng mới.
- Các sản phẩm hiện tại có thể đáp ứng các trường hợp sử dụng cơ bản của AI bằng giọng nói - chẳng hạn như dạy kèm, đồng hành, v.v. Các công ty khởi nghiệp về giọng nói B2C mới bắt đầu giải quyết các trường hợp sử dụng cụ thể hoặc tạo ra trải nghiệm mà ChatGPT, Pi, v.v. không thể xử lý được.
2. Quan điểm tổng thể
Trong thế giới B2B, trợ lý giọng nói chủ yếu hoàn thành nhiệm vụ cụ thể bằng cách thay thế các cuộc gọi điện thoại hiện có. Đối với các đại lý hướng tới người tiêu dùng, người dùng phải chọn tiếp tục tham gia, điều này khó khăn hơn vì tương tác bằng giọng nói không phải lúc nào cũng thuận tiện. Điều này có nghĩa là sản phẩm cần phải hấp dẫn hơn.
Ứng dụng đầu tiên và rõ ràng nhất dành cho trợ lý giọng nói của người tiêu dùng là thay thế các dịch vụ đắt tiền hoặc khó tiếp cận của con người bằng trí tuệ nhân tạo. Điều này bao gồm trị liệu, huấn luyện, huấn luyện, v.v.—bất kỳ dịch vụ nào có thể dựa trên cuộc trò chuyện và được hoàn thành qua mạng.
Tuy nhiên, chúng tôi tin rằng tiềm năng thực sự của trợ lý giọng nói B2C có thể vẫn chưa được phát huy hết. Chúng tôi đang tìm kiếm những sản phẩm khai thác sức mạnh của giọng nói để tạo ra những kiểu "cuộc trò chuyện" mới chưa từng tồn tại trước đây. Điều này có thể định hình lại các dịch vụ hiện có hoặc tạo ra những dịch vụ hoàn toàn mới.
Đối với các sản phẩm mang lại trải nghiệm người dùng vượt trội, trợ lý giọng nói mang đến cơ hội chưa từng có để tương tác với người tiêu dùng ở mức độ chưa từng có—thực sự bắt chước kết nối giữa con người với nhau. Điều này có thể biểu hiện ở các đại lý như chính sản phẩm hoặc giọng nói như một hình mẫu cho một sản phẩm rộng hơn.
3. Những cơ hội chúng ta nhìn thấy
1. Giải thích rõ ràng tại sao cần có âm thanh
Chúng tôi mong muốn được nhìn thấy những sản phẩm và những người sáng lập có thể trình bày rõ ràng cách giọng nói mang lại giá trị độc đáo cho sản phẩm—không chỉ vì mục đích sử dụng nó. Trong nhiều trường hợp, giao diện giọng nói thực sự bất lợi so với giao diện văn bản vì nó kém thuận tiện hơn khi sử dụng và kém hiệu quả hơn trong việc thu thập thông tin.
2. Giải thích rõ ràng tại sao cần có giọng nói thời gian thực
Mặc dù có những thách thức trong việc sử dụng giọng nói nhưng giọng nói theo thời gian thực khó sử dụng hơn (so với tin nhắn thoại không đồng bộ). Chúng tôi mong muốn được thấy những người sáng lập hiểu lý do tại sao sản phẩm của họ cần được xây dựng dựa trên các cuộc trò chuyện trong thời gian thực—có lẽ để mang lại sự đồng hành giống như con người, một hoàn cảnh thực hành, v.v.
3. Từ sự đa dạng đến các “sản phẩm” trí tuệ nhân tạo
Chúng tôi nghi ngờ rằng các sản phẩm dạng mạnh sẽ không chỉ đơn giản là tái tạo các cuộc trò chuyện giữa con người với con người mà thay vào đó sử dụng trợ lý giọng nói AI để thay thế cho các nhà cung cấp dịch vụ con người. Đầu tiên, việc đáp ứng các tiêu chuẩn như vậy là rất khó – nhưng quan trọng hơn là có cơ hội tận dụng AI để mang lại giá trị tương tự một cách hiệu quả hơn và thú vị hơn.
4. Chiều dọc đến mức chất lượng mô hình không quyết định người chiến thắng
Các sản phẩm AI dành cho người tiêu dùng phổ thông hàng đầu (như ChatGPT, Pi, Claude) có chế độ giọng nói chất lượng cao. Họ có thể tham gia hiệu quả vào nhiều kiểu trò chuyện và tương tác. Và vì họ có mô hình và ngăn xếp riêng nên họ có khả năng giành chiến thắng trong thời gian ngắn về độ trễ và luồng hội thoại.
Chúng tôi hy vọng sẽ thấy các công ty khởi nghiệp thành công bằng cách tùy chỉnh hoặc điều chỉnh các loại cuộc hội thoại cụ thể hoặc xây dựng giao diện người dùng cung cấp nhiều bối cảnh và giá trị hơn cho trải nghiệm trợ lý giọng nói — ví dụ: theo dõi tiến trình theo thời gian hoặc nói một cách quyết đoán để hướng dẫn. cuộc trò chuyện/ trải nghiệm.