Phone calls are an API to the world — and AI takes this to the next level!
電話呼叫是通向世界的 API —— 而人工智能將其提升到了一個新的水平。
本篇文章深入探討了 a16z 對 AI 語音助手的洞察,全面剖析了其發展機遇、技術架構、未來趨勢,以及在 B2B 和 B2C 領域的應用潛力。
01.AI 語音助手的機遇
現在正是重新定義電話的時代。得益於最新的人工智能技術,人們不再需要親自打電話了。他們只會在通話真正有價值時才選擇通話。
對企業來說,這意味著:
1、節省人工呼叫所需的時間和勞動力成本;
2、有機會重新分配資源以增加收入;
3、通過提供更加合規和一致的客戶體驗來降低風險。
對消費者而言,語音助手能夠提供與人類相媲美的服務,而無需支付額外費用或與真人進行匹配。目前,這包括了治療師、教練和陪伴服務——未來,這種服務可能會擴展到更廣泛的基於語音的體驗。正如大多數 toC 軟件一樣,最終的「贏家」是不可預測的。
在語音助手的各個層面,都隱藏著巨大的發展機遇——無論是構建基礎設施、打造消費者界面還是提供企業級代理服務。針對面向消費者(B2C)和企業(B2B)的語音助手,我們歸納總結出以下關鍵特徵:
1、重視構建效率
我們正在尋找那些對語音助手建設有明確見解的創始人,他們專注於優化語音助手的關鍵性能指標——速度、準確性、語氣 / 情感等,以提供無縫的用戶體驗。
2、垂直專業化
我們認為,表現出色的語音助手很可能專注於特定垂類行業或領域,利用為特定用例定製的模型和緊密集成的工具集。這種方法更易於實施,並且能夠更快地在市場上取得成功。
3、實際的業務範圍
完全依賴人工智能處理所有重要通話是一項挑戰——我們預計短期內,語音助手公司可能會採取一些「不可擴展」的策略。這可能包括對每個客戶進行個性化調優,或者在必要時將通話轉接給人工代理完成。
02.技術架構
1、構建語音助手的架構
新一代的多模態模型,例如 GPT-4o,可能會通過單一模型同時處理多個層面,從而改變現有的架構結構。這不僅能夠降低延遲和成本,還能支持更自然的對話界面——因為許多代理在傳統的堆疊架構下,難以達到真正類似人類的對話質量。
語音助手的有效運作需要經過幾個關鍵步驟:首先接收人類語音(自動語音識別,ASR),然後利用大型語言模型(LLM)處理輸入並生成輸出,最後以語音的形式回覆給人類(文本到語音,TTS)。
在某些公司或方法中,單個或一系列 LLM 負責處理對話流程和情感分析。而在其他情況下,有專門的引擎來增加情感表達、管理對話中斷等。提供「全棧」服務的語音供應商能夠一站式提供上述所有功能。
面向消費者(B2C)和企業(B2B)的應用位於這個架構的頂層。即使使用第三方服務提供商,這些應用通常也會集成自定義的 LLM——這些模型通常也用作對話引擎。
2、全棧解決方案與自定義組裝
創建語音助手時,開發者可以選擇在全棧平臺(如 Retell、Vapi、Bland 等)上啟動他們的代理,或者自行組裝所需的技術堆棧。在做出這一決策時,有幾個關鍵因素需要考慮:
1、複雜性
全棧解決方案為啟動語音助手提供了一種簡化的方法——它們隱藏了基礎設施的複雜性,同時保留了自定義和調優的可能性。這包括從添加提示或知識文檔(如 Retrieval-Augmented Generation, RAG)到集成大型語言模型(LLM)的各個方面。
2、靈活性
對於那些針對特定行業或用例構建產品的創始人來說,他們可能希望在堆棧的每個層面上擁有最大的操作靈活性,並儘可能減少延遲。在自行組裝技術堆棧時,實現這種靈活性可能更加容易。
3、成本
全棧服務提供商可能會為每次調用增加額外成本,因為他們需要從中獲得利潤。然而,他們也可能有能力為大量用戶提供更優惠的定價方案。對於大規模部署的語音代理來說,每分鐘的成本差異,哪怕是幾美分,也可能成為重要的考量因素。
4、控制
當出現問題時,語音代理的創始人需要能夠迅速定位並解決問題——尤其是對於那些對準確性要求極高的用例。他們也可能希望對每一層的技術有深入的瞭解和控制。採用自行組裝的技術堆棧可能會使得這些需求更容易得到滿足。
下圖是目前在各個技術層面上的一些領先參與者。這份列表並非詳盡的市場地圖,而是代表了語音助手創始人最常提及的一些名字。
我們預期,隨著多模態模型的興起,整個技術棧將會經歷重大變革。
03.B2B 語音助手
1、演變
我們已經見證了 B2B 語音助手領域經歷了三波主要的技術浪潮:
IVR(交互式語音應答)
在傳統的 IVR 系統中,消費者通過按鍵選擇來與系統交互。例如,他們可能會聽到提示:「按 1 轉銷售部門,按 2 轉客戶支持」,然後根據語音提示選擇相應的服務。
AI 1.0(電話樹)
AI 1.0 代表了 IVR 系統的一個進步,它允許消費者使用自然語言與系統交流。代理會嘗試通過一系列對話流程來理解消費者的需求,並引導他們到達正確的服務選項。
AI 2.0(LLM)
AI 2.0 進一步發展了這一概念,允許更自由形式的對話。在這種模式下,AI 不會強制將消費者的每一句話與預定義的選項相匹配。相反,它旨在理解消費者的整體意圖,並提供更自然、更人性化的交互體驗。
許多語音助手公司採取了針對特定行業(如汽車服務)或特定任務類型(如預約安排)的垂直特定方法,原因如下:
- 執行難度
將呼叫委託給人工智能時,對話流程的質量標準非常高——很快就會變得複雜和具體。為這些垂直領域的「極端情況」而設計的公司更有可能成功(例如,一般模型可能無法理解的獨特術語)。
- 法規和許可證
一些語音助手公司面臨特殊的法規限制和認證要求。醫療保健行業(例如 HIPAA 合規性)是一個典型例子,儘管這種情況也出現在銷售等類別中,這些類別在國家層面都有 AI 電話營銷法規。
- 集成
在某些類別中,為了提供良好的用戶體驗(無論是對企業還是消費者),可能需要進行大量的集成或專門的集成。除非是為了滿足特定用例的需求,否則這些集成可能不值得構建。
- 與其他軟件的結合
語音是進入預訂、續訂、報價等核心客戶行為的自然入口。在某些情況下,這將成為這些企業進入更廣泛的垂直 SaaS 平臺的機會——特別是當客戶群仍然主要在線下運營時。
2、總體觀點
我們正處於從 1.0 AI 語音(電話樹)向 2.0 AI 語音(基於 LLM)的過渡期。在過去大約六個月中,2.0 公司不斷湧現。雖然 1.0 公司目前可能在準確性上佔優,但從長遠來看,2.0 方法在可擴展性和準確性方面將更具優勢。
不太可能存在一種通用的企業語音助手模型或平臺,因為不同垂直領域之間存在一些關鍵差異:
- 呼叫類型、語調和結構;
- 集成和流程;
- 市場進入策略(GTM)和「殺手級功能」。
這可能預示著垂直領域語音助手的興起,這些專業代理在用戶界面(UI)設計上具有強烈的個性化需求。這要求創始人團隊具備深厚的領域專業知識或對特定領域有濃厚興趣。勞動力成本是許多企業的主要成本中心,對於能夠「做對」的公司來說,總可尋址市場(TAM)是巨大的。
近期的機會可能出現在那些對勞動力依賴性強、勞動力短缺嚴重且呼叫複雜度較低的行業。隨著客服人員變得更加熟練,他們將能夠處理更復雜的呼叫。
3、我們看到的機會
一、基於 LLM,但不一定從一開始就完全自動化
AI 語音助手的「強形式」將是完全由大型語言模型(LLM)驅動的對話,而不是傳統的交互式語音響應(IVR)或電話樹方法。然而,鑑於 LLM 並非始終 100% 可靠,對於更敏感或價值較大的交易,可能會暫時需要「人為介入」。這突顯了垂直特定工作流程的重要性,因為它們可以最大化成功的可能性,同時最小化人為干預和邊緣情況的發生。
二、定製模型與提示 LLM 方法的結合
B2B 語音助手需要處理特定領域(或垂直特定)的對話,而通用的 LLM 可能不足以應對這些需求。許多公司正在根據每個客戶的數據(數百或數千個數據點)調整模型,並可能將其推斷回公司範圍內的基礎模型。定製調整甚至可能進一步針對企業客戶進行。注意:一些公司可能會針對其特定用例調整「通用」模型(供客戶使用),然後根據每個客戶進行定製提示。
三、擁有領域專業知識的技術團隊
鑑於 B2B 語音助手的複雜性,擁有一定的人工智能背景將有助於(即使不是必需的)構建和擴展高質量的解決方案。然而,瞭解如何將產品包裝並進入特定垂直領域同樣重要——這需要相應的領域專業知識或濃厚興趣。您不必擁有人工智能博士學位就能構建企業級語音助手。
四、對集成和生態系統有深刻的洞察
與上述情況類似,每個垂直領域的買家在購買前通常希望看到一些特定的功能或集成。實際上,這可能是產品在他們的評估中從「有用」轉變為「神奇」的關鍵點。這也是從垂直領域開始構建產品的意義所在。
五、要麼面向「企業級」市場,要麼有強勁的產品主導增長(PLG)趨勢
對於那些收入主要集中在頂級公司 / 供應商的垂直行業,語音助手公司可能會從企業級市場開始,最終通過自助產品「滲透」到中小企業。中小企業客戶迫切需要解決方案,並願意嘗試各種選項——但他們可能無法提供足夠的數據規模 / 質量,讓初創公司將模型調整到企業級水平。
04.B2C 語音助手
1、演變
到目前為止,主導消費者市場的人工智能語音助手來自大型公司,例如 ChatGPT Voice 和 Inflection 的 Pi 應用。消費者語音助手的發展較慢有幾個原因:
- 大型公司已經擁有廣泛的消費者基礎和一流的模型(在準確性、延遲等方面)。語音服務並不容易大規模交付,尤其是考慮到最近推出的 GPT-4o。
- B2B 語音助手是將 AI「插入」現有流程中,而 B2C 語音助手則要求用戶採納新的行為,這可能比較慢或需要更具吸引力的產品。
- 由於過去使用 Siri 等產品的經驗,消費者對語音 AI 的看法一直很負面,因此他們可能不願意嘗試新的應用程序。
- 目前的產品已經能夠滿足語音 AI 的基本用例——如輔導、陪伴等。B2C 語音初創公司才剛剛開始解決特定的用例或創造 ChatGPT、Pi 等無法處理的體驗。
2、總體觀點
在 B2B 領域,語音助手主要通過替代現有的電話呼叫來完成特定任務。對於面向消費者的代理來說,用戶必須選擇繼續參與,這更具挑戰性,因為語音交互並不總是方便的。這意味著產品需要有更高的吸引力。
消費者語音助手的第一個也是最明顯的應用是用人工智能替代昂貴或難以獲得的人工服務。這包括治療、指導、輔導等——任何可以基於對話並虛擬完成的服務。
然而,我們相信 B2C 語音助手的真正潛力可能尚未完全展現。我們正在尋找那些能夠利用語音的力量,創造出以前不存在的新型「對話」的產品。這可能會重塑現有服務的形式,或創造出全新的服務。
對於提供卓越用戶體驗的產品,語音助手提供了一個前所未有的機會,可以以前所未有的水平與消費者互動——真正模仿人際聯繫。這可能體現在代理作為產品本身,或語音作為更廣泛產品的一種模式。
3、我們看到的機會
一、明確解釋為什麼聲音是必要的
我們期待看到那些能夠清晰闡述語音如何為產品帶來獨特價值的產品和創始人——而不僅僅是為了使用語音而使用。在許多情況下,與文本界面相比,語音界面實際上是不利的,因為它使用起來更不方便,且獲取信息的效率更低。
二、明確解釋為什麼實時語音是必要的
儘管語音的使用存在挑戰,但實時語音的使用難度更大(與異步語音消息相比)。我們期待看到創始人能夠理解為什麼他們的產品需要圍繞實時對話構建——也許是為了提供像人類一樣的陪伴、練習環境等。
三、從擬物化到預人工智能「產品」
我們懷疑強形式的產品不會簡單地複製人與人之間的對話,而是將人工智能語音助手作為人類服務提供者的替代。首先,達到這樣的標準是困難的——但更重要的是,有機會利用人工智能更高效、更愉快地提供同樣的價值。
四、垂直化到模型質量不決定勝者的程度
領先的通用消費級 AI 產品(如 ChatGPT、Pi、Claude )擁有高質量的語音模式。它們能夠有效地參與多種類型的對話和互動。而且,由於它們擁有自己的模型和堆棧,它們很可能在短期內在延遲和對話流方面取得勝利。
我們期待看到初創公司通過針對特定類型的對話進行定製或調整,或構建為語音助手體驗提供更多背景和價值的 UI 而取得成功——例如,隨著時間的推移跟蹤進度,或以有主見的方式引導對話 / 體驗。