如果您的郵件客戶端截斷了本文,您可以點擊此處閱讀在線版本。另請閱讀以下腳註: 1
介紹
數據是新的護城河
越來越多的人達成共識:數據不是新的石油或新的黃金;它是更好的東西。數據是新的護城河。
我們正處於軟件領域一場引人注目的爭奪戰之中。法學碩士(LLM)正在改變軟件開發的方式,開闢出科技領域(尤其是服務業)此前從未涉足的廣闊新市場,也讓許多老牌企業顯得蒼老。這是企業搶佔市場份額的千載難逢的機會,而許多初創公司正是如此。
乘著人工智能浪潮的初創公司正報告著前所未有的增長率。Bolt 在兩個月內增長至 2000 萬美元的年經常性收入 (ARR);Cursor 在 21 個月內從 100 萬美元增長至 1 億美元;OpenAI 的收入已達數十億美元(別忘了,GPT-3 發佈還不到五年)。高速增長的故事比比皆是。
有些護城河是眾所周知且備受推崇的:網絡效應、用戶鎖定和轉換成本、品牌和定位、流程能力、獨特IP、規模經濟。其他一些護城河則鮮為人知或值得懷疑。2
但隨著人工智能的出現,一種新的護城河應運而生:數據護城河。這並非巧合。
人工智能公司與數據護城河有著特殊的共鳴,因為數據和人工智能是同一枚硬幣的兩面。法學碩士需要大量數據進行訓練、微調、學習和推理。而法學碩士能夠以前所未有的技術方式釋放數據的價值。這堪稱商業模式的天作之合。3
所有舊有的護城河仍然有效——例如品牌效應或網絡效應。你可以(也應該)構建它們。但它們與人工智能正交且獨立,而數據護城河則不然。數據護城河強化了人工智能的優勢,而人工智能的優勢又強化了數據護城河。
數據護城河到底是什麼?
大家都在討論如何構建數據護城河。護城河已成定局。4
不幸的是,這類討論的大部分內容都不太恰當。關於數據護城河及其運作方式,存在大量不完整、不一致或過時的想法。
這方面的典型錯誤包括:誤以為數據是護城河,但事實並非如此;過度依賴薄弱的數據護城河;將其他護城河(例如規模)與數據護城河混淆;誤解哪些數據屬性促成了其“護城河性”;未能區分軟件護城河和數據護城河;以及沒有意識到數據護城河何時失效。內褲侏儒依然不敗。5
本文旨在為討論帶來一些結構性、嚴謹性和當前的最佳實踐。我將定義幾種不同的數據護城河類別,解釋它們何時以及如何(以及是否!)發揮作用,並探討一些最大化其效力的策略。
會有案例研究!會有瘋狂的猜測!會有違反直覺的結論!會有巧妙的措辭,我希望這些措辭能迅速傳播!當然,也會有尖刻的旁白! 6繼續閱讀。
控制和循環
讓我們從一些分類法開始。
我認為數據護城河有兩類,也恰好是兩類。我稱之為數據控制和數據循環;每種類型的數據優勢都可以歸入其中一類或兩類。
數據控制。如果你對一項關鍵資產擁有唯一的控制權,你就擁有了護城河。在數據世界中,這種控制有多種形式:唯一性、聚合、移動、使用、記錄、行動、催化等等。我們將在本文的第一部分探討數據控制。
數據循環。許多著名的商業護城河依賴於正反饋循環7,這些循環能夠加速某些核心業務動態——例如,市場引力、用戶網絡效應、協議採用。許多數據護城河都表現出相同的模式。我們將在本文的第二部分探討數據循環。
第一部分:數據控制
控制數據實際上意味著控制數據的價值;當沒有其他人可以訪問該價值時,護城河就出現了。
實現這一點有幾種方法:你可以控制(唯一)數據的生產和所有權;你可以控制數據的內部或外部流動;或者你可以通過技術或其他手段控制數據的使用。創造價值;傳輸價值;提取價值:每一種方法都可以構建數據護城河。
這裡的一個前提條件是,被控制的數據必須是有意義的。否則,“控制”就毫無意義:你不可能從一條無路可走的道路上收取通行費來賺錢。
獨特且專有的數據
好的,所以你生產、捕獲或擁有獨特的數據。這些數據可能與產品使用情況、客戶行為、行業動態或其他方面有關。你有護城河嗎?可能沒有。
獨特的數據對於建立數據護城河來說既不是必要條件,也不是充分條件。之所以說它沒有必要,是因為正如我們將看到的,還有其他(通常更好的)方法:控制數據的移動或使用,以及構建數據環路。而由於上文提到的“意義性”標準,它也不是充分條件。這個標準包含什麼?
數據必須為您或您的客戶提供實質性的價值。價值的微小差異意味著,即使沒有這些數據,您也可能被在其他方面表現更佳的公司超越;而巨大的差異則意味著您無法被超越。
數據必須具有真正的競爭性。你使用它應該阻止其他人使用它,或者至少阻止其他人從中獲得相同的價值。
數據必須沒有功能替代品。無論競爭對手使用什麼數據,無論是否相似,都不應能夠實現類似的結果。
大多數數據集甚至連其中一個條件都滿足不了,更不用說全部三個了。但如果三個條件都滿足——如果你擁有獨一無二、高價值、不可替代、只有你自己才能使用的數據——那麼你可能就擁有了護城河。8
從歷史上看,有幾種方法可以獲取此類數據:
作為核心業務的副產品。(這有時被稱為尾氣數據,類似於內燃機的尾氣)。一個很好的例子是股票市場數據,紐約證券交易所和納斯達克將其作為其核心交易所業務的副產品來獲取。但這並非數據護城河。更大的核心業務可能會帶來更多(或更好)的尾氣數據,但反之則不然:紐約證券交易所的數據銷售並沒有為其交易所業務帶來任何“額外”的防禦能力。9
通過流程的力量。許多成熟的數據公司都遵循這一模板。想想Factset的財務報表數據,穆迪的評級數據,或者尼爾森的媒體消費數據:它們都依賴於數十年處理特定數據集並內化所有細微差別的專業知識。這就是護城河;無論你稱之為數據護城河還是流程護城河,都只是語義問題。
通過大量投入時間和資源。這種模式的一些例子包括搜索引擎抓取網絡數據、物流和配送公司繪製道路地圖,以及自動駕駛出租車記錄駕駛員與環境的互動。在每種情況下,公司獲取的數據都會成為其技術的基礎,進而成為其商業模式的基礎,而其他公司無法輕易複製。這些都是真正的數據護城河。但是……
蠻力已死......
蠻力背後的商業理論是“我的資本支出就是你的進入壁壘”。企業投入時間和資源,搶在競爭對手之前獲取數據,並利用這些數據獲得市場主導地位。
不幸的是,這種方法現在不太管用了:
法學碩士讓數據獲取變得更容易。這不僅僅是簡單一點,而是數量級的簡單。你不需要數百名數據管理員工作數千小時,只需告訴人工智能代理去幫你獲取數據即可。那些花費數年時間構建複雜的人工數據管道的公司現在必須與那些能夠以 1% 的成本複製 99% 工作成果的新興公司競爭。合成數據是另一種繞過暴力破解方法的途徑。10
數據採集的資本成本低廉。融資市場已經完全消化了“慘痛教訓”和“數據有效性的不合理性”。因此,用於強力數據採集的資金比以往任何時候都更加便宜。強力數據採集最終是對市場時機和資本成本的押注;一旦這些因素髮生變化,這種策略就會化為泡影。11
知識傳播,能力提升。谷歌在21世紀初構建的全球規模基礎設施,使其能夠快速抓取並索引整個互聯網,這為其提供了重要的護城河(儘管PageRank功不可沒)。如今,有數十家公司可以做到同樣的事情,而且成本更低。知識傳播,工具不斷改進,超大規模企業將任何可計算的東西服務化,摩爾定律勢不可擋地向前發展。昔日的優勢如今已是商品。
使用“數據”的廣義定義,可以更清楚地體現這種效果。吉卜力工作室耗費數十年時間,精心打造出一種其他動畫工作室無法複製的華麗視覺風格:這就是用蠻力創造獨特內容的精髓所在。
上個月,ChatGPT 為任何人打開了創作自己的吉卜力藝術作品的大門。
這對於創造力、知識產權、民主化和藝術家經濟意味著什麼超出了本文的討論範圍,但其潛在的主題——法學碩士學位讓單純的“努力”不再成為一種護城河——是明確的。
...蠻力萬歲!
那麼,暴力破解數據獲取的護城河已經成為過去了嗎?並非如此。在某些情況下,暴力破解仍然有用:
LLM 的上游——例如,為 LLM 訓練標記數據( Scale 、 Mercor及其同類產品)、合成數據管道、專有評估等。
在法學碩士目前處於劣勢的領域——例如“現實世界”的數據採集——音頻、視頻、物理、生物。(順便說一句,這種情況不會持續太久)(這也是為什麼這裡會發生土地爭奪戰的原因)。
碎片化數據
控制數據的第二種有效方法是成為清算所;統一分散的數據資產或數據價值的中央存儲庫。
這是數據企業眾所周知的模式;事實上,這很可能是它們的默認模式。想想彭博社、 LexisNexis和CoStar :它們分別是金融、法律和房地產數據的清算所。
清算所/統一化是真正的數據護城河,融合了獨特性、處理能力和強力計算等要素。而且它不僅適用於專業數據業務!最近一個有趣的現象是,非數據業務也出現了類似的模式。
其理念是聚合/統一碎片化數據,然後通過軟件產品將其貨幣化。以下是一些示例:
Rippling 、 Gusto和Remote.com彙總了數十個國家/地區的工資、承包商、福利、稅收等方面的監管數據。這使得他們能夠提供“統一的全球工資單”服務。
Stripe和Adyen對“全球支付處理”做了同樣的事情,再次納入了稅收、身份驗證、KYC 和 AML、數據隱私、報告、爭議解決等方面的當地規則和法規,更不用說當地客戶的習慣和偏好。
Numeral和Quandri都是早期初創公司,分別專注於各州的銷售稅和個人保險業務。這些系統高度分散,相互影響,因此數據統一極具價值。
在每種情況下,收集的數據對於業務提供至關重要,而其他人則難以收集:即數據護城河。
信息產生行動
放眼望去,我們在這裡要統一什麼?數據,沒錯,但要統一哪些數據?為什麼?
本質上,這些數據是行動的基礎。規則和條例必須遵守,而且它們大多是確定性的:它們直接導致行動。航班信息對於訂票行為既是必要條件,也是充分條件;銷售信息對於開展外展活動同樣如此。信息催生行動。12
數據統一確實很難,但這也讓它成為了一道很好的護城河。而數據統一加上頂層的操作層通常需要領域專業化,這使得它更加難攻。
銷售豐富化展現了前沿技術如何隨時間推移而變化。從D&B到Clearbit ,再到ZoomInfo ,再到Apollo ,再到Clay,這些發展歷程分別講述瞭如何通過整合碎片化數據、使其可通過 API 訪問、利用網絡效應、添加工作流以及在 AI 操作中進行分層來獲取價值的故事。
控制數據移動
這是一個模糊的類別。部分原因在於界限:數據移動在哪裡結束,數據使用又在哪裡開始?部分原因在於重疊:擁有此類控制權的公司通常通過數據和非數據策略的組合來實現。讓我們來看一些例子!
Visa或許擁有整個商業領域中最著名的網絡效應13。一個耐人尋味(或許也頗具挑釁性)的說法是,他們的網絡效應很大程度上基於對數據移動的控制。
想想看:當我用信用卡購物時,資金實際上並沒有流動。流動的是數據:客戶姓名及驗證信息、交易詳情、信用額度、未結餘額、商戶和銀行ID、付款計劃。資金流動要晚得多,而且也不是一對一的。
Visa 網絡統籌協調所有這些——涵蓋消費者、商戶、支付網關、支付處理商、收單銀行、髮卡銀行等等。節點和邊緣構成了網絡效應;而對這些節點和邊緣的知識(和控制)構成了數據護城河。
任何中間商業務都容易受到去中介化的影響。以Visa為例,商家可以直接與銀行溝通,查詢客戶的信用評分。但銀行卻沒有這樣做! Visa控制著這種互動。Visa控制著網絡上幾乎所有的數據流動。抽象出(巨大的)網絡複雜性,正是吸引參與者加入並防止他們背叛的關鍵;從本質上講,數據控制是網絡效應的基礎。
Amadeus和Sabre就像旅遊業的專屬簽證,控制著航空公司、酒店、租車公司、旅行社和聚合器以及旅行者之間的數據流(庫存、預訂和身份)。Change Healthcare就像醫療行業的專屬簽證,控制著患者、醫療服務提供者、保險公司和政府支付項目之間的數據流(和支付)。
建立在控制外部數據流動基礎上的企業利潤豐厚,但數量稀少。更常見的是為客戶內部管理數據流的企業。他們有護城河嗎?
通常情況下並非如此。管理數據移動與控制數據移動是兩碼事。99% 的軟件工具都在做數據移動,而大多數這類工具顯然沒有護城河。
例外情況是高度監管行業的數據流。例如,在醫療保健領域,患者數據高度敏感,您不能隨意訪問或移動它。因此,像Epic這樣的公司專門管理內部數據訪問(這也是一種記錄系統效應;見下文),以及像Datavant這樣的公司,專門在組織之間傳輸數據,同時保持安全性和隱私合規性(通過數據標準效應;再次見下文)。要擺脫這些束縛並不容易:好處有限,壞處卻很大,所以大多數客戶會堅持下去,而不是改變。14
數據使用情況
最後一種數據控制是最強大的:控制數據的使用。這是一個很大的子類別,涵蓋記錄和行動系統、催化劑數據以及外生數據護城河。
記錄系統
記錄系統(“SoR”)是最古老、最知名、最有效的數據護城河之一。
在任何大型組織中,信息都是分散的。它們散佈在 Excel 文件和數據庫、電子郵件和 Slack 頻道、PDF 和演示文稿、用戶手冊和政策手冊、合同和文件中。
擁有一個整合所有這些分散信息的平臺,具有相當的防禦性。這樣的平臺被稱為“記錄系統”,其目標是使其成為組織的“單一事實來源”。數據被傳輸到記錄系統 (SoR);查詢被髮送到記錄系統 (SoR);答案來自記錄系統 (SoR)。如果信息在記錄系統 (SoR) 中,你可以假設它是真實的;如果不是,則不能。15
SoR 的典型例子是Salesforce ,它整合了企業需要了解的有關客戶和銷售渠道的所有信息:日期、聯繫信息、互動歷史、渠道階段、預期價值、從機會到成交的進度、營銷活動、客戶服務和案例管理等等(非常非常多)。整個銷售部門都依賴於 Salesforce;沒有它,他們就無法運轉。
Salesforce 在其他領域也有類似的情況。事實上,這對於 SoR 來說很常見。將組織的所有數據統一到一個 SoR 中既不切實際又低效;相反,每個功能都有單獨的SoR。Salesforce專注於銷售功能; Oracle負責財務管理, Workday負責人力資源, Quickbooks負責會計, Ariba負責供應鏈等等。每個 SoR 都充當其特定功能的唯一真實來源。16 17 18
回顧一下這些 SoR 公司的創立年份,將會很有啟發:
SAP:1972年
甲骨文:1977年
史詩:1979
Quickbooks:1983年
阿里巴:1996年
Zoho:1996年
Salesforce:1999年
這真是令人震驚。這些都是壽命極長的企業——尤其是考慮到軟件行業變化的速度;它們一定擁有令人難以置信的護城河。
SoR 為何如此具有粘性?
可以這麼說,Salesforce 並不是一款廣受歡迎的產品。沒有人會對他們的 Salesforce 實例充滿熱情。但他們又離不開它;Salesforce 的用戶黏性極強。
為什麼會這樣?因為 Salesforce控制著數據的使用。如果你需要關於潛在客戶和客戶的“準確”數據,你必須從 Salesforce 19獲取。沒有 Salesforce,你什麼都做不了:你不能給潛在客戶發郵件,不能更新他們的狀態,不能瞭解他們的需求,不能簽訂合同,不能在合同結束後提供支持,不能為你的銷售渠道建模,不能開展營銷活動,等等。Salesforce 壟斷了你的內部銷售數據。
更重要的是,這種特權地位意味著大多數 Salesforce 實例都擁有多年的“工作流程壁壘”。這些壁壘既是程序性的:銷售、市場營銷和客戶成功人員必須遵循的規則;也是技術性的:Salesforce 擁有整個應用商店的第三方工具來讀取、寫入、修改、可視化、呈現和分析其數據。
Salesforce 本身並不出色,但一想到要拆除一個實例、導出所有數據、將其加載到其他地方、複製所有應用功能、遷移所有用戶,最終恢復到完整的生產流程,需要耗費大量精力,幾乎所有遷移者都會望而卻步。大多數大規模的 SoR 也是如此,所以它們才會如此“護城河” 。20
不再粘稠?
然後是法學碩士(LLM)。事實證明,從 SoR 導出數據正是 AI 代理擅長的那種繁瑣任務。
近年來,我最喜歡的市場策略之一是,那些想要顛覆 SoR 模式的公司主動提出自己完成所有遷移工作:我們負責導出數據,導入新系統,添加新的應用掛鉤,等等。關鍵在於,這並非“風險”,而只是“成本”,供應商很樂意承擔這筆成本,以換取多年的生命週期價值 (LTV)。
諷刺的是,如果成本下降幅度不大,對 GTM 來說可能反而更好。SoR 遷移的難度導致客戶流失率較低,而生命週期價值較高,這證明了供應商進行遷移工作的投資是合理的——但如果遷移成本下降太多,其他人也可能對你採取同樣的措施;客戶流失率會回升,這意味著生命週期價值下降,很快你就會陷入一場逐底競爭。數據粘度是你的朋友,直到它不再是朋友為止。
行動系統
記錄系統壟斷了內部數據。這種控制力使其既有價值,又具有防禦性。但如果它們能發揮更大的作用呢?
畢竟,數據的價值完全在於其用途。您肯定不希望您的 SoR 成為數據“死亡”的地方21 ;您希望根據數據採取行動。
這種想法引出了下一個甚至更強大的數據護城河類型:行動系統(“SoA”)。
行動系統不僅僅是被動地存儲數據,它們還能在數據之上實現操作。行動系統 (SoA) 與行動系統 (SoR) 的關鍵區別在於這些操作的具體性:操作層與數據層以及用戶功能的緊密結合程度。
代理系統
顯然,下一步就是系統自己採取行動。等等……我聽到的音樂是誰的?
記錄系統存儲數據;行動系統使人類能夠根據數據採取行動;代理系統本身則根據數據採取行動。
讓我們繼續上面的例子。在軟件 SoR/代碼庫之上,人類的主要操作是什麼?當然是編程!
哪種方法會勝出?這是一個價值百億美元的問題。我喜歡這個關於顛覆者論點的總結:
相反的觀點是,SoR 所有者將阻止這些應用程序,自行構建它們,並快速跟進任何面向用戶的改進;他們在數據和分發方面的領先優勢足以贏得市場。23
外生控制
下一組數據護城河是一個包羅萬象的類別,我稱之為“外生控制” 。在這種模式下,你控制數據的使用,不是通過數據本身的任何屬性,甚至也不是通過管理數據的軟件,而是通過外部的“胡蘿蔔加大棒”政策。以下是一些例子:
知識產權:無論數據是獨一無二的、碎片化的、位於 SoR 中、受流程控制,還是以上皆非,都無關緊要:只要您擁有對其使用的獨家知識產權,您就擁有了控制權。以標準普爾 500 指數為例:其底層數據是公開的,指數本身也極易複製,但標普全球每年通過授權獲得約 10 億美元的收益——授權對象包括資產管理公司(用於基準測試和 ETF)、交易所(用於指數掛鉤衍生品)和銀行(用於結構化產品) 。24
合同壟斷:通過一份有利的合同壟斷主要數據源。這在有效市場中是不可能的,但數據市場效率低下;數據集的定價往往(嚴重)錯誤。不幸的是,這種護城河是暫時的:如果數據最終證明具有價值,合同幾乎肯定會在續約時重新談判。這裡最好的策略是利用你的合同護城河來爭取時間,建立其他的防禦性來源; IQVIA在藥房數據方面正是這樣做的,而Neustar在電信數據方面卻未能做到這一點。
監管與合規護城河:如果政府強制要求人們使用特定數據集,那麼對於擁有、控制或實施該數據的公司來說,這就構成了一條護城河。能源之星(ENERGY STAR)項目就是一個很好的案例:像ICFI 、 Leidos 、 DNV和Guidehouse這樣的公司通過向政府和私營部門客戶提供這些認證,每年賺取鉅額收入。其他項目也存在類似的模式,例如 CAFE、空氣和水質量、FDA 標籤……
你會注意到,外生控制通常與政府行動相關。而政府行動具有很強的慣性:啟動困難,一旦啟動就更難停止。國家支持的數據護城河! 25
催化劑數據
值得一提的是,一種獨特的數據是催化劑數據:其價值來自於啟用或激活其他數據的使用。這一類別之所以有趣,是因為它是一種“間接控制”——你無需直接控制啟用的數據,它可能並非你獨有或專有,但你確實控制著從中提取價值的能力——這意味著你可以獲得不成比例的經濟效益。
這裡有幾個例子;在每種情況下,“激活”都是“實質上增加價值”的同義詞。
谷歌:用戶意圖數據激活搜索結果數據
亞馬遜:購買歷史數據激活產品列表數據
Acxiom :客戶資料數據激活基本營銷列表
任何社交媒體公司:瀏覽歷史記錄可激活新內容
CUSIP、DUNS、LiveRamp、Datavant:唯一標識符激活孤立的情報
FICO、尼爾森、評級機構、IQVIA:共識基準激活非錨定績效數據
在每個例子中,第二個數據集本身都具有一定的基準價值,但第一個數據集的加入使其價值大大提升。事實上,你可以說,上述公司之所以能夠在各自的行業中佔據主導地位,正是因為它們率先找到了如何釋放“可用”數據集價值的方法。26
催化劑數據的一個有趣之處在於,從實證研究來看,它似乎會導致贏家通吃,或者至少是贏家通吃大部分的市場。這在一定程度上是倖存者偏差:畢竟,你從未聽說過哪些催化劑數據集沒有帶來巨大的成果。
但它也反映了兩種模式。首先,催化劑數據一旦發揮作用,往往會產生非常好的效果——它能為(尚未開發但通常利潤豐厚的)數據資產帶來巨大的價值。其次,催化劑數據通常與各種數據環路同步運作:行業標準、共識基準、用戶網絡效應等等。我們將在本文後面更詳細地探討這一點。
數據控制總結
下面是一個方便的圖表,總結了我們迄今為止所學到的知識:
插曲
這篇文章我們已經讀了一半了。如果你還沒有訂閱我的新聞郵件,現在是時候訂閱了。
我偶爾會撰寫一些深入原創的文章,探討我擁有豐富專業知識的領域:數據、投資和初創企業。點擊此處瞭解更多。
第二部分:數據循環
數據護城河的第二個主要類別是數據循環:一個將數據和商業價值聯繫起來的正反饋過程,形成良性循環。數據改善業務,業務又改善數據(就“改善”一詞的某些價值而言),飛輪旋轉得足夠快,以至於沒有競爭對手能夠趕上。
對許多人來說,這是最熟悉的數據護城河27形式,也是最容易被誤解的形式。有些數據環路可以構成堅固而確定的護城河。另一些則比較薄弱,規模有限,或存在隱藏的漏洞。還有一些雖然有效,但它們根本不是數據護城河;它們依賴於規模或網絡效應,你可以將數據部分移除而不會造成任何損失。
數據循環主要分為三大類:數量循環、學習循環和使用/價值循環。讓我們深入探討一下這三大類。
數量循環
數量循環是數據循環中最簡單的一個:數據吸引數據。這可以通過多種不同的機制實現:
用戶生成內容(UGC)循環
這就是驅動Facebook、Youtube、Instagram、TikTok、X甚至LinkedIn 的循環。所有這些平臺都免費託管用戶生成的內容:照片、視頻、帖子、簡歷。這些內容吸引其他用戶,而這些用戶又會發布更多內容。內容越多,用戶就越多;而且,內容越多,推薦效果越好,從而用戶數量也隨之增加。所有這些用戶的存在(以及他們的注意力!)吸引了廣告商,而廣告商則為所有這些內容提供補貼。
當然,內容只是數據的另一種說法。這是一個完美的數據量循環,一旦成熟,既有利可圖,又難以被取代。
同樣引人入勝的是,一些公司利用這種循環,在達到一定規模後卻走向衰落。想想 MySpace、Tumblr、Quora、Vine、Digg,或許還有 Stack Overflow 28 。它們(所謂的)數據護城河怎麼了?
原因多種多樣——失敗是由多種因素決定的!——災難性的併購(新聞集團收購 MySpace,雅虎收購 Tumblr),未能有效盈利(Quora 的付費牆),自作自受(Tumblr 的 NSFW 禁令),產品失誤和技術債務(其中大部分),以及與頂級掠食者 Facebook的競爭(所有原因)。29 30
但從根本上講,這些只是導火索。UGC數據循環的問題在於,它建立得快,逆轉得也快。每個人都會去燈光最亮的地方;反之,每個人都會逃離鬼城。失誤如果不迅速扭轉,就會被判處死刑;慣性是個反覆無常的朋友。所以,這條護城河具有欺騙性:它比表面上看起來更容易受到攻擊。
搜索引擎優化 (SEO) 循環
一旦規模擴大,經典的 UGC 循環往往會導致內容“圍牆花園”,用戶永遠不會離開,甚至不想離開。但還有另一個非常相似的循環,用戶不斷被重新獲取,而 SEO 正是這種重新獲取的引擎。
這就是SEO數據循環。用戶創建內容,或者平臺本身以程序化的方式生成內容;其他用戶在尋找特定內容時,會通過谷歌或其他搜索引擎找到平臺。31
“尋找特定內容”這句話很重要。與UGC循環不同,SEO循環以任務為導向,而不是以Feed為導向。內容必須有用,並且能夠真正回答用戶的搜索查詢。
有哪些有用的內容?範圍很廣:
Reddit和Quora回答具體問題
Expedia 、 Booking 、 Kayak等提供旅行信息和活動
Yelp和TripAdvisor提供服務評論
Zillow房價
Glassdoor和LinkedIn涵蓋了職業生活的各個方面
這些公司以不同的方式盈利。廣泛的橫向平臺傾向於通過廣告盈利,而垂直平臺則主要通過聯盟營銷或潛在客戶開發。還有一些平臺通過訂閱或服務盈利。潛在客戶開發尤其有利可圖——例如保險、金融產品、法律服務、醫療保健、教育、旅遊、房屋維護——以至於出現了一個服務目錄的小型產業,其存在的唯一目的就是彙總提供商數據、獲取谷歌流量並收取介紹費。
在每種情況下,增加更多數據都會提升這些網站的搜索權益,帶來更多流量,進而(直接或間接地)獲得更多數據。飛輪解鎖,護城河建立。
這條護城河有多堅固?在谷歌時代——大致是2005年到2020年——這條護城河相當堅固。許多價值數十億美元的企業正是通過這條護城河建立並守護起來的。
但這個時代可能即將結束,連同這條護城河。一個原因是過度飽和:市面上有太多人工智能垃圾,谷歌搜索根本沒那麼有用32 33。另一個原因是非中介化:法學碩士已經在純信息查詢中取代搜索,而代理可能很快會在導航和交易查詢中做同樣的事情。這將繞過構建 SEO 循環的整個搜索-學習-選擇-購買渠道。34 SEO 循環的最後一個阻力是內容遷移到付費牆和登錄後面。人們正在鎖定他們的數據資產;告別完全開放的網絡。
Stack Overflow提供了一個警示故事。Gergely Orosz根據Theodore Smith的數據製作了這張流行編程網站上每月發佈的問題圖表,說明了一切:
最初,搜索流量推動了產品的急劇增長。之後,儘管產品變化不大,但近十年的穩定期一直持續。競爭對手肯定應該在這段時間裡出現吧?但事實並非如此,這恰恰證明了這條護城河的力量。
SaaS數據引力
恆星通過吸積形成。在瀰漫的宇宙塵埃雲中,局部聚集的物質會吸引更多物質,形成引力螺旋,最終溫度和壓力足以引發核聚變。
從經驗上看,軟件也表現出類似的模式:擴散被集中取代。其工作原理如下。
很多軟件最初都是通過“楔子”來銷售的——將目標客戶的範圍縮小、成本降低、風險降低。第二步是“落地並擴張”,獲得更多用戶、應用和收入;這通常意味著“走向多產品化”。
但是,哪些軟件工具能夠發展壯大,哪些又會失敗呢?恆星形成的類比給出了答案:贏家是那些已經實現局部聚集的軟件工具。
有時,它是“工作流程”的本地集中——客戶喜歡將多個工具組合成一個工具來提高生產力,但他們討厭切換流程,因此,擁有最頻繁或最重要的工作流程的平臺往往會吞噬其他平臺。
控制最重要或最有價值數據的工具往往會吞噬那些數據邊緣化、效率較低或集成度較差的工具。
Toast是一個很好的案例。Toast 最初是為餐廳提供銷售點 (POS) 系統。擁有前臺訂單數據使其佔據了先機,得以將業務拓展至廚房展示單、在線和移動訂餐、面向消費者的應用程序、配送集成、禮品卡、支付等領域,並最終進軍餐廳融資、薪資、人力資源等領域。所有其他功能都有競爭對手的應用程序擁有自己的數據,但 Toast 的 POS 數據既重要又核心;它的強大引力使其能夠吞併其餘業務。35
數據引力護城河與記錄系統護城河類似,但又不盡相同。這兩種護城河都受益於工作流鎖定、數據粘度和使用控制。它們的區別在於動態性。
SoR 本身並沒有增長的內在要求或預期:即使在靜態時,它們也具有極強的粘性。但對於數據引力環來說,增長至關重要:數據覆蓋範圍、產品用例、受眾群體以及表面積的增長。36
垂直 SaaS 中的數據引力是最好的數據護城河之一,尤其是因為它可以融入許多其他(非數據)護城河:工作流、信任、收入控制和網絡效應。
給予-獲得(G2G)循環
這是數據業務的常見模式。在G2G循環中,企業的客戶只有在(有時只有)他們也為企業貢獻數據的情況下才能獲得數據。企業擁有的數據越多,對客戶的吸引力就越大——因此,他們註冊並貢獻數據的可能性也就越大!因此,當初始臨界質量達到一定水平時,正反饋就會開始發揮作用。
純粹的“付出-收穫”循環是指貢獻的數據與接收的數據相同;價值由聚合行為創造。Waze 就是一個很好的例子:用戶貢獻(個人)並接收(聚合)交通數據。事實上,地理聚合似乎是 G2G 模型的一個共同主題——想想 OpenStreetMap、Weather Underground 和 GasBuddy。
具有雙向評論系統的市場(例如Airbnb - 房東評論客人,客人評論房東)也是有付出才有收穫,但這裡的價值不在於聚合,而在於消除評論中的選擇偏差,從而建立信任。
一旦達到臨界質量,付出即收穫的過程就變得相當艱鉅。難的是如何到達那裡:這是一個典型的“冷啟動”問題,其中的挑戰和解決方案與市場企業從0到1的階段非常相似。37
匿名化
聚合並非清算所和“給予即獲取”模式的唯一優勢。匿名化也至關重要。這是出於競爭原因——企業總是會有一些特定的業務細節不願與競爭對手分享,但有時很難在不洩露這些細節的情況下“提供”數據。因此,你需要一個能夠處理這些細微差別的中立方。此外,這還出於監管原因——隱私法規定了企業可以和不可以共享哪些信息,而添加匿名層可以使流程更加輕鬆、安全且合規。這本身並非真正的護城河,但它使實際的護城河(清算所或數量環路)更具韌性。
學習循環
學習循環是數據循環的下一個主要分支。企業利用(“從中學習”)數據來提升運營效率;而運營效率的提升則有助於他們獲得更多、更優質的數據。我在《人工智能時代的數據》一書中曾探討過這個飛輪;以下是它的一個簡化版本:
這個循環確實有效,而且規模化之後效果格外好。但它並非護城河。
事實上,“數據學習循環”與“獨特數據”並列“並非真正護城河”類別的榜首。我已經討論過獨特數據;但為什麼學習如此不具備護城河的性質呢? 38
這是一個極限問題。商業效率不會隨著數據輸入無限增長;相反,學習的價值在達到一定水平後會趨於穩定。與此同時,成本則呈現出相反的模式:長尾效應和邊緣案例效應在規模化後開始顯現,使得“推動趨勢”的數據收集成本更高。獲取成本上升,邊際數據價值下降;換句話說,優勢會隨著規模化而減弱,而不是加速增長。這並非護城河。
有兩個半例外。
第一個階段是我所說的商業模式解鎖:當你的學習循環達到一個神奇的閾值時,它就能實現一種沒有這種學習就不可能實現的商業模式。閾值效應在這裡很重要:你需要客戶價值函數的不連續性才能讓這條護城河發揮作用。
Amazon Prime是商業模式解鎖的一個很好的例子。一旦亞馬遜獲得了足夠的數據(“學習”),瞭解客戶行為、購買模式、訂單頻率、倉庫位置、庫存管理、配送調度、路線優化等,它就能提供“免費”的兩日送達服務。這開啟了多個良性循環(時間方面——訂單頻率和擁擠的路線——以及空間方面——倉庫和司機密度),摧毀了所有其他水平市場。這些數據不僅推動了亞馬遜運營的迭代、漸進和量化改進(經典的、非護城河式的學習循環);它還催生了一項競爭對手根本無法比擬的全新服務。這真是一條不可思議的護城河。
第二個例外是數據業務。這並不是說(增加的)成本和(減少的)價值效應不適用於數據業務;只是數據賦予了他們一系列其他槓桿(獨特的數據產品、更簡單的GTM、價格歧視、生態系統策略)來抵消這些影響。我在《數據業務的經濟學》一書中寫到了這些槓桿。
人工智能是半個例外。在人工智能中,結果似乎會隨著數據輸入無限擴展,從而消除了這一特定限制。另一方面,這裡並沒有真正的循環;一切都發生在預訓練階段。測試時推理方面的最新進展(尤其是跨用戶/跨會話學習的誘人前景)可能會改變這種情況,但我們還沒有完全做到這一點。39
二次學習循環
此外,還存在“非核心”或“次要”數據學習循環,它們比核心學習循環更弱,護城河也更弱。為了完整起見,我在這裡將它們列出來:
數據質量循環:有一定的價值,但質量並不是護城河。
產品推薦循環:特徵值和電子商務是一個很酷的組合,但也不是護城河。
產品優化循環:哈哈,不。A/B 測試連個淺溝都算不上。40
我聽說這些都被稱為防禦性的物質來源。不。
如果所有這些數據學習循環都如此薄弱,為什麼它們能如此牢牢地抓住大眾的想象力呢?我懷疑這主要是出於政治原因。“我們之所以成功,是因為我們利用數據和技術提供了更好的服務”比“我們之所以成功,是因為我們對注意力、商業和設備收取壟斷性費用”更有說服力。
旁白:巴頓和馮·安的循環
我想重點介紹兩位數據環創業者: Rich Barton和Luis von Ahn 。他們各自創立了多家十角獸企業或類似企業,並採用了清晰而獨特的方法:
Rich Barton 的策略:找到一個擁有高價值、碎片化且不透明知識的行業;將這些隱藏的知識公開化;控制搜索流量;掌握該行業的“客戶需求”;重複。他曾在旅遊( Expedia )、就業( Glassdoor )和購房( Zillow )等行業做到過這一點。Kevin Kwok 就此寫過一篇精彩的文章。
路易斯·馮·安的劇本:找到一個標籤問題,讓用戶從標籤行為中獲得效用——也就是雙邊學習循環。在Duolingo中,用戶學習一門語言,同時也翻譯未翻譯的書籍。在Recaptcha中,用戶驗證身份,同時也標記模糊圖像。( Mercor ,並非馮·安的公司,似乎也在沿著類似的思路開展工作。)
還有哪些可複製的數據護城河策略?在《數據商業經濟學》一書中,我假設我們將看到大量利基市場、垂直細分領域的 B2B 數據企業湧現。一年後, Travis May創立了 Shaper Capital,旨在孵化這類企業——“解決各行各業的數據碎片化問題”,就像他之前在獨角獸公司LiveRamp (身份識別)和Datavant (健康)所做的那樣。我將非常關注 Travis May 的策略。
引導程序和 Switch
儘管學習循環本身可能不是一種可持續的護城河,但它們仍然很有價值,因為我稱之為引導和切換的極其有效的模式的第一階段。
在這種模式下,你首先會構建一個數據學習循環,以改進產品並擴大客戶群;但隨著規模的擴大,你會構建其他網絡效應和防禦能力,從而成為你的長期護城河。這種模式在內容企業( Facebook、Netflix、Youtube )和平臺( Doordash、Uber、Airbnb )中最為常見。
每當推薦或匹配在平臺的增值中扮演重要角色時(如上例所示),學習就變得極具價值,並推動快速增長。但這些企業的長期護城河來自網絡密度、用戶信任、規模經濟和注意力聚合,而不是學習。
使用/價值循環
下一個數據循環,也可能是我最喜歡的,是使用/價值循環:特定數據資產的使用範圍越廣,它對用戶的價值就越高。擁有或控制這些數據資產的人就能創造財富。
這個循環有幾種不同的風格:
數據交換標準
您提供一個行業範圍的“主鍵”,用於鏈接不同公司持有的記錄。Factset 的CUSIP標識符就是一個很好的例子:它允許資本市場參與者清晰明確地就他們交易的證券達成一致。
在金融化的世界裡,債務和股權類別、上市地點和證券類型多種多樣,這一點至關重要:沒有CUSIP,企業根本無法在資本市場運作。使用它的人越多,它就越有價值/更普遍/更有利可圖/更重要。這對行業來說是一種負擔,採用它的回報也會越來越高!
(與 CUSIP 類似的產品有DUNS 、 VIN和ISBN ;此類別似乎對首字母縮略詞情有獨鍾。)
商業評估標準
你提供了一個全行業的“基準”,每個人都用它來評估或定價交易。標普500指數就是一個很好的例子:每個投資經理(以及投資經理團隊中的每個有限合夥人)都會將自己的業績與該指數進行比較,而且它還被用來為衍生品、結構性產品、ETF等等進行定價。同樣,它被使用的越多,就越占主導地位。又是一種稅收!
(類似產品:尼爾森收視率基準、企業和主權風險評級、 FICO分數。)
直通環路
我之前談到了為什麼大多數數據學習


















