自研變套殼，開發者逆向200家AI公司前端代碼、追蹤API：146家實則套殼ChatGPT等，多家技術棧都一樣，卻賺75倍暴利

11-05

“200 家 AI 初創公司中，73% 的產品實際上只是‘套殼’，主要套的還是 ChatGPT、Claude！”

這一結論一出，給 AI 創業圈帶來不小的打擊與爭議。

回想 2023 年，OpenAI CEO Sam Altman 曾直言：“套殼 ChatGPT 註定消亡。”

然而現實恰恰相反：隨著 ChatGPT 的爆火，創業熱潮一浪接一浪，無數投資擁入，一些公司甚至尚未發佈產品就已吸引不小的關注度。

如今，一位軟件工程師 Teja Kusireddy 用數據扯開了這場“繁榮”背後的部分真相。他對 200 家 AI 公司進行了逆向工程、反編譯代碼，並追蹤 API 調用，發現許多號稱“顛覆性創新”的公司，其核心功能仍依賴第三方服務，只是在外層多套了一層“創新”的殼。市場宣傳與實際情況之間的差距令人震驚。

那麼，究竟是投資人“完全不懂”，還是 AI 初創公司“太會忽悠”？“自研”與“套殼”的界限如何而定？接下來，我們將通過 Teja Kusireddy 發佈的長文，從他的第一視角，看看他用數據揭示的最新發現與結論。

為什麼會發起“逆向工程”？

上個月，我掉進了一個意料之外的“兔子洞”，陷入了迷茫——一開始只是一個很簡單的問題，最後卻讓我開始懷疑自己對整個 AI 創業生態的一切認知。

那天是凌晨兩點，我在調試一個 webhook 集成時，偶然間發現了點不對勁的東西。
一家聲稱擁有“自主研發的深度學習基礎設施”的公司，竟然每隔幾秒就在調用 OpenAI 的 API。
而這家公司，剛剛憑著“我們構建了完全不同的 AI 技術”這一說法，從投資人那裡融到了 430 萬美元。

就在那一刻，我決定——要徹底查清這件事，到底有多複雜。

調查方法：我是怎麼做的

我不想寫一篇靠“直覺”發牢騷的熱評，我要的是數據，一個真實的數據。

於是，我開始動手搭建工具：

接下來的三週裡，我做了這些事：

從 YC、Product Hunt 和 LinkedIn 的“我們在招聘”帖子中，爬取了 200 家 AI 初創公司的官網；

監控它們 60 秒的網絡流量會話；
反編譯並分析了它們的 JavaScript 打包文件；
將捕獲到的 API 調用與已知服務的指紋庫進行比對；
最後，把它們在營銷頁面上吹的牛，與實際的技術實現一一對照。

我特意排除了成立未滿 6 個月的公司（那些團隊還在摸索階段），重點關注那些已經拿到外部融資、並公開宣稱有“獨家技術”的初創公司。

得到了讓我愣住的數據

結果顯示——73% 的公司，其宣稱的技術與真實實現之間存在顯著落差。

200 家的 AI 初創公司可以分為以下幾類：

但真正讓我震驚的，不只是這個數字。更讓我意外的是——我甚至沒有因此生氣。

接下來，進行逐步拆解，可以分為三種模式。

模式 1：所謂“自研模型”，其實只是 GPT-4 加了點額外操作

每次看到“我們自研的大語言模型”這種說法，我幾乎能預判下一步會發現什麼。

結果 37 次裡，有 34 次我猜對了。

技術特徵揭秘：

在我監控出站流量時，這些是明顯的“蛛絲馬跡”：

用戶每次與所謂的“AI”互動時，都會向 api.openai.com 發起請求；
請求頭（Request Headers）裡包含 OpenAI-Organization 標識；
響應時間與完全符合 OpenAI 的 API 延遲模式（大部分查詢 150–400ms）；
Token 使用量和 GPT-4 的計費等級一致；
速率限制的指數退避（exponential backoff）也和 OpenAI 一模一樣。

真實案例曝光

有一家號稱“革命性自然語言理解引擎”的公司，經過反編譯後，我發現他們所謂的“自研 AI”就是這幾行代碼：

就是這樣——整套所謂的“自研模型”，在他們的融資演示文稿裡出現了 23 次。

沒有微調
沒有自定義訓練
沒有創新架構

只是給 GPT-4 下了一個“請假裝你不是 GPT-4”的系統提示而已。

實際上，這家公司的成本與定價僅是：

GPT-4 API：每 1K 輸入 tokens 為 0.03 美元，每 1K 輸出 tokens 為 0.06 美元
平均一次查詢：約 500 輸入 tokens，300 輸出 tokens
每次查詢成本：約 0.033 美元

他們對用戶的收費標準是：每次查詢 2.50 美元（或 200 次查詢每月 299 美元）

直接成本利潤率高達 75 倍！

更荒誕的是……我竟然發現有三家不同公司的代碼幾乎完全一樣：

變量名一模一樣
註釋風格一模一樣
“永遠別提 OpenAI” 的指令也完全一致

所以，我推斷，這幾家公司要麼是：

抄自同一個教程
找了同一個外包工程師
用了同一個創業加速器的模板

還有一家公司額外加了所謂的“創新功能”：

他們在給投資人演示的文稿裡，把這個功能稱之為“智能回退架構（Intelligent Fallback Architecture）”。

在這裡，我個人認為——包裝 OpenAI 的 API 本身沒有什麼問題，問題在於這些企業把它叫作“自研模型”，背地裡卻只是個 API + 自定義系統提示。

這就好比：買了一輛特斯拉，換個徽標，就說自己發明了“專屬電動車技術”。

模式 2：人人都在做的 RAG 架構（卻沒人承認）

相比第一種模式，這一類更微妙一些。RAG（Retrieval-Augmented Generation，檢索增強生成）本身確實有用，但很多 AI 初創公司的營銷宣傳和實際實現之間的差距更為巨大。

他們吹噓，聲稱自己研發了——“先進的神經檢索 + 自研嵌入模型 + 語義搜索基礎設施....”

實際上，他們擁有的是：

我發現有 42 家公司使用了幾乎一模一樣的技術棧：

嵌入模型用的是 OpenAI 的 text-embedding-ada-002（而不是“我們的自研嵌入模型”）；
向量存儲用的是 Pinecone 或 Weaviate（而不是“我們的專有向量數據庫”）；
文本生成用的是 GPT-4（而不是“我們訓練的模型”）。

實際代碼長這樣：

這並不是說技術不好——RAG 確實有效。但把它稱作 “自研 AI 基礎設施”，就像把你的 WordPress 網站叫做 “定製內容管理架構” 一樣荒誕。

再來算筆賬，這家公司的實際成本（每次查詢）：

OpenAI 嵌入模型：每 1 K tokens 為 0.0001 美元
Pinecone 查詢：每次 0.00004 美元
GPT-4 生成：每 1K tokens 為 0.03 美元
總成本：約 0.002 美元/次查詢

而用戶實際支付的價格：0.50–2.00 美元/次查詢

API 成本利潤率高達 250–1000 倍！

我發現 12 家公司代碼結構完全一樣，另外 23 家公司相似度超過 90%。

唯一的差別只是變量名，以及使用 Pinecone 還是 Weaviate。

有家公司添加了 Redis 緩存，並吹成 “優化引擎”
另一家公司加了重試邏輯，還把它註冊商標，叫 “智能故障恢復系統”

一個典型初創公司每月運行 100 萬次查詢的經濟情況：

成本：

OpenAI 嵌入模型：約 100 美元
Pinecone 託管：約 40 美元
GPT-4 生成：約 30,000 美元
總成本：約 30,140 美元/月

收入： 150,000–500,000 美元/月

毛利率：80–94%

這算是糟糕的生意嗎？不是，毛利率非常可觀。

但它是 “自研 AI” 嗎？也不是。

模式 3：所謂“我們微調了自己的模型”，實際上……

微調聽起來很厲害，而且在某些情況下確實有用。但我發現的情況是這樣的：

真正從零訓練模型的公司只佔 7%。敬佩！他們的基礎設施我都看到了：

AWS SageMaker 或 Google Vertex AI 的訓練任務
將訓練好的模型文件（模型產物）存儲在 S3 桶中。
自定義推理端點
GPU 實例監控

其餘大多數公司只是使用 OpenAI 的微調 API，本質上就是——付錢給 OpenAI，把自己的 prompt 和示例保存到他們的系統裡。

30 秒教你識別“套殼公司”

如果你想知道我說的是真是假，其實根本不需要我花三週調查，這裡有快速識別方法：

現象 1：網絡流量

打開 DevTools（F12），切換到 Network 標籤頁，然後與其 AI 功能交互。如果你看到這些請求：

api.openai.com
api.anthropic.com
api.cohere.ai

那你看到的就是「套殼公司」。他們可能加了一層中間件，但 AI 並不屬於他們。

現象 2：響應時間模式

OpenAI 的 API 有一個獨特的延遲特徵。如果每次響應都在 200–350ms 之間，那就基本可以確定是 OpenAI 的服務。

現象 3：JavaScript 打包文件

打開網頁源碼，搜索以下關鍵詞：

我發現 12 家公司把 API Key 留在前端代碼裡。我都舉報了，但沒有一家回應。

現象 4：營銷語言矩陣

規律很明顯：

具體技術術語 = 可能是真的
模糊的營銷詞 = 很可能在掩飾

如果他們只會用“先進 AI”、“智能引擎”之類的模糊詞，而沒有具體技術細節，通常意味著背後有貓膩。

基礎設施的真實情況

實際上，AI 初創公司的技術格局大致如下：

為什麼這真的很重要？

你可能在想：“管它呢？能用就行。”

你說的部分確實沒錯，但事情比表面更重要：

對投資人來說：你在資助的是 prompt engineering，而不是 AI 研究。估值得調整。
對客戶來說：你支付的是 API 成本加高額溢價。事實上，你可能一個週末就能搭出同樣的東西。
對開發者來說：門檻比你想象的低。那個你羨慕的“AI 初創公司”？它的核心技術，你可能在黑客松裡就能做出來。
對整個生態來說：當 73% 的“AI 公司”都在誇大或誤導自己的技術實力，我們已經處在泡沫狀態了。

套殼模式（因為並非所有套殼都是壞事）

聰明的套殼公司並沒有撒謊，它們在做的其實是：

特定領域的工作流
更優的用戶體驗
巧妙的模型編排
有價值的數據管道

它們只是底層使用了 OpenAI，這沒有問題。

那 27% 做對了的公司

讓我來重點介紹那些誠實做事的公司：

第一類：透明套殼公司

首頁直接寫著 “Built on GPT-4”。它們賣的是工作流，而不是 AI 本身。案例包括：

法律文檔自動化（GPT-4 + 法律模板）
客服路由系統（Claude + 行業知識）
內容工作流（多模型 + 人工審核）

第二類：真正的構建者

這些公司實際在訓練模型：

醫療 AI（HIPAA 合規的自託管模型）
金融分析（定製風險模型）
工業自動化（專用計算機視覺模型）

第三類：創新者

在現有基礎上構建真正新技術的公司：

多模型投票系統，提高準確性
帶記憶的自定義智能體框架
新型檢索架構

這些公司會在宣傳時候詳細講解它們的架構，因為他們真的自己做了。

我學到了什麼（以及你應該知道的）

經過三週對 AI 初創公司的逆向工程，我總結出以下幾點：

技術棧本身沒那麼重要，關鍵是解決的問題。我發現的一些最棒的產品，“只是”套了層殼。它們有出色的用戶體驗、解決了真實問題，並且對自己的方式很誠實。
但誠實很重要。一個聰明的套殼公司和一個欺詐公司之間的差別，就是透明度。
AI 熱潮正在創造錯誤的激勵。創始人感到壓力，被迫宣稱“自研 AI”，因為投資人和客戶都期望如此。這種狀況需要改變。
基於 API 構建並不可恥。每個 iPhone 應用都是“封裝 iOS API”的產物，我們不在意。我們關心的是它能不能用。

真正的考驗：你能自己做出來嗎？

我的評估框架如下：

如果你在 48 小時內能復刻他們的核心技術，他們就是套殼公司。
如果他們對這一點很誠實，那沒問題。
如果他們撒謊——趕緊遠離。

我的實際建議

對創始人：

誠實說明你的技術棧
在用戶體驗、數據和行業知識上競爭
不要聲稱做了你沒有做過的事
“Built with GPT-4” 並不是弱點

對投資人：

要求查看架構圖
索取 API 賬單（OpenAI 發票不會騙人）
合理評估套殼公司
獎勵透明度

對客戶：

檢查網絡流量（Network Tab）
詢問基礎設施細節
不要為 API 調用支付 10 倍溢價
根據效果，而不是技術宣傳來評估

那件沒人敢明說的事

大多數所謂的“AI 初創公司”，其實是靠 API 成本而不是員工成本運作的服務型公司。

這沒什麼問題。

但就該叫它本來的名字。

接下來會發生什麼？

AI 套殼時代是不可避免的。我們在其他領域經歷過同樣的週期：

雲基礎設施（每個創業公司都聲稱“自建數據中心”）
移動應用（人人都說自己是“原生”，其實是混合開發）
區塊鏈（每家公司都在“基於區塊鏈”開發）

最終，市場會成熟。踏實的開發者會勝出，騙子會被揭穿。

而現在，我們正處在混亂的中間階段。

最後的思考

在逆向分析了 200 家 AI 初創公司後，我反而對這個領域更樂觀，而不是更失望。

那 27% 真正在做技術研發的公司，做得非常出色。
聰明的套殼公司也在解決真正的問題。
即便一些存在誤導的公司，也有不錯的產品，只是營銷需要調整。

但我們需要讓關於 AI 基礎設施的誠實成為常態。使用 OpenAI 的 API 並不意味著你就不是開發者。撒謊才會讓你失去可信度。

做酷產品，解決真實問題，使用任何有效的工具。只是別把你的 prompt 工程吹成“專有神經網絡架構”。

調查以來的心路歷程

在博客文章的最後，Teja Kusireddy 也分享了他開始調查後的情況：

第 1 周：原以為大約 20–30% 的公司使用第三方 API，但還是太天真了。
第 2 周：有創始人聯繫他，問“怎麼進入了他們的生產環境”。其實，Teja Kusireddy 根本沒進去，他看到的一切都在瀏覽器網絡面板裡，這些企業只是沒想到有人會看。
第 3 周：有兩家公司要求 Teja Kusireddy 撤掉髮現內容。
昨天：一位 VC 問他是否可以在下一次董事會前審查他們的投資組合公司，Teja Kusireddy 答應了。

Teja Kusireddy 表示，他後面會在 GitHub 上公開分享調查的方法論、完整的爬取基礎設施、API 指紋識別技術、可立即運行的檢測腳本以及各大 AI API 的響應時間模式等等。

在三週裡，Teja Kusireddy 稱自己學到的唯一結論是：市場最終會獎勵透明，哪怕一開始可能懲罰它。他還透露，自己這篇內容發佈之後：

有 7 位創始人私下聯繫了他，有的防禦，有的感激。

三家公司請求幫忙，把營銷從“專有 AI”轉成“基於頂級 API 開發”。

一位創始人告訴他：“我知道我們在撒謊，投資人希望這樣，大家都這麼做。我們該怎麼停？”

“AI 的淘金熱不會結束，但誠實時代必須開始，”Teja Kusireddy 說道，“如果你感興趣，可以打開你的 DevTools，查看網絡面板，自己驗證。真相，就在 F12 之下。”

來源：https://pub.towardsai.net/i-reverse-engineered-200-ai-startups-73-are-lying-a8610acab0d3

本文來自微信公眾號“CSDN”，作者：Teja Kusireddy，36氪經授權發佈。

來源

免責聲明：以上內容僅為作者觀點，不代表Followin的任何立場，不構成與Followin相關的任何投資建議。

喜歡

評論