自研變套殼,開發者逆向200家AI公司前端代碼、追蹤API:146家實則套殼ChatGPT等,多家技術棧都一樣,卻賺75倍暴利

“200 家 AI 初創公司中,73% 的產品實際上只是‘套殼’,主要套的還是 ChatGPT、Claude!”

這一結論一出,給 AI 創業圈帶來不小的打擊與爭議。

回想 2023 年,OpenAI CEO Sam Altman 曾直言:“套殼 ChatGPT 註定消亡。”

然而現實恰恰相反:隨著 ChatGPT 的爆火,創業熱潮一浪接一浪,無數投資擁入,一些公司甚至尚未發佈產品就已吸引不小的關注度。

如今,一位軟件工程師 Teja Kusireddy 用數據扯開了這場“繁榮”背後的部分真相。他對 200 家 AI 公司進行了逆向工程、反編譯代碼,並追蹤 API 調用,發現許多號稱“顛覆性創新”的公司,其核心功能仍依賴第三方服務,只是在外層多套了一層“創新”的殼。市場宣傳與實際情況之間的差距令人震驚。

那麼,究竟是投資人“完全不懂”,還是 AI 初創公司“太會忽悠”?“自研”與“套殼”的界限如何而定?接下來,我們將通過 Teja Kusireddy 發佈的長文,從他的第一視角,看看他用數據揭示的最新發現與結論。

為什麼會發起“逆向工程”?

上個月,我掉進了一個意料之外的“兔子洞”,陷入了迷茫——一開始只是一個很簡單的問題,最後卻讓我開始懷疑自己對整個 AI 創業生態的一切認知。

那天是凌晨兩點,我在調試一個 webhook 集成時,偶然間發現了點不對勁的東西。

一家聲稱擁有“自主研發的深度學習基礎設施”的公司,竟然每隔幾秒就在調用 OpenAI 的 API。

而這家公司,剛剛憑著“我們構建了完全不同的 AI 技術”這一說法,從投資人那裡融到了 430 萬美元。

就在那一刻,我決定——要徹底查清這件事,到底有多複雜。

調查方法:我是怎麼做的

我不想寫一篇靠“直覺”發牢騷的熱評,我要的是數據,一個真實的數據。

於是,我開始動手搭建工具:

接下來的三週裡,我做了這些事:

從 YC、Product Hunt 和 LinkedIn 的“我們在招聘”帖子中,爬取了 200 家 AI 初創公司的官網;

  • 監控它們 60 秒的網絡流量會話;
  • 反編譯並分析了它們的 JavaScript 打包文件;
  • 將捕獲到的 API 調用與已知服務的指紋庫進行比對;
  • 最後,把它們在營銷頁面上吹的牛,與實際的技術實現一一對照。

我特意排除了成立未滿 6 個月的公司(那些團隊還在摸索階段),重點關注那些已經拿到外部融資、並公開宣稱有“獨家技術”的初創公司。

得到了讓我愣住的數據

結果顯示——73% 的公司,其宣稱的技術與真實實現之間存在顯著落差。

200 家的 AI 初創公司可以分為以下幾類:

但真正讓我震驚的,不只是這個數字。更讓我意外的是——我甚至沒有因此生氣。

接下來,進行逐步拆解,可以分為三種模式。

模式 1:所謂“自研模型”,其實只是 GPT-4 加了點額外操作

每次看到“我們自研的大語言模型”這種說法,我幾乎能預判下一步會發現什麼。

結果 37 次裡,有 34 次我猜對了。

技術特徵揭秘:

在我監控出站流量時,這些是明顯的“蛛絲馬跡”:

  • 用戶每次與所謂的“AI”互動時,都會向 api.openai.com 發起請求;
  • 請求頭(Request Headers)裡包含 OpenAI-Organization 標識;
  • 響應時間與完全符合 OpenAI 的 API 延遲模式(大部分查詢 150–400ms);
  • Token 使用量和 GPT-4 的計費等級一致;
  • 速率限制的指數退避(exponential backoff)也和 OpenAI 一模一樣。

真實案例曝光

有一家號稱“革命性自然語言理解引擎”的公司,經過反編譯後,我發現他們所謂的“自研 AI”就是這幾行代碼:            

就是這樣——整套所謂的“自研模型”,在他們的融資演示文稿裡出現了 23 次。

  • 沒有微調
  • 沒有自定義訓練
  • 沒有創新架構

只是給 GPT-4 下了一個“請假裝你不是 GPT-4”的系統提示而已。

實際上,這家公司的成本與定價僅是:

  • GPT-4 API:每 1K 輸入 tokens 為 0.03 美元,每 1K 輸出 tokens 為 0.06 美元
  • 平均一次查詢:約 500 輸入 tokens,300 輸出 tokens
  • 每次查詢成本:約 0.033 美元

他們對用戶的收費標準是:每次查詢 2.50 美元(或 200 次查詢每月 299 美元)

直接成本利潤率高達 75 倍!

更荒誕的是……我竟然發現有三家不同公司的代碼幾乎完全一樣:

  • 變量名一模一樣
  • 註釋風格一模一樣
  • “永遠別提 OpenAI” 的指令也完全一致

所以,我推斷,這幾家公司要麼是:

  • 抄自同一個教程
  • 找了同一個外包工程師
  • 用了同一個創業加速器的模板

還有一家公司額外加了所謂的“創新功能”:

他們在給投資人演示的文稿裡,把這個功能稱之為“智能回退架構(Intelligent Fallback Architecture)”。

在這裡,我個人認為——包裝 OpenAI 的 API 本身沒有什麼問題,問題在於這些企業把它叫作“自研模型”,背地裡卻只是個 API + 自定義系統提示。

這就好比:買了一輛特斯拉,換個徽標,就說自己發明了“專屬電動車技術”。

模式 2:人人都在做的 RAG 架構(卻沒人承認)

相比第一種模式,這一類更微妙一些。RAG(Retrieval-Augmented Generation,檢索增強生成)本身確實有用,但很多 AI 初創公司的營銷宣傳和實際實現之間的差距更為巨大。

他們吹噓,聲稱自己研發了——“先進的神經檢索 + 自研嵌入模型 + 語義搜索基礎設施....”

實際上,他們擁有的是:

我發現有 42 家公司使用了幾乎一模一樣的技術棧:

  • 嵌入模型用的是 OpenAI 的 text-embedding-ada-002(而不是“我們的自研嵌入模型”);
  • 向量存儲用的是 Pinecone 或 Weaviate(而不是“我們的專有向量數據庫”);
  • 文本生成用的是 GPT-4(而不是“我們訓練的模型”)。

實際代碼長這樣:

這並不是說技術不好——RAG 確實有效。但把它稱作 “自研 AI 基礎設施”,就像把你的 WordPress 網站叫做 “定製內容管理架構” 一樣荒誕。

再來算筆賬,這家公司的實際成本(每次查詢):

  • OpenAI 嵌入模型:每 1 K tokens 為 0.0001 美元
  • Pinecone 查詢:每次 0.00004 美元
  • GPT-4 生成:每 1K tokens 為 0.03 美元
  • 總成本:約 0.002 美元/次查詢

而用戶實際支付的價格:0.50–2.00 美元/次查詢

API 成本利潤率高達 250–1000 倍!

我發現 12 家公司代碼結構完全一樣,另外 23 家公司相似度超過 90%。

唯一的差別只是變量名,以及使用 Pinecone 還是 Weaviate。

  • 有家公司添加了 Redis 緩存,並吹成 “優化引擎”
  • 另一家公司加了重試邏輯,還把它註冊商標,叫 “智能故障恢復系統”

一個典型初創公司每月運行 100 萬次查詢的經濟情況:

成本:

  • OpenAI 嵌入模型:約 100 美元
  • Pinecone 託管:約 40 美元
  • GPT-4 生成:約 30,000 美元
  • 總成本:約 30,140 美元/月

收入: 150,000–500,000 美元/月

毛利率:80–94%

這算是糟糕的生意嗎?不是,毛利率非常可觀。

但它是 “自研 AI” 嗎?也不是。

模式 3:所謂“我們微調了自己的模型”,實際上……

微調聽起來很厲害,而且在某些情況下確實有用。但我發現的情況是這樣的:

正從零訓練模型的公司只佔 7%。敬佩!他們的基礎設施我都看到了:

  • AWS SageMaker 或 Google Vertex AI 的訓練任務
  • 將訓練好的模型文件(模型產物)存儲在 S3 桶中。
  • 自定義推理端點
  • GPU 實例監控

其餘大多數公司只是使用 OpenAI 的微調 API,本質上就是——付錢給 OpenAI,把自己的 prompt 和示例保存到他們的系統裡。

30 秒教你識別“套殼公司”

如果你想知道我說的是真是假,其實根本不需要我花三週調查,這裡有快速識別方法:

現象 1:網絡流量

打開 DevTools(F12),切換到 Network 標籤頁,然後與其 AI 功能交互。如果你看到這些請求:

  • api.openai.com
  • api.anthropic.com
  • api.cohere.ai

那你看到的就是「套殼公司」。他們可能加了一層中間件,但 AI 並不屬於他們。

現象 2:響應時間模式

OpenAI 的 API 有一個獨特的延遲特徵。如果每次響應都在 200–350ms 之間,那就基本可以確定是 OpenAI 的服務。

現象 3:JavaScript 打包文件

打開網頁源碼,搜索以下關鍵詞:

我發現 12 家公司把 API Key 留在前端代碼裡。我都舉報了,但沒有一家回應。

現象 4:營銷語言矩陣

規律很明顯:

  • 具體技術術語 = 可能是真的
  • 模糊的營銷詞 = 很可能在掩飾

如果他們只會用“先進 AI”、“智能引擎”之類的模糊詞,而沒有具體技術細節,通常意味著背後有貓膩。

基礎設施的真實情況

實際上,AI 初創公司的技術格局大致如下:

為什麼這真的很重要?

你可能在想:“管它呢?能用就行。”

你說的部分確實沒錯,但事情比表面更重要:

  • 對投資人來說:你在資助的是 prompt engineering,而不是 AI 研究。估值得調整。
  • 對客戶來說:你支付的是 API 成本加高額溢價。事實上,你可能一個週末就能搭出同樣的東西。
  • 對開發者來說:門檻比你想象的低。那個你羨慕的“AI 初創公司”?它的核心技術,你可能在黑客松裡就能做出來。
  • 對整個生態來說:當 73% 的“AI 公司”都在誇大或誤導自己的技術實力,我們已經處在泡沫狀態了。

套殼模式(因為並非所有套殼都是壞事)

聰明的套殼公司並沒有撒謊,它們在做的其實是:

  • 特定領域的工作流
  • 更優的用戶體驗
  • 巧妙的模型編排
  • 有價值的數據管道

它們只是底層使用了 OpenAI,這沒有問題。

那 27% 做對了的公司

讓我來重點介紹那些誠實做事的公司:

第一類:透明套殼公司

首頁直接寫著 “Built on GPT-4”。它們賣的是工作流,而不是 AI 本身。案例包括:

  • 法律文檔自動化(GPT-4 + 法律模板)
  • 客服路由系統(Claude + 行業知識)
  • 內容工作流(多模型 + 人工審核)

第二類:真正的構建者

這些公司實際在訓練模型:

  • 醫療 AI(HIPAA 合規的自託管模型)
  • 金融分析(定製風險模型)
  • 工業自動化(專用計算機視覺模型)

第三類:創新者

在現有基礎上構建真正新技術的公司:

  • 多模型投票系統,提高準確性
  • 帶記憶的自定義智能體框架
  • 新型檢索架構

這些公司會在宣傳時候詳細講解它們的架構,因為他們真的自己做了。

我學到了什麼(以及你應該知道的)

經過三週對 AI 初創公司的逆向工程,我總結出以下幾點:

  • 技術棧本身沒那麼重要,關鍵是解決的問題。我發現的一些最棒的產品,“只是”套了層殼。它們有出色的用戶體驗、解決了真實問題,並且對自己的方式很誠實。
  • 但誠實很重要。一個聰明的套殼公司和一個欺詐公司之間的差別,就是透明度。
  • AI 熱潮正在創造錯誤的激勵。創始人感到壓力,被迫宣稱“自研 AI”,因為投資人和客戶都期望如此。這種狀況需要改變。
  • 基於 API 構建並不可恥。每個 iPhone 應用都是“封裝 iOS API”的產物,我們不在意。我們關心的是它能不能用。

真正的考驗:你能自己做出來嗎?

我的評估框架如下:

  • 如果你在 48 小時內能復刻他們的核心技術,他們就是套殼公司。
  • 如果他們對這一點很誠實,那沒問題。
  • 如果他們撒謊——趕緊遠離。

我的實際建議

對創始人:

  • 誠實說明你的技術棧
  • 在用戶體驗、數據和行業知識上競爭
  • 不要聲稱做了你沒有做過的事
  • “Built with GPT-4” 並不是弱點

對投資人:

  • 要求查看架構圖
  • 索取 API 賬單(OpenAI 發票不會騙人)
  • 合理評估套殼公司
  • 獎勵透明度

對客戶:

  • 檢查網絡流量(Network Tab)
  • 詢問基礎設施細節
  • 不要為 API 調用支付 10 倍溢價
  • 根據效果,而不是技術宣傳來評估

那件沒人敢明說的事

大多數所謂的“AI 初創公司”,其實是靠 API 成本而不是員工成本運作的服務型公司。

這沒什麼問題。

但就該叫它本來的名字。

接下來會發生什麼?

AI 套殼時代是不可避免的。我們在其他領域經歷過同樣的週期:

  • 雲基礎設施(每個創業公司都聲稱“自建數據中心”)
  • 移動應用(人人都說自己是“原生”,其實是混合開發)
  • 區塊鏈(每家公司都在“基於區塊鏈”開發)

最終,市場會成熟。踏實的開發者會勝出,騙子會被揭穿。

而現在,我們正處在混亂的中間階段。

最後的思考

在逆向分析了 200 家 AI 初創公司後,我反而對這個領域更樂觀,而不是更失望。

  • 那 27% 真正在做技術研發的公司,做得非常出色。
  • 聰明的套殼公司也在解決真正的問題。
  • 即便一些存在誤導的公司,也有不錯的產品,只是營銷需要調整。

但我們需要讓關於 AI 基礎設施的誠實成為常態。使用 OpenAI 的 API 並不意味著你就不是開發者。撒謊才會讓你失去可信度。

做酷產品,解決真實問題,使用任何有效的工具。只是別把你的 prompt 工程吹成“專有神經網絡架構”。

調查以來的心路歷程

在博客文章的最後,Teja Kusireddy 也分享了他開始調查後的情況:

  • 第 1 周:原以為大約 20–30% 的公司使用第三方 API,但還是太天真了。
  • 第 2 周:有創始人聯繫他,問“怎麼進入了他們的生產環境”。其實,Teja Kusireddy 根本沒進去,他看到的一切都在瀏覽器網絡面板裡,這些企業只是沒想到有人會看。
  • 第 3 周:有兩家公司要求 Teja Kusireddy 撤掉髮現內容。
  • 昨天:一位 VC 問他是否可以在下一次董事會前審查他們的投資組合公司,Teja Kusireddy 答應了。

Teja Kusireddy 表示,他後面會在 GitHub 上公開分享調查的方法論、完整的爬取基礎設施、API 指紋識別技術、可立即運行的檢測腳本以及各大 AI API 的響應時間模式等等。

在三週裡,Teja Kusireddy 稱自己學到的唯一結論是:市場最終會獎勵透明,哪怕一開始可能懲罰它。他還透露,自己這篇內容發佈之後:

有 7 位創始人私下聯繫了他,有的防禦,有的感激。

三家公司請求幫忙,把營銷從“專有 AI”轉成“基於頂級 API 開發”。

一位創始人告訴他:“我知道我們在撒謊,投資人希望這樣,大家都這麼做。我們該怎麼停?”

“AI 的淘金熱不會結束,但誠實時代必須開始,”Teja Kusireddy 說道,“如果你感興趣,可以打開你的 DevTools,查看網絡面板,自己驗證。真相,就在 F12 之下。”

來源:https://pub.towardsai.net/i-reverse-engineered-200-ai-startups-73-are-lying-a8610acab0d3

本文來自微信公眾號“CSDN”,作者:Teja Kusireddy,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論