現有的SOTA級別大語言模型固然擁有較強智能,在部分任務上達到或超過了人類的水準,但他們的參數尺寸動輒達到數千億甚至萬億,無論是訓練,部署,還是推理,都成本高昂。對於企業和開發者來說,這些SOTA模型在一些相對簡單,但需要大規模和高併發的任務上,未必是綜合成本及性能的最優選擇。
一家叫Fastino的早期初創公司看到了這個痛點,使用低端遊戲GPU,以平均不到10萬美元的成本,訓練出一系列稱為“任務特定語言模型”(TLMs,Task-Specific Language Models)的小型模型,能夠在特定任務上性能媲美大型語言模型,並且推理速度快99倍。
近日,Fastino獲得由Khosla Ventures領投的1750萬美元種子輪融資,Insight Partners,Valor Equity Partners,以及知名天使投資人前Docker首席執行官Scott Johnston和Weights & Biases首席執行官Lukas Biewald參與。在2024年11月,Fastino獲得M12(微軟旗下)和Insight Partners領投的700萬美元前種子輪融資,累計融資近2500萬美元。
連續創業者用小模型,幫企業擺脫用戶越多,燒錢越多的窘境
Fastino由Ash Lewis(CEO)和George Hurn-Maloney(COO)共同創立,兩人都是連續創業者,尤其Ash Lewis此前還參與創立過DevGPT、Ashtv AI等AI原生公司。
他們也組織了一個成員來自谷歌DeepMind、斯坦福大學、卡內基梅隆大學及蘋果智能的強大技術團隊。可以從底層技術上去革新模型,從而訓練出“任務特定語言模型”(TLM)。
10萬美元成本訓練的TLM模型,性能不弱,推理速度比LLM快99倍
在Scaling Law的指導下,AI模型們都變得越來越大,數千億,上萬億參數的SOTA模型們,確實在智能上持續進步,甚至在某些初級任務上代替了人力(客服,會議記錄等)。但是大尺寸的模型們,同時帶來的是高成本,無論是數千萬美元的訓練成本,還是高昂的部署和推理成本,都讓它們在一些任務中,經濟性不那麼突出。
即便是OpenAI這樣融資上百億美元的頭部基礎模型公司,已經獲得了接近10億的周活用戶,卻難逃用戶越多,燒錢越多,入不敷出的窘境。
Fastino的創始人Ash Lewis在談及創業初衷時也表示:“我們上一家創業公司在爆紅後,基礎設施成本飆升。有段時間,我們在語言模型上的開支甚至超過了整個團隊的費用。這促使我們創立了這家公司。”
除了模型尺寸帶來的高昂運行成本之外,另一個矛盾是模型的通用性和專用性,大尺寸的模型固然帶來了強智力和通用性,但是對於開發者來說,在一些特定專用任務上性能卻不一定突出,還要為通用性帶來的大尺寸額外付出成本,而且大尺寸模型更慢的運行速度,也讓用戶體驗更差。目前的AI工作負載大多要求精準、速度和可擴展性,而非泛化的推理能力。
Fastino的聯合創始人George Hurn-Maloney表示:“AI開發者不需要一個在無數無關數據點上訓練的大語言模型,他們需要適合其任務的正確模型。所以我們推出了高精度、輕量化的模型,讓開發者能無縫集成。”
Fastino的“任務特定語言模型”(TLMs,Task-Specific Language Models),專為需要低延遲、高精度AI的開發者和企業設計,在定位上,不針對消費級用戶,不需要通用性。
Fastino表示,它們的TLM結合基於Transformer的注意力機制,但在架構、預訓練和後訓練階段引入任務專精。它們優先考慮緊湊性、運行時的硬件適應性,同時不犧牲任務準確性。
這種架構和技術的創新,使TLM模型能夠在低端硬件(如CPU和低端GPU)上高效運行,同時提升專注任務的準確性。性能提升源於系統性地消除參數冗餘和架構低效,而非依賴硬件特定技巧。對比OpenAI的GPT-4o的4000ms,它的延遲低至100ms,快99倍。
在性能方面,Fastino對比了TLM模型在意圖檢測、垃圾信息過濾、情感傾向分析、有害言論過濾、主題分類和大型語言模型防護等基準與OpenAI標杆模型GPT-4o的性能對比。結果顯示,其基準性能的F1分數比GPT-4o高出17%。
注:F1分數是評估分類模型性能的指標,它是精確率和召回率的調和平均數,綜合衡量模型在正確預測正例和捕捉所有正例上的表現。
Fastino的TLM模型並非單個模型,而是針對每個特性用例訓練的一組模型,它的首批模型能夠應對一些需求最明確和廣泛的企業和開發者核心任務,例如:
- 文本摘要:從長篇或嘈雜文本中生成簡潔、準確的摘要,適用於法律文件、支持日誌和研究資料。
- 函數調用(Function Calling):將用戶輸入轉化為結構化API調用,適配代理系統或工具型聊天機器人。
- 文本轉JSON:從雜亂的非結構化文本中提取乾淨、適合生產的JSON,適用於搜索查詢解析、文檔處理和合同分析。
- 個人身份信息(PII)屏蔽:以零樣本方式屏蔽敏感或個人身份信息,支持用戶定義的實體類型。
- 文本分類:為任意自然語言文本打標籤,內置垃圾信息檢測、毒性過濾、越獄阻止、意圖分類和主題檢測等功能。
- 髒話過濾:實時檢測並屏蔽不當或品牌不安全的語言。
- 信息提取:從文檔、日誌或自然語言輸入中提取結構化數據,如實體、屬性和上下文信息。
在收費模式上,儘管是針對企業而非消費者,但Fastino沒有采用目前AI模型公司主流的以用量定價(例如GPT-4o的輸入價格為2.5美元/百萬tokens,輸出價格為10美元/百萬tokens),而是採用了訂閱式,這種方式對於初級開發者和中小企業較為友好。
具體來說,它針對個人開發者,每月有1萬次免費請求,Pro用戶每月10萬次請求,僅花費45美元,而團隊用戶300萬次請求,每月1275美元。Pro用戶和團隊用戶,額外增加了一些好處,例如更快的模型速度,更安全的模型訪問,以及更大的上下文窗口等。
而能夠以這種方式針對開發者和小企業用戶提供模型,是建立在Fastino本身極低的模型運行成本之上的。
此外,對於企業客戶,Fastino的TLM可部署在客戶的虛擬私有云、本地數據中心或邊緣設備上,使企業能夠在保留敏感信息控制權的同時,利用先進的人工智能能力。
目前,Fastino的TLM已在多個行業產生影響,從金融和醫療領域的文檔解析到電子商務中的實時搜索查詢智能,更有財富500強企業正利用這些模型優化運營、提升效率。
在Scaling Law下,小模型在企業應用中,有獨特優勢
小模型低成本,低延遲,以及在特定任務上不弱於大尺寸通用模型的優點,其實並不止Fastino這一家公司發現這個機會。在模型廠商中,Cohere和Mistral都提供非常強的小尺寸模型;國內的大廠,例如阿里雲的Qwen3,也有4B,1.7B,甚至0.6B的模型。此前我們介紹過的企業獨角獸Writer,也有其僅需70萬美元訓練費用的小型模型Palmyra系列。
為什麼當大尺寸模型的智能已經強到一定程度的時候,企業和開發者還是需要小模型?根源就在於成本,推理時延,能力匹配。
成本,首先最直觀的是部署成本和推理成本,企業若追求高安全性,必然會將一部分業務放在私有部署,而數千億參數的大尺寸模型進行大規模商業化推理的成本可能都超過小模型的訓練成本。而且,如果是抖音,微信這樣用戶體量上10億的應用,必須追求高併發,小模型的高併發推理和大尺寸模型的高併發推理成本,其差距是指數級的。
同樣以大型C端應用舉例,當使用大尺寸模型時,其推理時延就是比小模型高很多,小模型甚至能將時延做到微秒級,而大尺寸模型用起來總有卡頓,這對於用戶體驗的影響也是非常直觀的。
對於一些應用規模大,但是比較特定的用例,其實並不需要通用能力,大尺寸和小尺寸模型帶來的性能差距微乎其微,那麼大尺寸模型帶來的額外成本對於企業來說就是不必要的。
以上這三個方面,都在Scaling Law的籠罩下,給了小尺寸模型足夠的生存空間。這個道理,對於中國的AI應用創業者們當然也同樣適用。好在中國的模型開源生態已經日漸成熟,也已經有了足夠強的小尺寸模型,創業者只需在自己的需求基礎上進行後訓練,就可以獲得合用的模型。
本文來自微信公眾號“阿爾法公社”(ID:alphastartups),作者:發現非凡創業者的,36氪經授權發佈。




