對話 Nexa AI:兩位斯坦福95後,做出比GPT-4o快4倍的小模型,直指“端側版Hugging Face”

avatar
36氪
08-27

比OpenAI最強的GPT-4o更快,函數調用能力與GPT-4相當,同時比它小N倍,且只需要一張卡來做推理。

這是Nexa AI亮相時給大家帶來的“衝擊”。

四個月前,Nexa AI開發的5 億參數小模型Octopus v2在硅谷AI圈子引發了廣泛關注。他們開發的Functional Token技術,能實現比 GPT-4o 快 4 倍、比RAG 解決方案快 140 倍的出色推理速度,同時具備與GPT-4相當的性能,函數調用準確率高達98%以上。

上線Product Hunt當天,Octopus v2就榮獲“No.1 Product of the Day”,在Hugging Face發佈當月即累積1.2萬次下載量。並受到Hugging Face CTO Julien Chaumond、技術負責人Philipp Schmid、Figure AI創始人Brett Adcock等AI界權威人士的一致認證。

Nexa AI由兩名年輕95後斯坦福校友Alex Chen和Zack Li共同創立,目前共有8名全職員工。斯坦福大學管理科學與工程系教授、科技風險投資項目副主任Charles(Chuck) Eesley,和斯坦福大學NLP小組教授、斯隆研究員Diyi Yang擔任公司顧問。

據悉,他們已在短時間內成功簽下10餘家3C電子、汽車、網絡安全、時尚消費等領域的頭部企業客戶。服務超過1000名註冊用戶,並於前不久完成超千萬美元種子輪融資。

在Octopus v2發佈後不到一個月,Nexa AI又發佈了首個參數量小於10億卻能實現多模態能力的AI模型 Octopus v3。

在保持媲美 GPT-4V 和 GPT-4 的函數調用準確度同時,它可以在樹莓派等各種邊緣設備上高效運行,支持文本和圖像輸入,能理解中英文。後續還上新了能在不同領域知識中執行多步查詢任務的38億參數模型Octo-planner等產品。

而接下來,Nexa AI把“野心”延伸到整個端側模型的市場。

最近它推出了首個端側AI綜合開發平臺「Model Hub」。核心是一個專為本地部署設計和優化過的豐富AI模型庫。包含自研Octopus系列、Llama 3.1、Gemma 2、Stable Diffusion和Whisper等多種先進模型。適合在各種設備上高效運行,且無需互聯網連接和API費用。

搭配模型庫,Model Hub還提供了一套全面的開源 SDK,支持開發者將模型部署到本地,並可根據個人需求微調定製,更具靈活性。也有大量實用示例幫用戶快速上手,此外還建立了一個開發者社區。

也就是,一個端側模型的Hugging Face。

“我們真正要打造的是一個on-device版本的Hugging Face。”Alex Chen告訴硅星人。通過整合模型、工具、資源和社區,他們正試圖構建一個完整的端側AI生態系統。

最近硅星人也與Nexa AI的兩位聯合創始人Alex Chen和Zack Li聊了聊他們對端側AI的思考。

以下為對話實錄:

從斯坦福校園到端側小模型創業

硅星人:請Alex和Zack跟大家做個自我介紹吧。

Alex Chen:我是Alex,目前是Nexa AI的Co-founder和CEO。創建公司以前我在斯坦福大學讀博,做AI和Math相關方面的研究。我和Zack是同濟校友,已經認識大概有10年時間了,之前在很多學習和工作中都合作過。比如我倆都擔任過斯坦福華人創業者協會的主席,在那段時間做過很多創業想法的實踐,但Nexa是我們第一次正式成立一個創業公司去做。

Zack Li:我是Zack,Nexa AI的Co-founder和CTO。我從斯坦福畢業後就在業界工作,先是在 Amazon Lab126做Echo和Alexa,後面去Google做Google Assistant和Google Glass,所以積累了4年業界經驗,也是從去年開始和Alex一起做 Nexa AI。因為現在做的方向和Alex的研究、以及我自己過往工作經驗都很符合,所以我們不管是在模型訓練,還是在客戶交付、模型部署上都有比較大的優勢。

硅星人:從斯坦福校園到現在創業,特別是選擇了端側小模型方向,是怎樣一個過程?

Alex Chen:開始最早萌生創業想法,是因為我們倆都參加了斯坦福華人創業者協會。它比普通學生社團要正式很多,每年都有非常多的斯坦福校友從這個組織裡走出去,自己真正做創業。比如真格基金合夥人尹樂,之前的金沙江合夥人張予彤,還有出門問問CEO李志飛、小紅書創始人毛文超等等。我們在加入這個組織後,就會日常去認識很多創業者和投資人,也會在灣區舉辦創業活動。期間瞭解到創業的全貌大概是什麼樣子,就開始更傾向於自己去做一些事情。

這是最早的萌芽階段。隨著我們自身技術和創業理解的逐漸加深,就會去做一些side project,也剛好和這一輪生成式AI緊密相關。其實我們很早就注意到生成式AI的一些趨勢,比如最早GPT-3出來的時候,Jasper就用GPT-3的API拿到了5千萬美元revenue。於是就重點把精力放在生成式AI這一塊。最開始的思路偏應用型,意思是先不去管核心技術,就用已有的技術去做一些好產品,比如通過調用GPT-3的API或者Stable Diffusion的一些開源模型直接出產品。

但到後面我們的想法就有些轉變了,這裡面也包含了為什麼選擇做端側AI。

當時我們對整個生成式AI市場做了一個分析。首先現在應用型公司非常多,像email generation、marketing,或者AI interview這樣的application,每一個垂類都可能找到大幾百個相似的產品。它就變得非常臃腫,可能也不具備長期盈利能力,因為競爭者太多了,也沒什麼技術壁壘。

這是我們對市場的一個感知,這種非常劇烈的競爭也是促使我們改變路線的主要原因,就希望去看一些更有技術壁壘的工作。加上那個時候Zack已經做過4年 on-devise AI,積累了很深的行業見解。我們就去分析了這個領域,發現當大家追求更大的雲端模型時,其實端側有非常好的機會。

當時考慮了兩個趨勢:

首先隨著算法不斷改進,越來越多的大模型功能其實是可以通過小模型去完成的。比如GPT-3最早可能有175B參數,但現在一個7B的最新模型基本可以在很多方面追齊GPT-3。Open AI自己的模型其實也在變小,GPT-3.5據我們所知就比GPT-3要小。這個趨勢是算法的精進以及數據擠壓進一步完善之後的結果。

其次是端側算力也在不斷提升。比如說隨著電腦手機的芯片不斷進化,它們可以支持一些體積更大的模型在本地部署,所以這是兩個總趨勢。

後來我們也做了一些實際調研。今年1月份公司所有人都去拉斯維加斯參加了CES,在CES展上看到非常多本地AI模型部署實例,比如高通就已經在嘗試把模型部署在各種各樣的端側芯片上。

硅星人:所以算法精進和算力提升,讓你們覺得做小模型是有可能的。又去CES親自看到了市場態勢,最終決定把方向轉到端側AI上面。

Alex Chen:是的。

小模型就能解決99%的問題

硅星人:你們覺得scaling law現在過時了嗎?

Alex Chen:Scaling law還沒過時,我相信對大部分人來說它還是成立的。

硅星人:那跟大模型比的話,小模型的機會在哪兒?

Alex Chen:我覺得這裡問到了一個很好的問題,就是剛才提到scaling law。當我們去評估一個模型scaling law的時候,模型越大,它本身的綜合能力肯定越強。但這是一種全方位的能力提升,以MMLU指標為例,大模型可能在MMLU不同的 subject下能力都很強,比如語文、數學、英語。但實際很多情況是,你並不需要它在所有層面都很強,而是隻要在特定領域表現突出即可。我們公司會讓小模型專注於某些特定領域,比如尤其擅長數學,或尤其擅長法律,這對於數學和法律領域的人來說就已經足夠了,他不需要一個特別大的模型去完成他的問題。

另外一個點是當我們用scaling law去不斷突破模型邊界的時候,其實你要解決的那剩下1%特別難的問題,在日常生活中不一定會全部遇到。比如說我用萬億參數的GPT-4去回答“1+1=2”,這個問題用GPT-2就能回答得很好了,而它倆之間的參數可能相差幾千到1萬倍。同樣的答案可以用兩個截然相反的模型,那麼小模型就會在速度和耗電上明顯優於大模型。

總結來講,我覺得小模型的優勢是什麼?首先它速度更快、更省電。與此同時,它部署在端側基本上是完全免費的狀態,因為用本地算力就可以滿足。更重要的是它可以完全保證個人隱私。比如我們有一個很大的軟件客戶,他們的App是幫助人們處理一些ID card,包括身份證、駕照等圖片信息。這種東西就沒法通過雲端API去做,因為涉及隱私,就必須用本地模型去實現這個過程。

硅星人:怎樣才算一個好用的小模型?

Alex Chen:第一要速度快,第二要能在一些用戶關心的領域和大模型相媲美,第三是能完全、輕鬆地部署在本地,既能保證隱私成本也非常低。

Functional Token解決小模型函數調用問題,“打敗”GPT-4o

硅星人:目前NEXA整個產品框架是什麼樣的?

Zack Li:我來解答一下這個問題。首先我們的客戶有developer和大的enterprise。對於enterprise客戶,我們提供的是一個端到端的解決方案。比如以一家電商公司為例,他們給出的明確需求是,針對潛在商業合作的網紅去自動化郵件的發佈。那麼我們的模型就可以滿足這個需求,並且通過配套SDK幫他們部署,然後給到一個可以使用的產品,加入他們的工作流。不過我們的東西很通用,所以要做的定製化是比較少的。

針對developer的話,他們可以去我們的 Model Hub裡找到他們想要的模型,比如針對電商場景或旅遊場景的,然後通過我們的SDK去本地運行。我們除了支持Octopus,也支持一些比較經典和標準的開源端側模型,譬如Gemma系列、Phi系列等等。

Alex Chen:我們的適用場景就是剛才提到的,大模型目前還無法解決的那1%特別難問題以外的所有問題。比如說情感陪伴、幫你去寫email、潤色文章等,這些都可以通過一個部署在你本地的小模型完成。所有從難度係數上來說沒那麼高、但基本能滿足大家日常生活的語言模型use case,都是我們這個產品可以賦予大家去使用的東西。

除此之外我們能提供的強大功能點,也就是Octopus模型的最大亮點在於,它有很強的function calling(函數調用)能力。

硅星人:這也是接下來想問的,NEXA 的核心技術優勢是什麼?

Alex Chen:對,我們的獨特之處就是可以用一個本地部署的很小模型,去和很大模型的function calling相媲美。它能把用戶的自然語言轉換成可執行的命令。比如說你想去Amazon買一款三星手機,直接在對話框裡面輸入購買需求,它就會自動打開Amazon,並且輸入三星手機的描述,幫你節省大量圖形操作界面流程。相當於Octopus可以把很多圖形操作交互轉換成自然語言交互。

硅星人:你們論文中提出了一個創新的Functional Token概念,能解釋一下嗎?以及它是如何優化AI推理過程的?

Zack Li:過去的方法,比如基於RAG(檢索增強生成)技術,一個問題進來時,需要先從API文檔或數據庫中檢索相關信息,然後把這些信息作為上下文提供給大模型進行決策。這個過程首先檢索信息耗時,需要處理大量語義token。由於上下文窗口過長,導致推理時間非常漫長,尤其是在算力和尺寸有限的設備端,模型準確性和響應速度受到限制。

我們的解決方案是通過一個端到端的模型直接輸出。首次引入了Functional Token(功能令牌)的概念,用1個token來表徵整個函數信息,包括函數名、參數和文檔,把上下文長度減少了 95%。當用戶輸入自然語言指令時,系統能省去繁雜的檢索步驟,迅速識別任務關鍵點,觸發相應的Functional Token,從而直接生成所需輸出或執行特定的函數調用。

在輸出層,由於Functional Token代替了完整的函數表述,使得輸出基本都能控制在10個token以內,因此更為簡潔。這樣做能顯著節省計算資源和上下文空間,同時大幅提升處理速度。特別適用於移動設備或邊緣計算設備,這些需要快速響應的場景。

硅星人:實際驗證下來表現如何?

Zack Li:像GPT-4o是一個非常大的trillion級別參數量模型,用多個 GPU Cluster來做推理,但我們只是用單卡A100去做比較。即使是在這種極其不公平的硬件條件下,我們的Octopus v2模型依然比GPT-4o快4倍。

硅星人:Octopus v2當時在X反響挺強烈。我看到你們還有Octo-net, Octopus v3和Octo-planner,這些模型是各有所長還是一系列迭代?

Zack Li:v2、v3到planner是一系列迭代,其中v3有了多模態能力,planner有了多步規劃能力。Octo-net相當於一個分支,支持端雲協同。

硅星人:你們最先進的一款模型能力現在到什麼程度?

Zach Li:我們的v3模型是目前對enterprise最新的,能夠在1B參數以下支持多模態。可能國內外都有一些優秀的端側公司逐漸出現,但目前還沒有1B以下做到多模態,並且能達到我們function calling準確度的競爭對手,2B以下目前也還沒看到。

做一個“端側版本的Hugging Face”

硅星人:其實除了創業公司,很多像OpenAI、Google、Meta之類的巨頭也開始去卷小模型了,你們會有威脅感嗎?

Zack Li:當然能感覺到競爭是很激烈的。但首先我們抓住一個利器,就是端測模型裡最難的function call這件事。同時還能不斷結合Model Hub去鼓勵更多開發者加入我們,相當於走Hugging Face路線。所以即使現在端側模型已經逐漸開始內捲了,我們做好模型,同時也做好平臺,讓更多的開發者去使用這些模型,這就是我們的一個differentiation。

Alex Chen:其實我們真正要打造的是一個on-device版本的Hugging Face。Hugging Face是一個給雲端開發者提供的AI研究社區,它有非常多基於Python還有英偉達GPU的模型搜尋和使用框架,但這些都是為服務器端的開發者提供的。我們的不同之處是要讓模型部署在本地,那麼這些模型的文件格式、部署所需要的軟件支持都是不一樣的,比如Hugging Face用Python,我們就是C或者C++,這些是核心差異。

你看到我們會有一些軟件庫比如SDK,有自己開發的Octopus模型,還會支持像微軟、Google的一些其它小模型在本地部署。我們是這麼考慮整件事情的:其實你去看雲端的話,兩個典型比較有價值的公司是OpenAI和Hugging Face。我們其實就像一個端側的 OpenAI和Hugging Face結合體。一方面我們自己在做端測模型,另一方面也希望通過這個平臺進一步幫助大家去使用端側模型。

所以我們將來的商業模式,更多是通過維護這種on-device AI community,去給一些on-device developer提供基於訂閱的收入,另外就是針對這些開發者背後enterprise做一些企業服務。

硅星人:就是在你們平臺我不僅能用到Octopus,還可以看到許多個體developer或公司發佈的端側AI。

Zack Li:是的。平臺積累我們才剛開始,5月試水了一下,大概有1000多個developer,之後就在不斷內部打磨,為正式上線做準備。我們也希望向更多人介紹這個產品,提供測試鏈接看看大家的反饋。

正式上線的Model Hub會成為NEXA AI的主網站頁面。主要產品是一個可以讓你找到所需端側模型的平臺。之前那些research work可以展示我們的自主研發能力,也有to enterprise的入口。

Model Hub裡可以看到各家公司的端測模型。因為我們比較懂端側,所以專注於端側常用的GGUF、ONNX這些格式。比如Meta Llama3.1-8b,我們能quantize成不同精度,像int4、int8。這種壓縮過的模型專門適用於端側運行,不像Pytorch、Python在雲端環境下運行。

消費級GPU的RAM最多24G,開發者不可能在本地運行原尺寸模型。我們可以幫發佈者去做批量的壓縮量化。然後我們還有 SDK工具,可以讓用戶輕鬆在自己筆記本電腦或手機上使用各種模態的模型,也提供UI展示,完全靠本地算力並且速度很快。

就像Hugging Face,它火是火在有 transformers包。你不光能在這裡找模型,還能運行,然後再做二次開發。這才是它能留住用戶的核心,對不對?我們其實就是把這個東西給做出來了。

創業就是要靠產品說話

硅星人:下一個問題可能前面也聊到了。現在投資人都會問why you,那對你們自己來說,讓目標客戶選擇NEXA而不是別家競爭對手,這個自信的點是什麼?

Zack Li:自信的點第一個是模型優勢,我們模型的function calling準確度非常高,同時尺寸很輕。第二個是部署優勢,我們可以針對用戶不同的硬件需求、操作平臺、內存和開銷去定製化不同的加速方案。也就是我們不光模型比別人好,還有框架可以支持他們去更好地部署這個模型。

硅星人:這些優勢在面對OpenAI或Google時成立嗎?

Zack Li:我覺得OpenAI很長一段時間不會直接去觸碰端測模型這個領域,它的GPT-4o mini依然是一個雲端模型。Google有可能去做,當然Google有人才和設備優勢,還有自己的生態。但你很難想象它會去顧及安卓生態之外,尤其在端側硬件這一塊,除了他自己Pixel生態之外的客戶,更不會去做像Model Hub這樣的事情。

硅星人:可否分享一下最新產品進展和接下來的優化方向?

Zack Li:除了前面說的 Model Hub和 SDK,我們後續還有一系列的 research work,支持長文本處理的壓縮模型也正在開發中。後續我們會做好不同場景的服務,其實端側有很多場景,function call是一個場景,還有其它像question answering能力、多模態能力比如圖理解、音頻處理等等,這些方向都是會重點關注的。

硅星人:作為一家端側AI初創公司,你們的挑戰來自哪些方面?

Zack Li:包括但不限於一些大廠吧。他們可以去做自己的端模型,尤其具備trillion級大模型開發能力的話,就可以複用很多經驗,通過蒸餾或剪枝這樣的方式。但我們在做端模型這件事上是有自己獨特insights以及對這個領域的理解的,所以我覺得各有千秋。

再就是現有已有的一些社區player。Hugging Face就是一個很好的例子, 它要做端測的話對我們也會是一個挑戰。但目前看來,Hugging Face的整個生態,包括過去所有架構都是雲架構,服務也都是雲服務。所以我覺得它要做轉型必然是會比較痛苦的。如果當一個project去做,它的momentum和速度也不會那麼快。

硅星人:你們把端側模型和社區結合在一起,佈局市場是比較早的。有沒有做一些線下開發者活動推廣?

Zack Li:我和Alex現在需要做大量的模型開發訓練和一些infra相關工作,活動由我們產品和marketing 同學負責,包括這些年在灣區也積累了很多資源。8月25號Nexa要和 Hugging Face、StartX、Stanford Research Park 、Groq、AgentOps在斯坦福聯合舉辦一場Hackathon,是我們第一次做線下,歡迎來看看。

Nexa AI主辦的Super AI Agent Hackathon現場。圖源:NEXA AI

硅星人:最後兩個小問題,在硅谷這麼多年,有沒有很欣賞的公司或人?

Zack Li:我還是比較喜歡Elon Musk。他有一句話是“Tough and Calm” ,就是對事情要求高,並且能在巨大困難面前保持冷靜,我自己也在朝這個方向去努力提高自己吧。然後你想,他能同時handle這麼多公司,每家公司在面對不同挑戰時又都有一定的方法去解決。我覺得他有很長遠的視野和很強的執行力。

但如果更接地氣一點,其實我更喜歡雷軍。因為我自己是湖北人,雷軍是湖北仙桃人。他非常勤奮、有親和力,並且能夠hands-on去思考很多問題,身上有很典型的開發者氣質。不管作為高管、投資人還是創業者都非常優秀。

硅星人:創業到現在,最大的感觸是什麼?

Zack Li:我覺得創業這件事情還是產品說話。市場會給我最公正公平的反饋,所以get things done是最重要的。要有長遠的目標,同時堅持去做難而正確的事情。比如公司最開始的一些工作可能非常偏產品,沒有做很多底層創新。直到現在能突然有這麼大一個流量和勢頭,根本原因還是我們在端側模型底層上的優化,提出了一個前所未有的訓練方法,自己發paper申請專利保護。如果沒有這些技術,是不可能脫穎而出、取得現在這樣影響力的。所謂的套殼公司,我深刻感受到,幾乎沒有辦法殺出重圍,除非你在產品上有極強的洞見。

硅星人:那你覺得Perplexity這家公司屬於哪種?

Zack Li:它就是在產品上有極強的洞見。

*Nexa AI的最新端側AI模型社區Mobile Hub已於8月22日上線官網,直達鏈接:https://www.nexaai.com/models

本文來自微信公眾號“硅星人Pro”,作者:Jessica,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論