前 OpenAI CTO Mira 的公司 Thinking Machines 發了一個非常創新的模型,他們叫交互模型。 這個模型能夠持續接收音頻、視頻、文本等原生的多模態內容,並且實時進行思考、響應和行動。 它不像之前那種 Agent 腳手架,把多個模型、多個模態的模型通過 Agent 串起來,而是所有模態都在一整個模型裡。 這樣就可以讓用戶和 AI 在任意模態下實時進行交互: 你可以隨時打斷它,隨時進行補充,AI 會實時關注你的狀態,輸出結果,不會像之前一樣,必須等一句話結束了才能跟模型交互。 核心思路就是把交互部分訓練到了模型裡。他們從零訓練的這個交互模型主要包括兩部分: 前臺交互模型: (a) 一直在線,一直在聽、看和讀用戶提供的內容 (b) 每 200 毫秒作為一個節點,同時處理輸入併產出一小段輸出 (c) 負責照顧用戶的在場感,支持用戶打斷、插話,並能對屏幕和視頻內容做出反應 後臺推理模型: (a) 用來處理需要持續推理、工具調用以及長上下文、長規劃的任務 (b) 交互模型會在合適的時候,將推理模型的結果放回到對話裡,不會插入突兀的內容 用戶最終看到的結果,就是一個既能實時交互,又能夠處理重度任務的界面。

Thinking Machines
@thinkymachines
05-12
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way. We share our approach, early results, and a quick look at our model in action. https://thinkingmachines.ai/blog/interaction-models…
來自推特
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論