avatar
歸藏(guizang.ai)
90,871个推特粉丝
关注
关注人工智能、LLM 、 AI 图像视频和设计(Interested in AI, LLM, Stable Diffusion, and design) AIGC 周刊主理人|公众号:歸藏的AI工具箱
动态
avatar
歸藏(guizang.ai)
前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型,他们叫交互模型。 这个模型能够持续接收音频、视频、文本等原生的多模态内容,并且实时进行思考、响应和行动。 它不像之前那种 Agent 脚手架,把多个模型、多个模态的模型通过 Agent 串起来,而是所有模态都在一整个模型里。 这样就可以让用户和 AI 在任意模态下实时进行交互: 你可以随时打断它,随时进行补充,AI 会实时关注你的状态,输出结果,不会像之前一样,必须等一句话结束了才能跟模型交互。 核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分: 前台交互模型: (a) 一直在线,一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点,同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感,支持用户打断、插话,并能对屏幕和视频内容做出反应 后台推理模型: (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候,将推理模型的结果放回到对话里,不会插入突兀的内容 用户最终看到的结果,就是一个既能实时交互,又能够处理重度任务的界面。
Thinking Machines
@thinkymachines
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way. We share our approach, early results, and a quick look at our model in action. https://thinkingmachines.ai/blog/interaction-models…
loading indicator
Loading..