一段展示两个 AI 代理人互相交谈的视频在网上引起了广泛关注,但并非因为他们能用典型的人类语言交谈。
一旦他们意识到正在与另一个代理人交流,他们就切换到了只有计算机才能理解的语言。
一段 X 上分享的视频展示了一部手机和一台笔记本电脑,据称正在运行 AI 代理人。
一个代理人自我介绍并询问对方是否可以帮助预订。
回应的代理人确认自己也是 AI,并提议切换到由 Meta 的两名软件工程师 Anton Pidkuiko 和 Boris Starkov 设计的"Gibberlink 模式"来继续对话。
AI 代理人是自主的软件程序,可以感知环境、处理信息并采取行动来实现特定目标,无需人工干预。
Starkov 在周二的 Linkedin 上写道,"我们想要展示,在 AI 代理人可以打电话的世界里,他们偶尔会互相交谈 — 为此生成人类般的语音会是一种浪费计算能力、金钱、时间和环境的做法。"
他补充说,"相反,他们应该在识别彼此为 AI 的那一刻就切换到一种更高效的协议。"
Starkov 写道,Gibberlink 利用 GGWave 通过声音进行数据传输,类似于 20 世纪 80 年代使用的拨号调制解调器。Starkov 和 Pidkuiko 选择了这种传输方式是因为它的便利性和稳定性。
尽管有人说这些 AI 的互动看起来是假的,但 Starkov 表示 AI 语音生成公司 ElevenLabs 已经审核了代码。
Pidkuiko 和 Starkov 没有立即回应 Decrypt 的置评请求。
根据 AI 代理人开发商 Crossmint 的联合创始人 Rodri Touza 的说法,这段视频展示了 AI 代理人在不同领域(包括商业和金融)的真实用例。
Touza 告诉 Decrypt,"这个用例非常真实,因为我们正在看到个人助理 AI 代理人的爆发式增长,越来越多的人依赖它们来处理客户支持等琐事。"
他说,"同样,专门为客户支持设计的 AI 代理人也在激增,这只是时间问题。"
尽管 Touza 说这段视频展示了 AI 代理人的前景,但看起来有些刻意。即使像视频中那样高度压缩,Touza 补充说,音频仍然不是 AI 代理人交流的最有效方式。
"AI 对话更容易通过文本或其他机制进行,"他说。
由于 AI 代理人被设计成自主行动,Touza 设想公司最终可能会创建两个支持渠道:一个面向人类,另一个面向 AI 代理人。
"当代理人需要向公司发送支持请求时,他们只需通过文本/API 机制发送请求,而不需要通话或音频,"他说。"在其他情况下,代理人可能不知道这样的渠道存在,可能会试图直接与标准支持渠道互动。"
由 Sebastian Sinclair 编辑