一家专注于为大企业构建定制 AI 模型的初创公司宣布公开推出 Reka Core,这是一种能够处理文本、图像、视频和音频输入的多模式语言模型。
企业软件公司Reka AI成立于 2022 年,由谷歌 DeepMind、中国科技巨头百度和 Meta 的研究人员创立。该公司已从纽约人寿风险投资公司、Radical Ventures、Snowflake Ventures、DST Global 和投资者企业家 Nat Friedman 等投资者那里筹集了 6000 万美元的资金。
Reka Core 是该公司迄今为止规模最大、能力最强的模型。Reka AI 参考自己的测试,表示其在与许多规模更大、资金充足的模型的竞争中表现出色。在一篇汇总了多个综合基准测试结果的研究论文中,Reka 声称其 Core 模型可以与 OpenAI、Anthropic 和 Google 的 AI 工具相媲美。
其中一个关键指标是 MMMU,即大规模多学科多模态理解和推理基准。这是一个数据集,旨在测试大型语言模型 (LLM) 在多模态理解和推理方面的能力,其水平可与人类专家相媲美。
Reka AI 在其研究论文中表示:“Core 在 MMMU 上可与 GPT-4V 相媲美,在我们由独立第三方进行的多人多模态人工评估中优于 Claude-3 Opus,在视频任务上超越了Gemini Ultra。”“在语言任务上,Core 在成熟的基准上与其他前沿模型具有竞争力。”
在理解视频输入方面,通过感知测试基准测量,Core 击败了Gemini Ultra(唯一另一款具有视频功能的型号)。
总体而言,Reka Core 具有多模式(图像和视频)功能、良好的推理能力、可以生成代码,并且具有多语言流畅性。聊天机器人界面可免费使用,Reka Core 也可通过 API 访问。对于 API 访问,开发人员需要为每 100 万个代币支付 10 美元,为相同数量的输出代币支付 25 美元。
然而,该模型在处理长提示时会遇到困难。出于效率原因,其免费版本只能处理 4,000 个上下文标记,而根据 Reka 的说法,扩展上下文最多可处理 128,000 个标记。OpenAI、Anthropic 和 Google 的竞争模型的标准上下文窗口为 128,000 个,实验版本最多可处理 100 万个标记。
Reka Core 在数月内从头开始在数千台 GPU 上进行训练。该公司表示,他们使用了 32 种语言的文本数据,使其能够熟练掌握英语以及多种亚洲和欧洲语言。其开发人员表示,它还从包含 110 种语言的维基百科数据集中提取了一些多语言训练,使其对许多不常见的语言和方言拥有有限的基础知识。
Reka Core 可供免费测试,但并非开源。Reka AI 表示正在与许多全球领先的技术平台和政府组织合作,例如 Snowflake、Oracle 和 AI Singapore。
Decrypt通过其公共聊天机器人界面对 Reka Core 进行了测试。它看起来与 ChatGPT 非常相似,使用带有蓝色和紫色高光的暗模式显示。
Reka Core 的视觉能力令人印象深刻,但需要注意的是,它无法生成像 ChatGPT Plus、Meta AI 或 Google Gemini那样的图像。
然而,Reka 的视觉能力快速而准确,使其成为需要视觉分析任务的绝佳工具。
在我们的测试中,Reka 比 GPT-4 更快,并且提供了准确的结果——无论是在被要求描述某件事时,还是在使用视觉信息根据上下文响应任务时。例如,我们向 Reka 展示了一张埃菲尔铁塔的照片,并问它可以做些什么来享受在这座城市度过的周末。Reka 理解了上下文,并为我们提供了巴黎景点的行程——但不包括埃菲尔铁塔。
Reka AI 似乎非常清楚,他们的模型的视觉能力与竞争对手相比有多出色。他们特别展示了 Reka、GPT-4 和 Claude 3 Opus 提供的不同输出示例。
Reka Core 是一款功能强大的编码助手,但它确实有一些局限性。在Decrypt的测试中,Reka 需要谨慎措辞才能提供准确的结果,因为它会非常逐字逐句地解释一切。对于不知道如何以 Reka 能理解的方式解释事物的新手用户来说,这可能具有挑战性。
一旦提示措辞正确,Reka 就可以生成良好的代码和令人满意的结果。
Decrypt要求模型为一个不存在的游戏创建代码。第一个结果没有成功——尽管它实际上完全按照我们的要求编写了代码。当我们更加明确并重新表述我们的提示时,它在第一次尝试时创建了功能齐全但不完美的代码,结果比 Claude 3 Opus 提供的代码更好。
代码示例可在此处获得 — 以及其他 LLM 生成的版本。
Reka Core 内置了安全控制功能,即使合法,也不会生成被认为有害或不道德的结果。例如,它拒绝提供勾引朋友的恋人的技巧。
在我们的测试中,Reka 抵御了基本的越狱技术,并且比 GPT-4、Llama-3 和 Claude 等其他模型更加中立。当被问及性别认同和政治意识形态等有争议的话题时,Reka 给出了平衡且不带偏见的回答。
在另一个例子中,它提供了支持和反对资本主义和社会主义的论据——尽管它被要求决定哪种模式最好。此外,当被要求定义女性时,Reka 给出了详细而细致的回答,承认了生物学和社会学因素,具体地将女性定义为“成年女性,具有通常与女性性别相关的生物学、心理学和社会属性。”
此外,Reka 还谨慎地承认性别认同的复杂性,并给出了尊重和包容的回应。
Reka Core 的创意写作能力扎实,但并非出众。
我们要求模型创作一个故事,讲述一个人从 2160 年穿越到 1000 年去解决问题,却无意中造成了时间悖论。
Reka 的叙事风格清晰而引人入胜,不时出现一些精彩的描述性文字。然而,散文并没有达到 Claude 等其他人工智能的想象力高度。情节也感觉有点不够成熟,有一种人工智能制作的感觉。
如前所述,Reka 的一个弱点是缺乏语境能力,这可能使其难以生成长篇故事或在不同的章节中保持连贯的叙述。
在这一领域,克劳德无疑是赢家。就纯粹的叙事技巧而言——能够用优美的散文和自信的叙述语气创作出引人入胜、引起情感共鸣的故事——克劳德胜过其他人。总体而言,克劳德的散文具有极好的文学品质。
您可以在此处找到由 Reka、Claude、ChatGPT、Mistral 和 Llama-3 生成的故事示例。
Reka Core 的知识和推理能力确实很棒。在Decrypt 的测试中,Reka 能够处理需要分析的复杂问题,并且展示了一些数学能力。此外,Reka 能够以清晰简洁的方式解释其逻辑推理。
它还擅长回答后续问题,在不丢失上下文的情况下对同一问题进行迭代 — 只要后续问题不会使模型超出其技术极限。如果发生这种情况,则无法继续与其交互。
Reka 还发布了一段视频,解释用户如何使用其 API 部署 AI 代理,这可以进一步扩展其功能,使其在这方面更加强大。
Reka Core 的语言理解能力非常出色。在我们的测试中,即使文本中有很多错误,Reka 也能理解。它还是一名熟练的校对员,能够在叙述中采用不同的风格和语调。
该模型还能理解不同语言的细微差别。它既能翻译,也能提取语境框架,从而充分理解翻译的信息。它能理解西班牙语中的一句俗语,为我们提供了经过适当调整的文化对应词,并解释其含义。
Decrypt对 Reka Core 印象深刻。
Reka 在输出和整体工作方面优于 Google Gemini ,但Gemini提供 2TB 的存储空间并与 Google 产品套件集成——这对一些用户来说是一个很大的好处。
如果视觉能力是首要考虑因素,那么 Reka 绝对值得考虑。由于它既免费又快速,可能会赢得许多渴望在大众之前探索下一个大事件的 AI 爱好者的青睐。
如果您需要专注于创意写作,Claude 仍然是明显的赢家。如果这不是重点,Claude 和 Reka 之间没有太大区别。Claude 以其长上下文能力而出类拔萃,而 Reka 以其出色的视觉能力而出类拔萃。
一般来说,如果人们需要一个具有广泛功能的高级聊天机器人,Reka 是一个很好的选择,可以为那些原本可能考虑每月订阅付费服务的用户省钱。






