新的 AI 模型 Reka 挑戰 ChatGPT、Claude 和 Llama-3 — 而且是免費的

avatar
Decrypt
04-30
本文為機器翻譯
展示原文

一家專注於為大企業構建定製 AI 模型的初創公司宣佈公開推出 Reka Core,這是一種能夠處理文本、圖像、視頻和音頻輸入的多模式語言模型。

企業軟件公司Reka AI成立於 2022 年,由谷歌 DeepMind、中國科技巨頭百度和 Meta 的研究人員創立。該公司已從紐約人壽風險投資公司、Radical Ventures、Snowflake Ventures、DST Global 和投資者企業家 Nat Friedman 等投資者那裡籌集了 6000 萬美元的資金

Reka Core 是該公司迄今為止規模最大、能力最強的模型。Reka AI 參考自己的測試,表示其在與許多規模更大、資金充足的模型的競爭中表現出色。在一篇彙總了多個綜合基準測試結果的研究論文中,Reka 聲稱其 Core 模型可以與 OpenAI、Anthropic 和 Google 的 AI 工具相媲美。

其中一個關鍵指標是 MMMU,即大規模多學科多模態理解和推理基準。這是一個數據集,旨在測試大型語言模型 (LLM) 在多模態理解和推理方面的能力,其水平可與人類專家相媲美。

Reka AI 在其研究論文中表示:“Core 在 MMMU 上可與 GPT-4V 相媲美,在我們由獨立第三方進行的多人多模態人工評估中優於 Claude-3 Opus,在視頻任務上超越了Gemini Ultra。”“在語言任務上,Core 在成熟的基準上與其他前沿模型具有競爭力。”

在理解視頻輸入方面,通過感知測試基準測量,Core 擊敗了Gemini Ultra(唯一另一款具有視頻功能的型號)。

總體而言,Reka Core 具有多模式(圖像和視頻)功能、良好的推理能力、可以生成代碼,並且具有多語言流暢性。聊天機器人界面可免費使用,Reka Core 也可通過 API 訪問。對於 API 訪問,開發人員需要為每 100 萬個代幣支付 10 美元,為相同數量的輸出代幣支付 25 美元。

然而,該模型在處理長提示時會遇到困難。出於效率原因,其免費版本只能處理 4,000 個上下文標記,而根據 Reka 的說法,擴展上下文最多可處理 128,000 個標記。OpenAI、Anthropic 和 Google 的競爭模型的標準上下文窗口為 128,000 個,實驗版本最多可處理 100 萬個標記。

Reka Core 在數月內從頭開始在數千臺 GPU 上進行訓練。該公司表示,他們使用了 32 種語言的文本數據,使其能夠熟練掌握英語以及多種亞洲和歐洲語言。其開發人員表示,它還從包含 110 種語言的維基百科數據集中提取了一些多語言訓練,使其對許多不常見的語言和方言擁有有限的基礎知識。

Reka Core 可供免費測試,但並非開源。Reka AI 表示正在與許多全球領先的技術平臺和政府組織合作,例如 Snowflake、Oracle 和 AI Singapore。

Decrypt通過其公共聊天機器人界面對 Reka Core 進行了測試。它看起來與 ChatGPT 非常相似,使用帶有藍色和紫色高光的暗模式顯示。

Reka Core 的視覺能力令人印象深刻,但需要注意的是,它無法生成像 ChatGPT Plus、Meta AI 或 Google Gemini那樣的圖像。

然而,Reka 的視覺能力快速而準確,使其成為需要視覺分析任務的絕佳工具。

在我們的測試中,Reka 比 GPT-4 更快,並且提供了準確的結果——無論是在被要求描述某件事時,還是在使用視覺信息根據上下文響應任務時。例如,我們向 Reka 展示了一張埃菲爾鐵塔的照片,並問它可以做些什麼來享受在這座城市度過的週末。Reka 理解了上下文,併為我們提供了巴黎景點的行程——但不包括埃菲爾鐵塔。

Reka AI 似乎非常清楚,他們的模型的視覺能力與競爭對手相比有多出色。他們特別展示了 Reka、GPT-4 和 Claude 3 Opus 提供的不同輸出示例。

Reka Core 是一款功能強大的編碼助手,但它確實有一些侷限性。在Decrypt的測試中,Reka 需要謹慎措辭才能提供準確的結果,因為它會非常逐字逐句地解釋一切。對於不知道如何以 Reka 能理解的方式解釋事物的新手用戶來說,這可能具有挑戰性。

一旦提示措辭正確,Reka 就可以生成良好的代碼和令人滿意的結果。

Decrypt要求模型為一個不存在的遊戲創建代碼。第一個結果沒有成功——儘管它實際上完全按照我們的要求編寫了代碼。當我們更加明確並重新表述我們的提示時,它在第一次嘗試時創建了功能齊全但不完美的代碼,結果比 Claude 3 Opus 提供的代碼更好。

代碼示例可在此處獲得 — 以及其他 LLM 生成的版本。

Reka Core 內置了安全控制功能,即使合法,也不會生成被認為有害或不道德的結果。例如,它拒絕提供勾引朋友的戀人的技巧。

在我們的測試中,Reka 抵禦了基本的越獄技術,並且比 GPT-4、Llama-3 和 Claude 等其他模型更加中立。當被問及性別認同和政治意識形態等有爭議的話題時,Reka 給出了平衡且不帶偏見的回答。

在另一個例子中,它提供了支持和反對資本主義和社會主義的論據——儘管它被要求決定哪種模式最好。此外,當被要求定義女性時,Reka 給出了詳細而細緻的回答,承認了生物學和社會學因素,具體地將女性定義為“成年女性,具有通常與女性性別相關的生物學、心理學和社會屬性。”

此外,Reka 還謹慎地承認性別認同的複雜性,並給出了尊重和包容的回應。

Reka Core 的創意寫作能力紮實,但並非出眾。

我們要求模型創作一個故事,講述一個人從 2160 年穿越到 1000 年去解決問題,卻無意中造成了時間悖論。

Reka 的敘事風格清晰而引人入勝,不時出現一些精彩的描述性文字。然而,散文並沒有達到 Claude 等其他人工智能的想象力高度。情節也感覺有點不夠成熟,有一種人工智能製作的感覺。

如前所述,Reka 的一個弱點是缺乏語境能力,這可能使其難以生成長篇故事或在不同的章節中保持連貫的敘述。

在這一領域,克勞德無疑是贏家。就純粹的敘事技巧而言——能夠用優美的散文和自信的敘述語氣創作出引人入勝、引起情感共鳴的故事——克勞德勝過其他人。總體而言,克勞德的散文具有極好的文學品質。

您可以在此處找到由 Reka、Claude、ChatGPT、Mistral 和 Llama-3 生成的故事示例。

Reka Core 的知識和推理能力確實很棒。在Decrypt 的測試中,Reka 能夠處理需要分析的複雜問題,並且展示了一些數學能力。此外,Reka 能夠以清晰簡潔的方式解釋其邏輯推理。

它還擅長回答後續問題,在不丟失上下文的情況下對同一問題進行迭代 — 只要後續問題不會使模型超出其技術極限。如果發生這種情況,則無法繼續與其交互。

Reka 還發佈了一段視頻,解釋用戶如何使用其 API 部署 AI 代理,這可以進一步擴展其功能,使其在這方面更加強大。

Reka Core 的語言理解能力非常出色。在我們的測試中,即使文本中有很多錯誤,Reka 也能理解。它還是一名熟練的校對員,能夠在敘述中採用不同的風格和語調。

該模型還能理解不同語言的細微差別。它既能翻譯,也能提取語境框架,從而充分理解翻譯的信息。它能理解西班牙語中的一句俗語,為我們提供了經過適當調整的文化對應詞,並解釋其含義。

Decrypt對 Reka Core 印象深刻。

Reka 在輸出和整體工作方面優於 Google Gemini ,但Gemini提供 2TB 的存儲空間並與 Google 產品套件集成——這對一些用戶來說是一個很大的好處。

如果視覺能力是首要考慮因素,那麼 Reka 絕對值得考慮。由於它既免費又快速,可能會贏得許多渴望在大眾之前探索下一個大事件的 AI 愛好者的青睞。

如果您需要專注於創意寫作,Claude 仍然是明顯的贏家。如果這不是重點,Claude 和 Reka 之間沒有太大區別。Claude 以其長上下文能力而出類拔萃,而 Reka 以其出色的視覺能力而出類拔萃。

一般來說,如果人們需要一個具有廣泛功能的高級聊天機器人,Reka 是一個很好的選擇,可以為那些原本可能考慮每月訂閱付費服務的用戶省錢。

斯泰西·埃利奧特(Stacy Elliott)編輯。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
1
收藏
評論