GPT-4.1 偷摸開測?神秘模型登頂編程榜,社區細扒指向 OpenAI,網友:營銷鬼才又來了

avatar
36氪
04-11

近日,一款名為“Quasar Alpha”、不知來源的神秘 AI 模型悄然上線,並迅速成為第三方平臺 OpenRouter(一個提供統一接口訪問多種 AI 語言模型的服務平臺)上使用率排名第一的計算機編程類 AI 模型(基於連續數天的 token 消費量),甚至被評價“比現在出現的任何模型都要好”。更令人驚訝的是,多位模型體驗者及業內研究人員從種種技術細節中發現,Quasar Alpha 很可能是 OpenAI 的新版本模型。

體驗地址:https://www.quasar-alpha.org/

據瞭解,Quasar Alpha 在幾天前被推出,其擁有 100 萬 token 上下文窗口、能處理超長文本和複雜文檔,代碼生成能力出色、指令遵循能力強,支持聯網功能和多模態功能,且完全免費提供使用。並且,在 Quasar Alpha 在 AI 社區引發熱烈討論後,另一款神秘模型 Optimus Alpha 又在昨日被推出,同樣是免費開放的,再度點燃大家的關注熱情。

目前所公開的信息 

根據公開的項目公告,Quasar Alpha 是一個向社區提供的經過偽裝處理的通用模型,目的是收集反饋意見。該模型的所有提示和生成內容都會由提供者記錄下來,且可能會被用於改進該模型。

項目地址:https://openrouter.ai/openrouter/quasar-alpha

Quasar Alpha 的最大亮點在於其超長的上下文處理能力。100 萬 token 的上下文長度意味著該模型能夠一次性處理相當於數百頁文檔的信息量,這一特性使其在長序列任務中具備顯著優勢,尤其是在需要深度理解和複雜推理的場景中。

並且,該模型專門針對編碼任務進行了優化,能夠高效生成高質量代碼,但其設計初衷仍定位於通用型 AI 工具,適用於從文本生成到數據分析的多樣化應用。這種兼顧專業性與廣泛性的設計,正在讓 Quasar Alpha 在眾多 AI 模型中脫穎而出,各類用例持續激增。

從概覽頁面來看,該模型正在迅速獲得關注,目前已經在五大用例類別中挺進前十。根據 OpenRouter 提供的統計數據,調用 Quasar Alpha 的知名應用包括 Roo Code 與 Cline 等,二者均為依託 AI 編碼的開源 VS Code 擴展,這也表明 Quasar Alpha 算是一款穩定可靠的模型。

另一款神秘模型 Optimus Alpha 同樣具有 100 萬 token 上下文窗口和表現卓越的編碼能力。不同的是,Optimus Alpha 針對通用任務進行了優化,適用於現實世界中的各種應用場景。並且,Optimus Alpha 目前也獲得多個知名應用的調用。

項目地址:https://openrouter.ai/openrouter/optimus-alpha

值得注意的是,Optimus Alpha 為 300 多家模型及供應商提供了一個與 OpenAI 兼容的補全 API,用戶可以直接調用它,也可以使用 OpenAI 軟件開發工具包來調用。此外,還有一些第三方軟件開發工具包可供使用。

種種線索將來源指向 OpenAI 

然而,Quasar Alpha 和 Optimus Alpha 的神秘性也引發了 AI 社區的一些疑問。其具體來源至今未明,有人猜測它可能是某大型科技公司(如 OpenAI 或 Google)的實驗性項目,甚至可能是下一代旗艦模型的測試版。

X 用戶 paradite_ 注意到,Quasar Alpha 的風格與 OpenAI 目前的頂級模型 GPT-4o 非常相似,這讓人不禁懷疑 Quasar Alpha 是否出自 OpenAI,只是換了個名字而已。

並且,有許多關於 Quasar Alpha 或出自 OpenAI 之手的其他技術細節被一一披露出來,具體如下:

  • Quasar Alpha 的工具調用 ID 格式與 OpenAI 格式一致,這款新模型還在消息對象中支持“name”字段,該字段由 chat completion API 範式提供。目前只有兩家 AI 提供商支持“name”字段,分別為 xAI 與 OpenAI。
  • 在生成細節中發現的 upstream ID 與 OpenAI 生成 ID 相同。
  • 存在一些與 OpenAI 高度相似的層次聚類模式。

X 用戶 Pallav Agarwal 發佈的一張與 Quasar Alpha 聊天的截圖,也進一步顯示出 Quasar Alpha 與 OpenAI 之間的關聯。

為了進一步探究,AI 研究員 Sam Paech 針對模型輸出結果,運用了被稱為 PHYLIP 簡約法(PHYLIP pars)的生物信息學聚類工具。這種方法通過找出模型回覆內容中的細微差異,來檢驗各個模型之間的關聯。與常規聚類方法不同,PHYLIP 簡約法旨在尋找出最為簡潔的模型譜系樹。Paech 發現,Quasar Alpha 與 OpenAI 的模型極為相近,尤其是與 GPT 4.5 預覽版,並且與其他模型存在顯著差異。

另值得一提的是,據外媒昨日報道,OpenAI 將推出一系列全新 AI 模型,其中包括作為 GPT-4o 升級本的 GPT-4.1,同時還將推出出更輕量級的 GPT-4.1 mini 和 nano 版本,以滿足不同應用場景的需求。

所有這些線索似乎都強烈表明:Quasar Alpha 歸 OpenAI 所有,又或者有人正在極力模仿 OpenAI 的 API 設計。有不少網友猜測道,“ Quasar Alpha 可能是 GPT-4.1,而 Optimus Alpha 是 GPT-4.1 mini。”還有人甚至猜測,其神秘面紗背後隱藏的可能是 OpenAI 的 o4-mini-low 模型,“營銷鬼才這是又想出新招來了”。

而就在今天,OpenAI 的 CEO Sam Altman 也公開稱讚了 Quasar Alpha 模型,稱其是“非常明亮的事物”。

至於為何 AI 實驗室會選擇在沒有大規模宣傳的情況下秘密推出一款模型,有觀點認為,在不炒作的情況下於現實環境中進行測試,能夠收集到開發者真實的反饋意見,同時保持低調可以減輕滿足過高期望所帶來的壓力。秘密發佈還能夠促使這款模型與市場上的其他模型進行更為公平、客觀的比較,而不會受到營銷宣傳言論的干擾。

此外,Quasar Alpha 的“隱秘”(Stealth)標籤和預發佈狀態也讓外界對其成熟度和穩定性存有好奇。專家指出,儘管 Quasar Alpha 在編碼和長上下文任務中表現優異,但在其他通用場景下的全面性能仍需進一步驗證。

性能超越任何現有模型? 

目前的用戶反饋顯示,Quasar Alpha 表現出很強的能力,尤其是在編程和遵循指令方面。

據開源 AI 配對編程工具創建者 AiderPaul Gauthier 稱,Quasar Alpha 運行起來似乎非常快,在 Aider 多語言編碼基準測試中取得了 55% 的成績,可與 o3 - mini - medium、DeepSeek V3 以及 Claude 3.5 Sonnet 相抗衡。

X 用戶 paradite_ 在體驗 Quasar Alpha 後表示,該模型在遵循指令方面比 Claude 3.5 Sonnet 和 Gemini 2.5 Pro 出色得多,並評價:“就我默認的編碼測試提示而言,它給出了我目前為止所見過的最佳輸出結果。 ”

對於關注 AI 領域的從業者與創業者來說,“誰是最強大語言模型”無疑是個值得探究的重要問題。一位模型體驗者 Austin Starks 對 Optimus Alpha 和 Quaser Alpha 在進行一段時間的手動測試後稱,對於複雜的 SQL 查詢生成任務,OpenRouter 打造的這兩款隱秘模型在 PURE 性能和準確率方面無疑是當今市面上最強大的選項。

從公佈的數據來看,Optimus Alpha 和 Quasar Alpha 不單是完全可用,甚至遠遠超越了其他老牌經典模型。Optimus Alpha 的平均得分達到了 0.83,而 Claude 3.7 Sonnet 的平均得分僅為 0.66。至於 Gemini 2.0 Flash 和 Grok 3,它們的得分分別只有 0.717 和 0.747。此外,二者的其他指標,如成功率(即模型是否執行完成)亦位居榜首。更要命的是,這兩款模型還完全免費。

各領先AI模型在SQL查詢生成方面的性能比較

具體來講,他在測試中嘗試使用大模型處理股市變化的複雜性和噪音。圖中所示,為如何使用大模型回答“在市值超過 200 億美元的企業股票中,哪些股票的 RSI 指標最低?”等問題。其具體實現流程為:由大模型將自然語言問題轉換為數據庫查詢;對數據庫執行查詢;由另一大模型對輸出進行“評分”並確保結果合理;不斷生成查詢,直到結果準確無誤。

為了評估各模型,他使用了開源 EvaluateGPT 進行測試,通過一組共 40 道金融問題可以看到各模型的平均處理性能,結果則完全出乎意料。在這項任務中,Quaser Alpha 和 Optimus Alpha 模型的表現遠遠優於其他所有模型,Optimus Alpha 亦成為響應速度最快的模型之一。

在成本方面,Quaser Alpha 和 Optimus Alpha 的輸入和輸出均免費,而成本第二低的是 Gemini 2.0 Flash,每百萬輸入 token 的成本為 0.10 美元,每百萬輸出 token 的成本為 0.40 美元。

Starks 認為,相較於還在按 token 收費的競爭對手,這些“世外高手”般的模型卻正在重新定義零成本的可能性。雖然後續情況很可能發生變化,但這些不受限的模型當前確實可以隨意使用。

參考鏈接:

https://blog.kilocode.ai/p/quasar-alpha-what-we-know-thus-far

https://medium.com/@austin-starks/there-are-new-stealth-large-language-models-coming-out-thats-better-than-anything-i-ve-ever-seen-19396ccb18b5

https://prompt.16x.engineer/blog/quasar-alpha-openai-stealth-model

https://www.theverge.com/news/646458/openai-gpt-4-1-ai-model

本文來自微信公眾號“AI前線”,整理:華衛、核子可樂 ,36氪經授權發佈。

來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
收藏
評論