谷歌發佈其最強大的AI模型Gemini 3——以下是您需要了解的內容

本文為機器翻譯
展示原文

谷歌今天發佈了Gemini 3 Pro 的公開預覽版,稱其為該公司迄今為止功能最強大的 AI 模型。該系統可同時處理文本、圖像、音頻和視頻,並能處理多達 100 萬個上下文詞元——大致相當於 70 萬個單詞,或大約 10 部長篇小說。

預覽版可供任何人免費試用,點擊此處即可訪問。

谷歌表示,Gemini 3 Pro 在公司測試的幾乎所有基準測試中都超越了其前代產品Gemini 2.5 Pro。在學術推理測試“人類最後的考試”(Humanity's Last Exam)中, Gemini 3 Pro 的得分為 37.5%,而 2.5 Pro 的得分僅為 21.6%。在視覺推理謎題基準測試 ARC-AGI-2 中,差距進一步擴大:Gemini 3 Pro 的得分為 31.1%,而 2.5 Pro 僅為 4.9%。

當然,人工智能競賽目前面臨的真正挑戰與其說是技術上的挑戰,不如說是贏得商業市場份額的挑戰。

曾經在搜索領域看似不可戰勝的谷歌,如今已將大量市場份額拱手讓給了OpenAI。OpenAI聲稱其搜索工具ChatGPT每週擁有約8億用戶,而Gemini據報道每月擁有約6.5億用戶。谷歌尚未公佈其每週用戶數量,但肯定遠低於其每月用戶數量。

儘管如此,Gemini3號的技術成就仍然令人印象深刻。

Gemini 3 Pro 採用谷歌所謂的稀疏混合專家架構。該系統並非針對每個查詢激活超過 1 萬億個參數,而是將每個輸入路由到專門的子網絡。在任何給定時間,只有模型的一部分(即負責特定任務的專家)在運行,從而在保持性能的同時降低計算成本。

與 GPT 和 Claude 這類龐大而複雜的模型(樣樣精通,樣樣稀疏)不同,谷歌的方法更像是大型組織的運作方式。一家擁有 1000 名員工的公司不會讓每個人都參加每次會議;特定的團隊會負責處理特定的問題。Gemini 3 Pro的工作方式也是如此,它會將問題引導至合適的專家網絡。

谷歌利用網頁文檔、代碼庫、圖像、音頻文件和視頻,以及其他人工智能系統生成的合成數據來訓練模型。該公司對訓練數據進行了質量和安全過濾,刪除了色情內容、暴力內容以及任何違反兒童安全法律的內容。訓練在谷歌的張量處理單元 (Tensor Process Orchestration Unit) 上進行,使用了 JAX 和 ML Pathways 軟件。

對模型的快速測試表明,它的性能非常出色。在我們通常要求生成潛行遊戲的編碼測試中,這是第一個生成 3D 遊戲而非 2D 遊戲的模型。其他運行結果雖然也生成了 2D 版本,但所有版本都功能齊全且運行速度很快。

這種方法類似於 ChatGPT 或 Perplexity,通過分享後續問題和建議來鼓勵進一步互動,但谷歌的實現方式更加簡潔,也更有幫助。

在生成代碼的過程中,界面會提供提示,幫助用戶在後續提示中更好地理解代碼,從而引導模型生成更優質的代碼、修復錯誤並改進應用程序的邏輯、用戶界面ETC。此外,它還為用戶提供了部署代碼和編寫基於 Gemini 的應用程序的選項。

總體而言,該模型似乎特別側重於編碼任務。創造性並非其強項,但由於其擁有非常大的詞法上下文窗口,因此通過良好的系統提示和示例,可以輕鬆引導用戶。

谷歌DeepMind發佈的Gemini 3模型卡存檔版本(該文檔提供了有關模型設計、預期用途、性能和侷限性的重要信息)顯示, Gemini 3 Pro最多可以生成64,000個輸出令牌,知識截止時間為2025年1月。谷歌承認該模型可能會出現幻覺,並且偶爾會出現運行緩慢或超時的情況。

目前尚無官方模型卡。

如前所述, Google AI Studio目前為所有用戶免費提供Gemini 3 Pro。Vertex AI 和Gemini API 也支持該模型。不過, Gemini 3 Pro 尚未通過Gemini應用提供,即使是付費的Gemini Pro 用戶也無法使用。

11 月發佈的這款產品使谷歌與 Anthropic 的 Claude Sonnet 4.5、Grok 4.1 甚至 OpenAI 的 GPT-5.1 展開競爭。基準測試分數表明, Gemini 3 Pro 在推理和多模態任務方面領先,但實際性能會因使用場景而異。

谷歌通過其雲平臺分發Gemini 3 Pro,但須遵守現有的服務條款。該公司禁止將生成式人工智能用於危險活動、安全威脅、色情內容、暴力、仇恨言論和虛假信息等用途。

相关赛道:
來源
免責聲明:以上內容僅為作者觀點,不代表Followin的任何立場,不構成與Followin相關的任何投資建議。
喜歡
50
收藏
10
評論