谷歌發佈其最強大的AI模型Gemini 3——以下是您需要了解的內容

11-19

本文為機器翻譯

展示原文

谷歌今天發佈了Gemini 3 Pro 的公開預覽版，稱其為該公司迄今為止功能最強大的 AI 模型。該系統可同時處理文本、圖像、音頻和視頻，並能處理多達 100 萬個上下文詞元——大致相當於 70 萬個單詞，或大約 10 部長篇小說。

預覽版可供任何人免費試用，點擊此處即可訪問。

谷歌表示，Gemini 3 Pro 在公司測試的幾乎所有基準測試中都超越了其前代產品Gemini 2.5 Pro。在學術推理測試“人類最後的考試”（Humanity's Last Exam）中， Gemini 3 Pro 的得分為 37.5%，而 2.5 Pro 的得分僅為 21.6%。在視覺推理謎題基準測試 ARC-AGI-2 中，差距進一步擴大：Gemini 3 Pro 的得分為 31.1%，而 2.5 Pro 僅為 4.9%。

當然，人工智能競賽目前面臨的真正挑戰與其說是技術上的挑戰，不如說是贏得商業市場份額的挑戰。

曾經在搜索領域看似不可戰勝的谷歌，如今已將大量市場份額拱手讓給了OpenAI。OpenAI聲稱其搜索工具ChatGPT每週擁有約8億用戶，而Gemini據報道每月擁有約6.5億用戶。谷歌尚未公佈其每週用戶數量，但肯定遠低於其每月用戶數量。

儘管如此，Gemini3號的技術成就仍然令人印象深刻。

Gemini 3 Pro 採用谷歌所謂的稀疏混合專家架構。該系統並非針對每個查詢激活超過 1 萬億個參數，而是將每個輸入路由到專門的子網絡。在任何給定時間，只有模型的一部分（即負責特定任務的專家）在運行，從而在保持性能的同時降低計算成本。

與 GPT 和 Claude 這類龐大而複雜的模型（樣樣精通，樣樣稀疏）不同，谷歌的方法更像是大型組織的運作方式。一家擁有 1000 名員工的公司不會讓每個人都參加每次會議；特定的團隊會負責處理特定的問題。Gemini 3 Pro的工作方式也是如此，它會將問題引導至合適的專家網絡。

谷歌利用網頁文檔、代碼庫、圖像、音頻文件和視頻，以及其他人工智能系統生成的合成數據來訓練模型。該公司對訓練數據進行了質量和安全過濾，刪除了色情內容、暴力內容以及任何違反兒童安全法律的內容。訓練在谷歌的張量處理單元 (Tensor Process Orchestration Unit) 上進行，使用了 JAX 和 ML Pathways 軟件。

對模型的快速測試表明，它的性能非常出色。在我們通常要求生成潛行遊戲的編碼測試中，這是第一個生成 3D 遊戲而非 2D 遊戲的模型。其他運行結果雖然也生成了 2D 版本，但所有版本都功能齊全且運行速度很快。

這種方法類似於 ChatGPT 或 Perplexity，通過分享後續問題和建議來鼓勵進一步互動，但谷歌的實現方式更加簡潔，也更有幫助。

在生成代碼的過程中，界面會提供提示，幫助用戶在後續提示中更好地理解代碼，從而引導模型生成更優質的代碼、修復錯誤並改進應用程序的邏輯、用戶界面ETC。此外，它還為用戶提供了部署代碼和編寫基於 Gemini 的應用程序的選項。

總體而言，該模型似乎特別側重於編碼任務。創造性並非其強項，但由於其擁有非常大的詞法上下文窗口，因此通過良好的系統提示和示例，可以輕鬆引導用戶。

谷歌DeepMind發佈的Gemini 3模型卡存檔版本（該文檔提供了有關模型設計、預期用途、性能和侷限性的重要信息）顯示， Gemini 3 Pro最多可以生成64,000個輸出令牌，知識截止時間為2025年1月。谷歌承認該模型可能會出現幻覺，並且偶爾會出現運行緩慢或超時的情況。

目前尚無官方模型卡。

如前所述， Google AI Studio目前為所有用戶免費提供Gemini 3 Pro。Vertex AI 和Gemini API 也支持該模型。不過， Gemini 3 Pro 尚未通過Gemini應用提供，即使是付費的Gemini Pro 用戶也無法使用。

11 月發佈的這款產品使谷歌與 Anthropic 的 Claude Sonnet 4.5、Grok 4.1 甚至 OpenAI 的 GPT-5.1 展開競爭。基準測試分數表明， Gemini 3 Pro 在推理和多模態任務方面領先，但實際性能會因使用場景而異。

谷歌通過其雲平臺分發Gemini 3 Pro，但須遵守現有的服務條款。該公司禁止將生成式人工智能用於危險活動、安全威脅、色情內容、暴力、仇恨言論和虛假信息等用途。