2025 年最佳人工智能大型学习模型

本文为机器翻译
展示原文

2025 年的关键策略并非选择单一的“最佳大型学习模型”,而是构建一个技术栈。Claude 用于高质量的编码和编辑;DeepSeek 或 Qwen 用于低成本的批量处理;Muse 用于小说创作;Dolphin 用于限制条件比润色更重要的情况。

今年,模特不再是个性鲜明的个体,而是变成了工具。那些这样对待模特的用户从中获益匪浅。

这项技术在2025年发展成熟,真正具备了实用价值——产品型号更加智能、价格更低,并且针对特定任务进行了专门化设计。追求单一“最佳”型号的时代已经结束。

以下是入选我们产品线的模型。

Vibe 编码,即用简单的指令编写 AI 代码的能力,在 2025 年备受追捧。这些是 Vibe 编码员和使用 AI 辅助编码工具的真正程序员的最佳模型。

对于那些需要无需过多干预即可稳定运行的编码模型的团队来说, Claude Opus 4.5脱颖而出。Anthropic 报告称,该模型在 SWE-bench Verified 测试中获得了 80.9% 的高分,而实际应用也印证了这一评价:逻辑严密、误读率低,且编码风格保守,使其非常适合生产环境。

权衡之处在于成本和上下文效率。Opus 价格昂贵,长时间使用会迅速耗尽其上下文窗口。对于交付实际软件的专业开发人员来说,这通常是可以接受的。但对于休闲或探索性编程而言,这往往是不可接受的。

中国初创公司DeepSeek V3.2每百万个输入代币仅需0.28美元,与西方同类产品相比价格极其低廉。该模型还为V3.2项目提供MIT许可的权重,赋予团队完全的所有权和修改权。

Deepseek 发布了一个“ Speciale ”版本,在这方面表现更出色。不过,它只能通过 API 使用。

人工智能无需你指导和监督每一步就能为你完成所有事情——这就是智能体人工智能的承诺。

这些模型能够执行多步骤工作流程、浏览网站并从执行错误中恢复。智能体类别已成为2025年的关键战场。

OpenAI 的 GPT-5.2 “Thinking ” 模型在 SWE-bench Verified 测试中以 80% 的得分领先,同时在端到端执行和工具调用性能方面也表现出色。该模型能够根据任务复杂度智能地在快速响应和深度推理之间切换,因此非常适合需要真正完成而非仅仅启动的工作流程。

MiniMax M2的高效性能使其对大规模运行交互式代理的企业极具吸引力。其稀疏的 MoE 架构意味着更低的延迟和更高的批量采样吞吐量——这正是客户支持自动化和研发工作流程所需要的。

定价约为每千个代币 0.01 美元(远低于前沿模型),公司可以负担得起在整个部门部署该技术,用于知识库查询、自动研究摘要和文档处理等任务,而无需担心成本失控。

NVIDIA 于 12 月 15 日发布了Nemotron 3系列显卡,将 Mamba-Transformer 混合架构引入消费级 GPU。这是一个值得关注的全新系列。

这些型号的模特堪称全能型人才:多才多艺、知识渊博,而且价格实惠,可以陪你聊很久。

GPT-5.2仍然是最全面的选择。它保持着 60.5% 的市场份额和约 8 亿的周活跃用户,并且拥有竞争对手仍然缺乏的一项杀手级功能:记忆。该模型能够记住之前的对话,并随着时间的推移与用户建立联系,从而避免重复的上下文设置。

OpenAI 还特意让这个模型更容易被用户接受,以满足 GPT-4o 拥趸们的要求,他们一直呼吁该公司重新启用旧模型。理论上,这个新模型应该兼具 GPT-5 的强大功能和 GPT-4o 的“人性化”特质。

阿里巴巴的Qwen 2.5已成为全球40%新微调模型的基础。它支持多种语言,并采用Apache 2.0许可证,允许不受限制的商业用途。企业可以使用内部文档对其进行微调,并在本地部署,无需将数据发送到第三方API。它也是开源的——这意味着用户只要拥有相应的硬件,就可以免费训练、调整和使用它——并且提供不同尺寸和版本。

2025年,人工智能的衡量标准是其解决逻辑任务的复杂程度。但说到创造力、想象力和艺术,情况就复杂得多。虽然这类领域的提升幅度可能不如其他领域那么大,但这并不意味着没有适合这类用户的模型。

单从分数来看,OpenAI 的 GPT-5 Pro 在 Lechmazur Writing Benchmark V4 测试中获得了 8.474 分,这是所有 LLM 中最高的得分。不过,它的订阅费用也相当昂贵,每月高达 200 美元。

如果你真的想尝试,当然可以,但对大多数人来说,这200美元最好花在其他地方。我们认为,法学硕士在创意写作方面并不出众——而人工智能公司似乎也并​​不太在意这一点。

Sudowrite 的Muse 模型是另一个非常适合创意写作者的模型,因为它专为小说创作而设计。Muse 提供叙事流程优化功能,帮助章节保持连贯性,避免跑题——不过它仅限 Sudowrite 平台使用,而且与主流替代方案相比,对成人主题的限制较少。

话虽如此,对于长篇故事,我们仍然推荐2024年推出的老牌写作软件“ Longwriter ”。它当然不是最好的,但它能够一次性生成大量的创意内容。你可以用它快速写出一个框架,然后将其导入你选择的写作模型中,进行章节润色、细节完善、情节转折等等。

你需要人工智能来帮你写下一部《猛鬼追魂》的剧本吗?你想和你的人工智能玩点刺激的吗?那你需要一个未经审查的模型……而且,别指望大型科技公司能满足你的需求。这个类别与智能无关。如果你真的需要未经审查的人工智能写作,你应该关注模型的固有局限性,而最佳选择是本地化开发。

公平地说,任何经过彻底修改的开源模型都应该能达到目的。当一个模型被彻底修改后,它基本上就失去了拒绝输出的能力。

Dolphin模型是经典之选。其 700 亿参数版本通过“校准排毒”训练移除了所有安全限制。

值得注意的是:如果您在本地基于 Meta 的 Llama 系列进行构建,则它不是 Apache 许可证——它遵循 Llama 3.3 社区许可证,并有其自身的条款和限制。

Qwq-abliterated是另一个真正有效的无审查微调版本。该模型是一个专门设计的微调版本,其设计目标是尽可能做到无审查。

Gemini 3 Pro 在 GPQA Diamond 测试中获得 91.9% 的正确率,并在 AIME 2025 测试中获得满分 100%,这代表了人工智能推理领域的历史性成就。其深度思考模式使其能够系统地解决复杂的科学问题。其 1000 万个词元的上下文库允许研究人员上传整篇论文及其参考文献,以便进行全面分析。

如果您更看重稳定性而非极致性能,Z.AI 的GLM-4.6无疑是您的理想之选。它采用 MIT 开源许可,让企业可以自由定制、自行托管和微调,而无需担心厂商锁定或合规性限制。其 API 成本约为同类西方产品的三分之一,是构建高容量内部工具的理想之选。

阿里巴巴的Qwen3开放权重使研究人员能够研究模型行为、针对特定领域进行微调,并且无需API依赖即可部署。其多语言功能使其在国际研究合作中尤为宝贵。

该模型对商业和科学的特殊之处在于,如果您在官方Qwen Chat平台上使用它,它将免费提供市场上最好的研究代理。

来源
免责声明:以上内容仅为作者观点,不代表Followin的任何立场,不构成与Followin相关的任何投资建议。
喜欢
63
收藏
13
评论