文章来源:FounderPark

图片来源:由无界AI生成
DeepSeek 无疑是 2025 年春节期间的焦点,从 App 登顶苹果商店免费榜、到各个云厂商争相部署 DeepSeek-R1,DeepSeek 甚至成了很多人第一次体验的 AI 产品。而对于创业者来说,从技术创新点的讨论、训练和推理成本的分析到对整个 AI 行业的影响等,大家都在聊。
2 月 2 日,Founder Park 和同为极客公园旗下的全球化闭门社区 Global Ready 组织了一场闭门讨论,邀请了硅谷、国内、伦敦、新加坡、日本等地 AI 公司的 60 余位创始人与技术专家,从技术创新、产品落地、算力紧缺等角度,对 DeepSeek 引发的技术新方向和产品趋势,进行了一场深度探讨。

在脱敏处理后,我们整理了本次闭门讨论的要点内容。
01 DeepSeek 的创新在哪里?
DeepSeek 于 12 月底发布了 V3 基座模型,是业界目前开源的最强大的模型之一,包含 37B 激活参数,整体参数规模为 671B,是一个大型 MoE(混合专家)模型。
2025 年 1 月份发布的 R1 模型的「Aha moment」指的是当模型在进行推理时能够表现出一定的反思能力。例如,在解决问题过程中,模型可能会意识到某种方法不再适用,并在过程中调整为更有效的方法。这种反思能力源自强化学习(RL)。
R1 是 DeepSeek 的旗舰模型,R1 在推理能力方面与 OpenAI o1 相当,具体的实现方法可以总结为:R1 通过两步强化学习和两步 SFT,前两步的 RL 和 SFT 主要用于构建一个数据生成的教师模型,去指导第三步的数据生成。这个模型致力于成为目前最强大的推理模型。
DeepSeek R1-Zero 模型的核心创新在于跳过了传统的微调(SFT)过程,直接通过强化学习(RL)进行推理优化。此外,用 DeepSeek R1 作为教师模型,去蒸馏一个开源的中小模型(如 Qwen1.7B/7B/14B/32B),能够显著提升小模型的能力。
代码能力,DeepSeek 的 R1 和 openAI 刚出的 o3 mini 不相上下,整体能力 o3 mini 稍强一些。不同之处在于 R1 是开源的,会刺激更多应用方使用 R1。
DeepSeek 成功的核心在于用一个高度集成化的工程方案把价格打下来。把他们的方法拆开来看,每个方法都能够在去年的论文上找到,而 DeepSeek 则会非常激进地使用最新的方法。这些方法本身其实会有副作用,会带来额外的存储开销,但对降低集群的空转率有极大提升。
如果不是一个大规模集群,去给大规模的人服务的模型,MLA 架构反而会有副作用。DeepSeek 大量的方法如果不在特定的场景和环境下去做,达不到最大的性能优化,单独使用这些技术反而会有副作用。他们的系统设计是非常精巧的,精巧到但凡把这些技术单独拿出来做,都产生不了他们这样的效果。
不应该仅仅训练一个过程奖励模型(process reward model),因为如果只训练这种模型,最终的效果可能无法达到预期,甚至会导致过拟合。DeepSeek 选择了最原始的强化学习方法,通过启发式规则来对最终结果进行评分,然后利用传统的强化学习方法对过程进行修正。他们选择的这种方法也是在不断的试错中做出来的,这得益于 DeepSeek 有足够高效的 infra。
即使 DeepSeek 没有公开其推理代码,其他团队也可以大概推出来用了哪些方法。开源的模型权重已经足够让其他团队复现其性能,但困难在于怎么把里面的一些特殊配置试出来,这个需要时间。
只依赖数据标注的奖励模型,很难达到 super human intelligence 的能力。需要一个基于真实数据或真实环境反馈的真实奖励模型,才能实现更高级的奖励优化,从而产生超人类智能的能力。
技术角度的推测:如果基座模型本身具有较强的通用性,再加上数学和代码的能力,两个部分的结合就会产生更强的泛化能力。比如有一个比较智能的基座模型,假设这个模型在写作方面已经不错了,那么结合一些数学和代码的强化学习,它有可能实现良好的泛化,最终产生一些非常强的能力。具体表现为它能写出从骈文到绝句律诗等各种体裁的作品,而其他几家模型在这个方面则不太行。
02 为什么 DeepSeek 的成本这么低?
模型的稀疏度非常高。尽管这是一个超过 600B 参数的大模型,但在推理的时候,每个 token 的实际激活参数非常小,只有 37B,意味着它在推理时的速度和资源消耗相当于一个 37B 参数的模型。但要实现这一点,需要对整个系统进行大量的设计改动。
在 DeepSeek V3 中,MoE 架构包含 256 个专家模块,但每次推理时只激活其中的一小部分。在高负载情况下,它可以动态调整资源使用率,理论上可以将成本压缩到原来的 1/256。这种设计体现了 DeepSeek 在软件架构上的前瞻性。如果系统优化做的足够好,在同样的量级下,价格就能大幅降低。
模型训练时一般会有三把斧,也就是在三个维度上做并行切分。第一个是数据层面做切分并行,这个叫 Data Parallelism。第二个是在模型层面,因为模型的各层之间是相互独立的,所以会在这方面做切分,这个叫 Pipeline Parallelism。第三个是对模型的权重做切分,分配到不同的 GPU 上,这个叫 Tensor Parallelism。为了配合稀疏模型设计,DeepSeek 对训练框架和管线做了大量调整,在训练过程中摒弃了 Tensor Parallelism,只使用了 Data Parallelism 和 Pipeline Parallelism,并在此基础上进行了更为精细的专家并行(Expert Parallelism)。通过对专家数量(多达 256 个专家)进行精细划分,将不同的专家分配到不同的 GPU 上。此外,DeepSeek 舍弃了 Tensor Paralleism,可以绕过硬件限制,使得 H800 和 H100 在训练效能上接近。
在模型部署方面,实验表明,其算力成本可控,且技术难度并不高,通常只需一到两周的时间就能完成复现,这对于许多应用开发者来说是非常有利的。
一个可能的模型架构:让 reasoning RL 不再局限于大语言模型本身,而是在外面加一个 thinking machine,来完成整个推理能力,这样整体成本还能下降好几个数量级。
03 Chatbot 不一定会是用户的第一款 AI 产品
DeepSeek R1 的成功不仅在于其推理能力,还在于其结合搜索功能,reasoning model+搜索某种程度上相当于一个 micro agent 的框架。对于大多数用户来说,这是他们第一次体验推理模型。对于已经使用过其他推理模型(如 OpenAI 的 o1)的用户来说,结合搜索功能的 DeepSeek R1 又是一种全新的体验。
对于没有使用过 AI 产品的用户,他们的第一款 AI 产品不一定是 ChatGPT 这样的语言交互类产品,可能是由模型驱动的另外一个场景下的产品。
AI 领域应用型公司的竞争壁垒在于产品体验。谁能做得更快、更好,提供让用户觉得更舒适的功能,谁就能在市场中占据竞争优势。
以下是文章内容的韩语翻译:目前能够看到模型呈现出的思考过程是一个令人满意的设计,但它更像是用强化学习(RL)来提升模型能力的一个比较早期的工作。推理过程的长度并不是衡量最终结果正确性的唯一标准,未来会从复杂的<长推>转向更简洁的<短推理过程>。
对于相对垂直的任务(vertical task),任务评估可通过<规则系统>(rule system)完成,不需要依赖复杂的<奖励模型>(rewarding model)。在设定好的垂直任务上,类似 或者是 <7B> 的模型能够快速得到可用结果。
在一个设定好的垂直任务上,用 蒸馏过的 <70 亿参数>或更大的模型做训练,能够快速得到「aha moment」。从成本角度看,在 <7B> 模型上做简单算术题或 <21 点>等有明确答案的任务,只需要 <2-4 张 H100 或 H200>,花不到半天时间,模型即可收敛到可用状态。
在垂直领域,尤其是在处理有明确答案的任务,如数学计算、物理规则判断(物品摆放、运动是否符合规律), 的效果确实比其他模型好且成本可控,因此可以将其应用在广泛的垂直领域。不过,在没有明确答案的任务中,比如判断某样东西是否美观,或者某个答案是否让人开心,这种<主观性>较强的评估无法通过<基于规则>(rule-based)的方法很好地解决。这方面可能需要等待三个月、半年,直到有更好的方法出现来解决这些问题。
使用<监督微调>(SFT)或类似方法时,很难解决耗时的数据集查询,且这些数据集的<领域分布>(domain distribution)往往难以全面覆盖任务的所有层级。现在有了一个新的、更好的工具库,配备一个高质量模型,可以解决过去数据收集困难和有明确答案的垂直任务。
仅仅基于<规则系统>(rule-based),虽然数学和代码可以定义出比较明确的规则,但如果要应对更复杂或者更开放的任务,依赖规则系统会变得非常困难。所以大家最终可能会探索出更合适的模型,用来评估这些复杂场景的结果。可能会采用 (结果导向的奖励函数)而不是 (过程导向的奖励函数)的方法,或者探索其他类似的方法。最终,可能会构建出类似「世界模型」的<模拟器>,为各种模型的决策提供更好的反馈。
用小模型去训练推理能力的时候,甚至不需要依赖基于 的解决方案。在某个<电商>方向的解决方案中,直接将整个推理能力从基于 的模型中剥离出来,使用另一个小模型来完成所有的推理工作,结合 来实现整个任务。
对于那些研发模型是为自己所用的公司(如对冲基金),挑战在于<成本>问题。大公司可以通过拉客户摊平成本,但小团队或公司难以承受高昂的研发成本。 的开源对他们的意义重大,相当于之前无法承担高昂研发成本的团队现在也能够搭建模型了。
在金融领域,尤其是<量化基金>中,通常需要分析大量财务数据,例如公司财报和 数据等。这些公司通常会构建自己的数据集并进行<监督训练>(supervised training),但数据标注的成本非常高。对于这些公司而言,<强化学习>(RL)在<微调>(fine-tuning)阶段的应用,可以显著提升模型性能,实现质的飞跃。
国内现在对标 、 芯片还是挺多的,但国产芯片最大的瓶颈不在于芯片设计,而是在于<流片>。 去适配<华为>也是因为后者相对而言能稳定出片,在后续更严苛的制裁下也能够保证稳定的<训推>。
<英伟达>往后发展,从单卡训练的角度来看,这些高端芯片在某些应用场景下存在<算力过剩>的情况。例如,单卡的<算力>在训练阶段可能因额外的<缓存>和<内存>限制而无法充分发挥,导致其并非最适合训练任务。
国内芯片市场,如果完全专注于 应用,不考虑<科学计算>,将<高位浮点运算能力>大幅削减,只专注于 任务,可以在部分<性能指标>上追赶<英伟达>的<旗舰芯片>。
对于很多垂直领域来说, 的能力会有较大的提升。可以先拿出一个基础模型,把一些规则做成<规则模型>(rule model),这个规则模型可能是一个<纯粹的工程解决方案>(pure engineering solution)。然后,可以用这个工程解决方案来让基础模型在上面进行<迭代>(iteration)和<训练>(training)。你可能会得到一个结果,这个结果已经出现一些<超人类智能>(super human intelligence)的能力。在这个基础上,再进行一些<偏好调整>(preference tuning),让它的回答更加符合<人类的阅读习惯>(human-readable),这样你可能就能得到一个在某个垂直领域上更强大的推理 。
这可能会带来一个问题,你可能无法拥有在所有垂直领域都具有很强<泛化能力>的 。在一个特定领域训练出一个 后,它只能在那个领域工作,而无法泛化到其他垂直领域。但这是一个可能的(落地)方向,因为 本身带来的<推理成本>(inference cost)很低,可以选择一个模型,然后进行一系列<强化训练>,训练完成后,它只服务于某个垂直领域,不再关心其他垂直领域。对于<垂类 AI> 公司来说,这是一个可以接受的解决方案。
从学术视角来看,未来一年的一个重要趋势是,<强化学习>中的一些既有方法将会被转移到大模型的应用中,解决当前<泛化性>不足或<评估>不准确的问题。通过这种方式,可以进一步提升模型的性能和泛化能力。随着<强化学习>的应用,<结构化信息输出>的能力将大大提升,最终能够更好地支持各类应用场景,尤其是提高<图表>和其他<结构化内容>的生成效果。
越来越多人可以用 做 ,每个人都可以做出自己的 。<模型层>会变成不同的 ,用不同的工具来解决不同领域的问题,最终实现 。
2025 年可能成为<智能体>(agent)元年,许多公司将推出具备<规划任务>能力的智能体。然而,目前缺乏足够的数据来支持这些任务。例如,规划任务可能包括帮助用户<点外卖>、<预订旅行>、判断<景点门票>的余量等。这些任务需要大量的数据和<奖励机制>来评估模型的准确性,例如规划去<张家界>的行程,如何判断正确与错误,以及如何进行模型学习。这些问题将成为下一步的研究热点,<推理能力>最终将用于解决实际问题。
2025 年<跨应用调用>的能力将成为一个热点。在<安卓>系统中,由于其<开源>特性,开发者可以通过底层权限实现跨应用操作, 未来能够控制你的<浏览器>、<手机>、<电脑>等设备。然而在<苹果>生态中,由于<严格的权限管理>, 要完全控制设备上的所有应用还面临很大困难,<苹果>必须自主开发能够控制所有应用的<智能体>。<安卓>系统虽然是<开源>的,但仍需与 、<华为>等厂商合作,才能在<手机>、<平板>和<电脑>等设备上实现底层权限的开放,从而获取数据并支持<智能体>的发展。




