중국과 미국 AI 기업가들 간의 비공개 토론: DeepSeek-R1 이후 AI 기업가 정신의 변화와 새로운 추세

TechFlow

02-12

이 기사는 기계로 번역되었습니다

원문 표시

以下是韩语翻译:

聊天机器人不一定会是用户的第一款 AI 产品。

文章来源：FounderPark

图片来源：由无界AI生成

DeepSeek 无疑是 2025 年春节期间的焦点，从 App 登顶苹果商店免费榜、到各个云厂商争相部署 DeepSeek-R1，DeepSeek 甚至成了很多人第一次体验的 AI 产品。而对于创业者来说，从技术创新点的讨论、训练和推理成本的分析到对整个 AI 行业的影响等，大家都在聊。

2 月 2 日，Founder Park 和同为极客公园旗下的全球化闭门社区 Global Ready 组织了一场闭门讨论，邀请了硅谷、国内、伦敦、新加坡、日本等地 AI 公司的 60 余位创始人与技术专家，从技术创新、产品落地、算力紧缺等角度，对 DeepSeek 引发的技术新方向和产品趋势，进行了一场深度探讨。

在脱敏处理后，我们整理了本次闭门讨论的要点内容。

01 DeepSeek 的创新在哪里？

DeepSeek 于 12 月底发布了 V3 基座模型，是业界目前开源的最强大的模型之一，包含 37B 激活参数，整体参数规模为 671B，是一个大型 MoE（混合专家）模型。

2025 年 1 月份发布的 R1 模型的「Aha moment」指的是当模型在进行推理时能够表现出一定的反思能力。例如，在解决问题过程中，模型可能会意识到某种方法不再适用，并在过程中调整为更有效的方法。这种反思能力源自强化学习（RL）。

R1 是 DeepSeek 的旗舰模型，R1 在推理能力方面与 OpenAI o1 相当，具体的实现方法可以总结为：R1 通过两步强化学习和两步 SFT，前两步的 RL 和 SFT 主要用于构建一个数据生成的教师模型，去指导第三步的数据生成。这个模型致力于成为目前最强大的推理模型。

DeepSeek R1-Zero 模型的核心创新在于跳过了传统的微调（SFT）过程，直接通过强化学习（RL）进行推理优化。此外，用 DeepSeek R1 作为教师模型，去蒸馏一个开源的中小模型（如 Qwen1.7B/7B/14B/32B），能够显著提升小模型的能力。
代码能力，DeepSeek 的 R1 和 openAI 刚出的 o3 mini 不相上下，整体能力 o3 mini 稍强一些。不同之处在于 R1 是开源的，会刺激更多应用方使用 R1。
DeepSeek 成功的核心在于用一个高度集成化的工程方案把价格打下来。把他们的方法拆开来看，每个方法都能够在去年的论文上找到，而 DeepSeek 则会非常激进地使用最新的方法。这些方法本身其实会有副作用，会带来额外的存储开销，但对降低集群的空转率有极大提升。
如果不是一个大规模集群，去给大规模的人服务的模型，MLA 架构反而会有副作用。DeepSeek 大量的方法如果不在特定的场景和环境下去做，达不到最大的性能优化，单独使用这些技术反而会有副作用。他们的系统设计是非常精巧的，精巧到但凡把这些技术单独拿出来做，都产生不了他们这样的效果。
不应该仅仅训练一个过程奖励模型（process reward model），因为如果只训练这种模型，最终的效果可能无法达到预期，甚至会导致过拟合。DeepSeek 选择了最原始的强化学习方法，通过启发式规则来对最终结果进行评分，然后利用传统的强化学习方法对过程进行修正。他们选择的这种方法也是在不断的试错中做出来的，这得益于 DeepSeek 有足够高效的 infra。
即使 DeepSeek 没有公开其推理代码，其他团队也可以大概推出来用了哪些方法。开源的模型权重已经足够让其他团队复现其性能，但困难在于怎么把里面的一些特殊配置试出来，这个需要时间。
只依赖数据标注的奖励模型，很难达到 super human intelligence 的能力。需要一个基于真实数据或真实环境反馈的真实奖励模型，才能实现更高级的奖励优化，从而产生超人类智能的能力。
技术角度的推测：如果基座模型本身具有较强的通用性，再加上数学和代码的能力，两个部分的结合就会产生更强的泛化能力。比如有一个比较智能的基座模型，假设这个模型在写作方面已经不错了，那么结合一些数学和代码的强化学习，它有可能实现良好的泛化，最终产生一些非常强的能力。具体表现为它能写出从骈文到绝句律诗等各种体裁的作品，而其他几家模型在这个方面则不太行。

02 为什么 DeepSeek 的成本这么低？

模型的稀疏度非常高。尽管这是一个超过 600B 参数的大模型，但在推理的时候，每个 token 的实际激活参数非常小，只有 37B，意味着它在推理时的速度和资源消耗相当于一个 37B 参数的模型。但要实现这一点，需要对整个系统进行大量的设计改动。
在 DeepSeek V3 中，MoE 架构包含 256 个专家模块，但每次推理时只激活其中的一小部分。在高负载情况下，它可以动态调整资源使用率，理论上可以将成本压缩到原来的 1/256。这种设计体现了 DeepSeek 在软件架构上的前瞻性。如果系统优化做的足够好，在同样的量级下，价格就能大幅降低。
模型训练时一般会有三把斧，也就是在三个维度上做并行切分。第一个是数据层面做切分并行，这个叫 Data Parallelism。第二个是在模型层面，因为模型的各层之间是相互独立的，所以会在这方面做切分，这个叫 Pipeline Parallelism。第三个是对模型的权重做切分，分配到不同的 GPU 上，这个叫 Tensor Parallelism。为了配合稀疏模型设计，DeepSeek 对训练框架和管线做了大量调整，在训练过程中摒弃了 Tensor Parallelism，只使用了 Data Parallelism 和 Pipeline Parallelism，并在此基础上进行了更为精细的专家并行（Expert Parallelism）。通过对专家数量（多达 256 个专家）进行精细划分，将不同的专家分配到不同的 GPU 上。此外，DeepSeek 舍弃了 Tensor Paralleism，可以绕过硬件限制，使得 H800 和 H100 在训练效能上接近。
在模型部署方面，实验表明，其算力成本可控，且技术难度并不高，通常只需一到两周的时间就能完成复现，这对于许多应用开发者来说是非常有利的。
一个可能的模型架构：让 reasoning RL 不再局限于大语言模型本身，而是在外面加一个 thinking machine，来完成整个推理能力，这样整体成本还能下降好几个数量级。

03 Chatbot 不一定会是用户的第一款 AI 产品

DeepSeek R1 的成功不仅在于其推理能力，还在于其结合搜索功能，reasoning model+搜索某种程度上相当于一个 micro agent 的框架。对于大多数用户来说，这是他们第一次体验推理模型。对于已经使用过其他推理模型（如 OpenAI 的 o1）的用户来说，结合搜索功能的 DeepSeek R1 又是一种全新的体验。
对于没有使用过 AI 产品的用户，他们的第一款 AI 产品不一定是 ChatGPT 这样的语言交互类产品，可能是由模型驱动的另外一个场景下的产品。
AI 领域应用型公司的竞争壁垒在于产品体验。谁能做得更快、更好，提供让用户觉得更舒适的功能，谁就能在市场中占据竞争优势。
以下是文章内容的韩语翻译:
目前能够看到模型呈现出的思考过程是一个令人满意的设计，但它更像是用强化学习（RL）来提升模型能力的一个比较早期的工作。推理过程的长度并不是衡量最终结果正确性的唯一标准，未来会从复杂的<长推>转向更简洁的<短推理过程>。

04 垂直场景 AI 落地更容易了

对于相对垂直的任务（vertical task），任务评估可通过<规则系统>（rule system）完成，不需要依赖复杂的<奖励模型>（rewarding model）。在设定好的垂直任务上，类似或者是 <7B> 的模型能够快速得到可用结果。
在一个设定好的垂直任务上，用蒸馏过的 <70 亿参数>或更大的模型做训练，能够快速得到「aha moment」。从成本角度看，在 <7B> 模型上做简单算术题或 <21 点>等有明确答案的任务，只需要 <2-4 张 H100 或 H200>，花不到半天时间，模型即可收敛到可用状态。
在垂直领域，尤其是在处理有明确答案的任务，如数学计算、物理规则判断（物品摆放、运动是否符合规律），的效果确实比其他模型好且成本可控，因此可以将其应用在广泛的垂直领域。不过，在没有明确答案的任务中，比如判断某样东西是否美观，或者某个答案是否让人开心，这种<主观性>较强的评估无法通过<基于规则>（rule-based）的方法很好地解决。这方面可能需要等待三个月、半年，直到有更好的方法出现来解决这些问题。
使用<监督微调>（SFT）或类似方法时，很难解决耗时的数据集查询，且这些数据集的<领域分布>（domain distribution）往往难以全面覆盖任务的所有层级。现在有了一个新的、更好的工具库，配备一个高质量模型，可以解决过去数据收集困难和有明确答案的垂直任务。
仅仅基于<规则系统>（rule-based），虽然数学和代码可以定义出比较明确的规则，但如果要应对更复杂或者更开放的任务，依赖规则系统会变得非常困难。所以大家最终可能会探索出更合适的模型，用来评估这些复杂场景的结果。可能会采用（结果导向的奖励函数）而不是（过程导向的奖励函数）的方法，或者探索其他类似的方法。最终，可能会构建出类似「世界模型」的<模拟器>，为各种模型的决策提供更好的反馈。
用小模型去训练推理能力的时候，甚至不需要依赖基于的解决方案。在某个<电商>方向的解决方案中，直接将整个推理能力从基于的模型中剥离出来，使用另一个小模型来完成所有的推理工作，结合来实现整个任务。
对于那些研发模型是为自己所用的公司（如对冲基金），挑战在于<成本>问题。大公司可以通过拉客户摊平成本，但小团队或公司难以承受高昂的研发成本。的开源对他们的意义重大，相当于之前无法承担高昂研发成本的团队现在也能够搭建模型了。
在金融领域，尤其是<量化基金>中，通常需要分析大量财务数据，例如公司财报和数据等。这些公司通常会构建自己的数据集并进行<监督训练>（supervised training），但数据标注的成本非常高。对于这些公司而言，<强化学习>（RL）在<微调>（fine-tuning）阶段的应用，可以显著提升模型性能，实现质的飞跃。

05 国产芯片有望解决推理算力问题

国内现在对标、芯片还是挺多的，但国产芯片最大的瓶颈不在于芯片设计，而是在于<流片>。去适配<华为>也是因为后者相对而言能稳定出片，在后续更严苛的制裁下也能够保证稳定的<训推>。
<英伟达>往后发展，从单卡训练的角度来看，这些高端芯片在某些应用场景下存在<算力过剩>的情况。例如，单卡的<算力>在训练阶段可能因额外的<缓存>和<内存>限制而无法充分发挥，导致其并非最适合训练任务。
国内芯片市场，如果完全专注于应用，不考虑<科学计算>，将<高位浮点运算能力>大幅削减，只专注于任务，可以在部分<性能指标>上追赶<英伟达>的<旗舰芯片>。

06 更强大的、以及跨应用调用能力

对于很多垂直领域来说，的能力会有较大的提升。可以先拿出一个基础模型，把一些规则做成<规则模型>（rule model），这个规则模型可能是一个<纯粹的工程解决方案>（pure engineering solution）。然后，可以用这个工程解决方案来让基础模型在上面进行<迭代>（iteration）和<训练>（training）。你可能会得到一个结果，这个结果已经出现一些<超人类智能>（super human intelligence）的能力。在这个基础上，再进行一些<偏好调整>（preference tuning），让它的回答更加符合<人类的阅读习惯>（human-readable），这样你可能就能得到一个在某个垂直领域上更强大的推理。
这可能会带来一个问题，你可能无法拥有在所有垂直领域都具有很强<泛化能力>的。在一个特定领域训练出一个后，它只能在那个领域工作，而无法泛化到其他垂直领域。但这是一个可能的（落地）方向，因为本身带来的<推理成本>（inference cost）很低，可以选择一个模型，然后进行一系列<强化训练>，训练完成后，它只服务于某个垂直领域，不再关心其他垂直领域。对于<垂类 AI> 公司来说，这是一个可以接受的解决方案。
从学术视角来看，未来一年的一个重要趋势是，<强化学习>中的一些既有方法将会被转移到大模型的应用中，解决当前<泛化性>不足或<评估>不准确的问题。通过这种方式，可以进一步提升模型的性能和泛化能力。随着<强化学习>的应用，<结构化信息输出>的能力将大大提升，最终能够更好地支持各类应用场景，尤其是提高<图表>和其他<结构化内容>的生成效果。
越来越多人可以用做，每个人都可以做出自己的。<模型层>会变成不同的，用不同的工具来解决不同领域的问题，最终实现。
2025 年可能成为<智能体>（agent）元年，许多公司将推出具备<规划任务>能力的智能体。然而，目前缺乏足够的数据来支持这些任务。例如，规划任务可能包括帮助用户<点外卖>、<预订旅行>、判断<景点门票>的余量等。这些任务需要大量的数据和<奖励机制>来评估模型的准确性，例如规划去<张家界>的行程，如何判断正确与错误，以及如何进行模型学习。这些问题将成为下一步的研究热点，<推理能力>最终将用于解决实际问题。
2025 年<跨应用调用>的能力将成为一个热点。在<安卓>系统中，由于其<开源>特性，开发者可以通过底层权限实现跨应用操作，未来能够控制你的<浏览器>、<手机>、<电脑>等设备。然而在<苹果>生态中，由于<严格的权限管理>，要完全控制设备上的所有应用还面临很大困难，<苹果>必须自主开发能够控制所有应用的<智能体>。<安卓>系统虽然是<开源>的，但仍需与、<华为>等厂商合作，才能在<手机>、<平板>和<电脑>等设备上实现底层权限的开放，从而获取数据并支持<智能体>的发展。

출처

면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.

라이크

즐겨찾기에 추가

코멘트