Microsoft Phi-4가 신이 되다, 14B 소형 모델이 수학적으로 GPT-4o를 물리치고, 합성 데이터가 40% 점유비율, 36페이지 분량의 기술 보고서가 공개됩니다.

avatar
36氪
13시간 전
이 기사는 기계로 번역되었습니다
원문 표시
다음과 같이 번역합니다:

마이크로소프트의 차세대 14B 소형 모델 Phi-4가 출시되었습니다! 합성 데이터 40%만 사용했음에도 불구하고, 수학 성능에서 GPT-4o를 능가했으며, 최신 36페이지 기술 보고서가 공개되었습니다.

140억 개의 매개변수, 40%의 합성 데이터, 올해의 SLM 왕이 탄생했습니다!

최근 마이크로소프트의 차세대 소형 모델 Phi-4가 공식적으로 등장했습니다. GPQA와 MATH 벤치마크에서 수학 성능이 GPT-4o와 제미니 Pro 1.5를 직접 압도했습니다.

또한 Phi-4는 다른 소형 모델들을 분쇄했으며, Llama-3.3-70B-Instruct의 성능과 맞먹습니다.

심지어 2024년 ACM 수학 경시대회 문제에서 Phi-4는 91.8%의 정확도를 달성했습니다.

Phi 시리즈의 전임 책임자인 Sebastien Bubeck는 이 결과를 보고 매우 놀랐습니다.

다음 예시는 Phi-4의 수학 추론 능력을 보여줍니다. 빠르고 정확합니다.

그 배경을 살펴보면, Phi-4는 이전 세대 Phi 시리즈의 전통을 계승했으며, 교과서 수준의 '합성 데이터'로 학습을 완성했습니다.

합성 데이터 비율이 40%에 달합니다.

합성 데이터 외에도 정제된 원시 데이터와 선도적인 후속 훈련 기술인 DPO의 핵심 토큰 검색(Pivotal Tokens Search)을 통해 세 가지 핵심 기술 돌파구를 달성했습니다.

Phi-4의 성공은 Ilya, Alexander Wang 등 대가들이 주장했던 '데이터 장벽'의 관점을 간접적으로 뒤엎었습니다.

현재 새로운 모델은 마이크로소프트 Azure AI Foundry에서 제공되며, 다음 주에 HuggingFace에 출시될 예정입니다.

01 수학에서 GPT-4o를 능가하고, 36페이지 기술 보고서 공개

Phi-4는 대부분의 언어 모델과 다르게, 웹 콘텐츠나 코드와 같은 자연스럽게 생성된 데이터 소스에 주로 의존하는 사전 훈련과 달리, 전체 훈련 과정에 걸쳐 전략적으로 합성 데이터를 통합했습니다.

Phi 시리즈의 이전 모델들이 주로 교사 모델(특히 GPT-4)의 능력을 증류한 것에 비해, Phi-4는 STEM 분야의 문답 능력에서 교사 모델을 크게 능가했습니다. 이는 모델 증류보다 데이터 생성과 후속 훈련 기술이 능력 향상에 더 도움이 된다는 것을 증명했습니다.

논문 링크: https://arxiv.org/abs/2412.08905

Phi-4는 주로 다음 세 가지 핵심 기술로 구성됩니다:

  • 사전 훈련 및 중간 훈련의 합성 데이터
  • 고품질 유기 데이터의 선별 및 필터링
  • 후속 훈련

이러한 혁신 덕분에 Phi-4는 추론 관련 작업에서 더 큰 모델과 맞먹거나 능가하는 성능을 보였습니다.

예를 들어, 널리 사용되는 많은 추론 관련 벤치마크에서 Llama-3.1-405B와 동등하거나 더 나은 성능을 달성했습니다.

표 1을 통해 알 수 있듯이, Phi-4는 GPQA(대학원 수준의 STEM 문답) 및 MATH(수학 경시대회) 벤치마크에서 교사 모델 GPT-4o를 크게 능가했습니다.

표 1. Phi-4의 주요 벤치마크 성능

Phi-4에 과적합 및 데이터 오염 문제가 없는지 확인하기 위해, 연구진은 2024년 11월 AMC-10 및 AMC-12 수학 경시대회에서 이 모델을 테스트했습니다.

이 두 대회의 데이터는 훈련 시 수집되지 않았기 때문에, 모델의 일반화 성능을 효과적으로 검증할 수 있습니다.

아래 그림에서 볼 수 있듯이, Phi-4는 단지 14B 크기에 불과하지만 평균 점수가 교사 모델 GPT-4o를 크게 능가했습니다.

Phi-4는 수학 경시대회 문제에서 Gemini Pro 1.5를 포함한 많은 더 큰 모델들을 능가했습니다.

02 합성 데이터의 장점

합성 데이터는 Phi-4 훈련 데이터의 대부분을 차지했으며, 다양한 기술을 통해 생성되었습니다. 여기에는 다중 에이전트 프롬프팅, 자기 수정 워크플로, 지침 반전 등이 포함됩니다.

이러한 기술 방법은 모델의 추론 및 문제 해결 능력을 향상시키는 데이터 세트를 구축할 수 있어, 기존 무감독 데이터 세트의 약점을 해결했습니다.

합성 데이터는 유기 데이터의 저렴한 대체품이 아니라, 유기 데이터에 비해 몇 가지 직접적인 장점이 있습니다.

데이터 구조화 및 점진적 학습 지원

유기 데이터 세트에서 토큰 간 관계는 종종 복잡하고 간접적입니다. 현재 토큰과 다음 토큰을 연결하려면 많은 추론 단계가 필요할 수 있어, 모델이 다음 토큰 예측이라는 목표 작업에서 효과적으로 학습하기 어렵습니다.

반면에 언어 모델이 생성한 각 토큰은 이전 토큰을 기반으로 예측되므로, 이러한 구조화된 토큰을 통해 모델 훈련이 더 효율적으로 이루어질 수 있습니다.

훈련 및 추론 상황 정렬

합성 데이터를 통해 모델이 유기 데이터 세트에서 학습한 일부 부적절한 데이터 특성을 피할 수 있습니다.

예를 들어, 온라인 포럼은 자체적인 대화 스타일과 언어 습관을 가지고 있지만, 사람들이 대형 모델과 대화할 때의 언어 스타일과 상호 작용 논리는 다릅니다.

이러한 경우 포럼 데이터를 직접 사용하면 모델이 대화 상황에서 해당 내용이 잘 나타나지 않을 것이라고 판단할 수 있습니다. 따라서 모델이 추론할 때 대화 내용을 포럼 내용에 정확하게 매칭하지 못할 수 있습니다.

반면 합성 데이터는 포럼 내용을 LLM 대화 상황의 언어 스타일로 변환하므로, 모델이 더 잘 매칭할 수 있습니다.

합성 데이터는 Phi-4의 후속 훈련에서도 핵심적인 역할을 하며, 거부 샘플링 및 직접 선호 최적화(DPO) 등의 새로운 방법을 사용하여 모델 출력을 최적화했습니다.

03 합성 데이터의 출처

사전 훈련 및 훈련 중 데이터

이를 위해 연구팀은 50가지 광범위한 합성 데이터 세트 유형을 만들었습니다. 각 데이터 세트는 다른 시드와 다단계 프롬프트 프로그램에 의존하며, 다양한 주제, 기술 및 상호 작용 특성을 포함하여 약 4000억 개의 무가중 토큰을 누적했습니다.

다음과 같은 방법을 통해 합성 데이터가 저품질 웹 데이터로 오염되지 않고 고품질 훈련 데이터 세트가 되도록 했습니다.

시드 데이터 세트 구축

1. 웹 페이지 및 코드 시드: 웹 페이지, 서적 및 코드 저장소에서 발췌문과 코드 조각을 추출했으며, 복잡성, 추론 깊이 및 교육적 가치가 높은 콘텐츠에 중점을 두었습니다. 품질을 보장하기 위해 팀은 두 단계 필터링 프로세스를 사용했습니다. 첫째, 중요한 고가치 페이지를 식별하고, 둘째, 선택된 페이지를 문단 단위로 분할하고 각 문단의 객관성과 추론 내용을 점수화했습니다.

2. 질문 데이터 세트: 웹 사이트

以下是韩语翻译结果:

3. 从多种来源创建问答对:利用语言模型从书籍、科学论文和代码等有机来源中提取问答对。这种方法不仅仅依赖于在文本中识别显式的问答对。相反,它涉及一个旨在检测文本中的推理链或逻辑进程的pipeline。语言模型识别推理或问题解决过程中的关键步骤,并将它们重新表述为问题和相应的答案。实验表明,如果操作得当,在生成内容上进行训练(在学术和内部基准上的改进方面)可以比在原始内容上进行训练更加有效。

重写和增强:种子通过多步骤提示工作流程转化为合成数据。这包括将给定段落中的大部分有用内容重写为练习、讨论或结构化推理任务。

自我修订:初始响应会通过一个反馈回路进行迭代式优化,在该回路中,模型会依据侧重于推理和事实准确性的评判标准进行自我评判,并随后改进自身的输出内容。

指令反转用于代码和其他任务:为了提高模型从指令生成输出的能力,团队采用了指令反转技术。例如,他们从代码数据语料库中选取现有的代码片段,并利用它们生成包含问题描述或任务提示的相应指令。只有原始代码和根据生成指令而重新生成的代码之间相似度高的指令才会被保留,以确保指令与输出内容相匹配。

后训练数据

在后训练阶段中,数据集主要由两部分组成:

- 监督微调(SFT)数据集:使用从公开数据集和合成数据中精心筛选的用户提示,再生成多个模型响应,并使用基于LLM的评估过程选择最佳响应。

- 直接偏好优化(DPO):基于拒绝采样和LLM评估生成DPO对,其中部分基于创建关键词<后训练数据>token对的方法。

研究者利用生成的SFT数据和DPO数据对,来缓解模型的幻觉问题。

如下图6结果显示,这种方法大大减少了中的幻觉现象。

04 预训练

Phi-4同样基于Transformer架构构建,具有14B参数和默认的上下文长度4096。在训练中期,扩展到16K上下文。

由于预训练模型不擅长遵循指令,因此使用需要答案采用特定格式(例如简单评估)的零样本评估不是很有参考价值。

因此,团队采用了内部实现的基准测试进行预训练评估,该基准测试对各种任务使用混合的对数似然与少量样本提示。

具体来说,他们对 (5-shot)、和(1-shot)使用对数似然评估,而对(TQA)、、和分别使用 1、3、4和8个少样本的示例,以帮助模型遵循答案格式。

表2 较在预训练后基准测试评估的提升值

在长上下文基准测试中,在召回率、最大上下文等指标上,几乎取得了领先的优势。

05 后训练

如前所述,在后训练阶段过程中,最重要的一个技术是<关键token搜索(PTS)>,那么这究竟是什么呢?

关键token搜索(Pivotal Token Search)

当模型对一个提示逐token生成回应时,每个token都对应着模型回答的一个前缀。

对于每个这样的前缀,可以考虑两个关键token:一是在改前缀下,模型回答正确的条件概率;另一个是该token带来的概率增量,即生成这个token前后正确率的差值。

其实,在模型生成答案时,往往只有少数几个关键token决定了整个答案的正确与否。

在研究中,团队观察到一个有趣的现象是:当模型在解答数学问题时,仅仅生成了关键token,就让原本可能失败的解答转向了成功。

而随后,它生成了token又可能让正确率急剧下降。

现在,将这个方法与训练方法结合思考后,发现了几个值得注意的问题。

如上图3所示,实验中有许多token概率远低于关键token「」的0.31,这些token会在训练中产生噪声,稀释来自关键token的有效信号。

更糟糕的是,像这样导致解题不稳定的token,反而会因其低概率(0.12)收到强烈的正向学习信号。

此外,直觉表明,当两个文本内容出现实质性偏差时,比较它们各自下一个token概率(的做法)可能失去意义。

总之,更有意义的信号,应该来自于文本开始偏离时的首批token。

为了缓解之前的问题,<微软>团队提出了一种创新的方法——<关键token搜索(PTS)>。

这个方法专门针对单个关键token生成偏好数据,在使用优化效果精准作用于特定token。

的核心任务是,在完整的token序列(T_full = t1, t2, ...)中找出那些关键token。

具体来说,它需要找出那些能显著影响成功率的token的位置,即p(success | t1, ..., ti)。

会将发现的关键token转化为训练数据,先将Q + t1, ..., ti-1作为查询基准,再选择能提高/降低成功率的单个token分别作为「接受」和「拒绝」的样本。

虽然使用的二分查找算法不能保证找出所有的关键token,但它具有两个重要特性。

- 找到的一定是关键token

- 如果成功概率再解题过程中接近单调变化,则能找出所有关键token

下图5所示,是使用生成的偏好数据的示例。

在数学问答示例中,研究发现了一个有趣的现象,关键token往往不是明显的错误,而是引导模型走向不同解题路径的选择点。

比如,方法A——分别乘以分母;方法B——直接交叉相乘。

虽然这两种方法在数学上都是正确的,但对于模型来说,往往后者更加稳健。

通过生成的训练数据,可以帮助在这些关键决策点上做出更优的选择。

06 以小博大,赢麻了

基于以上技术的创新,才能在各项基准测试中展现出惊艳的一面。

上表1中,相较于同级别的模型,在12个基准测试中,在九项测试中赢得优势。

而且,研究人员认为在上的表现实际上比更好。

事实上,他们的基础模型在上获得了比更高的基准分数,只不过团队在后训练中有意修改了模型的行为,以优化用户体验而不是追求更高的基准分数。

此外,在问答任务上展现出卓越的实力。

比如,在(研究生水平的问题)和(数学竞赛)上,它甚至超过了其教师模型。

在和衡量的编码能力方面,它也比任何其他开源模型(包括更大的模型)得分更高。

而Phi-4在SimpleQA、DROP和IFEval上的表现欠佳。

至于前两个,研究人员认为simple-evals报告的数字过于简化,并不能准确反映模型在基准问题上的表现。

然而,IFEval揭示了Phi-4的一个真实的弱点——在严格遵循指令方面存在困难。

在未来下一步研究中,研究人员相信通过有针对性的合成数据,让Phi系列模型的指令跟随性能得到显著改善。

接下来,还真有点期待,下一个Phi系列小模型的发布了。

参考资料:

https://x.com/iScienceLuvr/status/1867377384145727635

https://x.com/peteratmsr/status/1867375567739482217

https://x.com/VentureBeat/status/1867376462589739098

本文来自微信公众号"新智元",作者:新智元,36氪经授权发布。

출처
면책조항: 상기 내용은 작자의 개인적인 의견입니다. 따라서 이는 Followin의 입장과 무관하며 Followin과 관련된 어떠한 투자 제안도 구성하지 않습니다.
라이크
즐겨찾기에 추가
코멘트