Contact me:
My Home:

DeepSeek系列模型小记

DeepSeek V3

该模型在14.8T高质量token上完成了训练的MOE模型,仅使用2048块GPU训练了2个月,并且只花费了557.6万美金。

技术细节

1. Gate Network

  • 在MOE结构中,v3使用sigmoid,取代了v2中的softmax。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。
  • 其他技术细节还包括多头潜在注意力(MLA)的应用,前3层不是MoE,增强的负载均衡,无令牌丢失等技术的应用。
  • 采用了Multi-Token prediction多目标预测(MTP),以提高模型的扩展性能。

2. 长上下文支持

  • YaRN技术用于扩展上下文窗口,从4k增加到128k。

3. 大规模分布式/降低精度

  • 使用FP8训练,采用混合精度和优化的低精度量化。
  • 重新计算RMSNorm和MLA Up-Projection以提高训练效率。
  • 在CPU上进行EMA检查点,以节省计算资源。

DeepSeek-R1-Zero

基于纯强化学习GRPO的方法来增强模型的思维链推理能力。

DeepSeek-R1

冷启动数据和多阶段训练管道(两个RL阶段)

训练方式

1. 冷启动(SFT)

  • 首先收集数千个CoT冷启动数据,SFT微调DeepSeek-V3-Base

2. 推理导向的RL

  • 使用类似DeepSeek-R1-Zero的强化学习方法,专注于提升模型的推理能力。
  • 语言一致性奖励

3. 拒绝采样(SFT)

  • 在RL过程接近收敛时,通过拒绝采样生成 60 万条高质量推理数据,结合 20 万条非推理数据(写作、事实 QA 等),对基础模型进行两轮 SFT,增强多领域能力。

4. 全场景 RL 对齐

  • 结合推理任务(规则奖励)和通用任务(基于奖励模型的人类偏好对齐),二次优化模型。

开源复现

开源仓库中出现部分尝试复现DS技术报告的项目:

Open-R1

TinyZero