DeepSeek系列模型小记
2025-02-05
DeepSeek V3
该模型在14.8T高质量token上完成了训练的MOE模型,仅使用2048块GPU训练了2个月,并且只花费了557.6万美金。
技术细节
1. Gate Network
- 在MOE结构中,v3使用sigmoid,取代了v2中的softmax。这允许模型在更大的专家集合上进行选择,而不像softmax函数倾向于将输入分配给少数几个专家。
- 其他技术细节还包括多头潜在注意力(MLA)的应用,前3层不是MoE,增强的负载均衡,无令牌丢失等技术的应用。
- 采用了Multi-Token prediction多目标预测(MTP),以提高模型的扩展性能。
2. 长上下文支持
- YaRN技术用于扩展上下文窗口,从4k增加到128k。
3. 大规模分布式/降低精度
- 使用FP8训练,采用混合精度和优化的低精度量化。
- 重新计算RMSNorm和MLA Up-Projection以提高训练效率。
- 在CPU上进行EMA检查点,以节省计算资源。
DeepSeek-R1-Zero
基于纯强化学习GRPO的方法来增强模型的思维链推理能力。
DeepSeek-R1
冷启动数据和多阶段训练管道(两个RL阶段)
训练方式
1. 冷启动(SFT)
- 首先收集数千个CoT冷启动数据,SFT微调DeepSeek-V3-Base
2. 推理导向的RL
- 使用类似DeepSeek-R1-Zero的强化学习方法,专注于提升模型的推理能力。
- 语言一致性奖励
3. 拒绝采样(SFT)
- 在RL过程接近收敛时,通过拒绝采样生成 60 万条高质量推理数据,结合 20 万条非推理数据(写作、事实 QA 等),对基础模型进行两轮 SFT,增强多领域能力。
4. 全场景 RL 对齐
- 结合推理任务(规则奖励)和通用任务(基于奖励模型的人类偏好对齐),二次优化模型。
开源复现
开源仓库中出现部分尝试复现DS技术报告的项目: