DAPO:大规模开源强化学习,助力大语言模型
用开源强化学习打破大语言模型推理的壁垒
在构建更智能的大语言模型(LLM)的竞赛中,业界主要依赖强化学习来增强其推理能力。然而,一个长期存在的挑战是缺乏透明度——用于LLM的最先进的强化学习技术仍然被锁定在 OpenAI 和 DeepSeek 等主要人工智能公司的专有系统背后。这种保密不仅扼杀了创新,也使得研究人员和企业难以复制或在此基础上进行构建。
一项新的研究成果,DAPO(解耦剪裁与动态采样策略优化),旨在通过完全开源一个可扩展的LLM推理强化学习框架来改变这一现状。DAPO 由字节跳动 Seed、清华大学人工智能产业研究院和香港大学共同开发,提供了一个透明、高性能的强化学习系统,不仅发布了算法,还发布了训练代码和精心策划的数据集。其目标是:普及LLM推理强化学习,并加速人工智能研究和行业应用的发展。
DAPO 的关键创新
DAPO 的核心是一种新颖的强化学习方法,可提高 LLM 的推理能力。该系统的有效性已通过其在 AIME 2024 数学问题数据集上的表现得到证明,它使用 Qwen2.5-32B 基础模型获得了 50 分,超过了之前的基准,同时所需的训练步骤更少。
1. 开源整个强化学习系统
与大多数专有模型不同,DAPO 提供了一个完全开放的强化学习训练流程,包括:
- DAPO 算法 – 一种基于 GRPO(广义强化策略优化)的改进强化学习方法。
- 训练代码 (verl 框架) – 用于训练 LLM 的实用、可扩展的强化学习代码。
- 精心策划的数据集 – 专门为数学推理和强化学习训练处理的数据集。
2. 算法创新:四大关键技术
DAPO 集成了四大技术改进,从而增强了 LLM 强化学习训练的效率和稳定性:
- Clip-Higher(更高剪裁):传统的强化学习模型使用剪裁技术来避免极值波动,但这通常会导致熵坍塌,使模型过于确定性。DAPO 解耦了下剪裁和上剪裁阈值,从而鼓励更多样化的 token 生成和更好的探索。
- Dynamic Sampling(动态采样):许多强化学习训练过程将计算资源浪费在冗余的提示上。DAPO 过滤掉无效的提示(那些产生零梯度样本的提示),从而确保每个训练批次都有意义并加速收敛。
- Token-Level Policy Gradient Loss(Token 级别策略梯度损失):DAPO 没有将整个响应视为单个样本,而是在 token 级别分配梯度,从而使更长的推理链具有更大的权重。这对于复杂的、多步骤的问题解决特别有用。
- Overlong Reward Shaping(过长奖励塑造):传统模型会严厉惩罚过长的响应。DAPO 改进了这种方法,动态缩放惩罚,以防止有价值信息的突然丢失,从而实现更稳定的训练。
DAPO 如何优于现有模型
1. 在复杂推理任务中具有更高的准确性
经验结果表明,DAPO 在 AIME 2024 上获得了 50 分,超过了 DeepSeek-R1-Zero-Qwen-32B 的 47 分。与之前的模型不同,DAPO 以一半的训练步骤实现了这一性能,证明了其有效性和效率。
2. 增强的训练效率和稳定性
通过解决常见的强化学习问题——熵坍塌、奖励噪声和低效采样——DAPO 简化了训练,降低了开发高性能 LLM 所需的计算成本。
3. 完全可重现性和开源透明度
LLM 研究中的一个关键问题是缺乏可验证的开源强化学习方法。DAPO 是为数不多的提供完整端到端强化学习训练框架的系统之一,从而使学术研究人员和人工智能初创公司更容易复制和扩展这项工作。
行业和商业影响
1. 加速人工智能研发
最先进的强化学习训练系统的可用性可以极大地加速数学推理、基于 LLM 的辅导和其他高级问题解决应用方面的研究。开源访问降低了进入门槛,从而促进了更广泛的人工智能开发参与。
2. 扩展 LLM 业务应用
专注于人工智能驱动的推理任务的公司——从自动化客户支持到代码助手和财务建模——都将受益于 DAPO 的进步。通过集成 DAPO 的技术,企业可以训练更强大、更具成本效益的人工智能模型,以应对特定行业的挑战。
3. 降低人工智能训练成本
凭借更高的效率和更少的训练步骤,DAPO 使较小的公司和初创公司能够在没有大量计算费用的情况下训练高性能 LLM 成为可能。这可能会导致超出科技巨头范围的更广泛的先进推理人工智能商业化。
挑战和注意事项
虽然 DAPO 是一项突破性的贡献,但应注意某些因素:
- 基准范围:该模型的有效性已在基于数学的数据集 AIME 2024 上得到验证。需要在其他复杂推理基准(例如,MATH、GSM8K)上进行其他评估,以确认更广泛的适用性。
- 计算要求:尽管效率有所提高,但使用强化学习训练 LLM 仍然需要大量的 GPU 资源。虽然 DAPO 降低了门槛,但较小的组织可能仍然面临基础设施挑战。
- 实施复杂性:DAPO 的先进技术,特别是 token 级别策略梯度损失和过长奖励塑造,需要对强化学习原理的深入理解,这可能会对不熟悉强化学习的团队构成采用挑战。
开源人工智能的变革者
DAPO 代表了用于 LLM 推理的可扩展、透明的强化学习方面的一次重大飞跃。通过开源一个完整、高性能的强化学习系统,该研究团队不仅在推进学术知识,还在授权企业和初创公司开发他们自己的人工智能模型。
对于希望增强 LLM 推理能力的投资者和公司而言,DAPO 提供了一个难得的机会:一个完全可访问的、最先进的强化学习框架,可降低开发高级人工智能模型的成本和复杂性。随着人工智能在各行各业的应用加速,像 DAPO 这样的开源创新将在塑造人工智能驱动的问题解决的未来方面发挥关键作用。