科技微博·机器之心Pro··AI 生成
别光会调GRPO,来看看真正的大规模RL是怎么炼的
Cameron R. Wolfe 博士的长篇技术博客,系统梳理了 Scaling Law 从预训练到强化学习(RL)的演化脉络。文章核心结论是,RL Scaling Law 远不如预训练标准化,其设计空间庞大且结果严重依赖具体设置,但通过特定的方法论(如 sigmoid Scaling 曲线)仍可在特定设置内实现可预测的性能外推。文章详细比较了预训练与 RL 在衡量性能、定义算力、外推方式和标准化程度上的根本差异,并总结了 GRPO 算法的多种关键变体(GSPO、DAPO、Dr. GRPO、CISPO、TIS)及其在以色列设计上的取舍。适合已具备 LLM 基础知识和 RL 背景的研究员或工程师,用于深入理解当前 RL 训练的前沿实践与挑战。
核心观点
- ▍RL 的 Scaling Law 远不如预训练成熟和标准化:预训练有明确的幂律关系和高度标准化的算力定义(C = 6ND),而 RL 的 Scaling Law 结构混乱、高度定制化,性能指标(奖励/准确率)会因领域和基准大幅波动,算力定义(GPU 小时 vs FLOPs)也不统一。
- ▍尽管 RL Scaling Law 混乱,但在特定训练设置内,通过 sigmoid 曲线建模单次训练的奖励增长轨迹,可以实现有效的性能外推,包括跨模型和单模型外推。
- 01预训练 Scaling Law 的核心是逆幂律(y = a × (1/x)^p),建模了测试损失与模型规模、数据量、算力之间的可预测关系。Chinchilla 研究进一步指出,在固定算力预算下,模型规模与数据规模应等比例增加,以实现最优分配。
- 02GRPO 通过组内奖励归一化来估计优势,省去了价值模型,因此比 PPO 更轻量。它通常需要较大的批次规模(每个提示采样多个完成序列),以保证优势估计的可靠性。
- 03GSPO 将 token 级重要性比率改为序列级(几何平均数),降低了方差,在训练大型 MoE 模型(如 Qwen3-235B-A22B)时稳定性优势尤为突出。
- 04DAPO 提出解耦截断上下界(提高上截断值)、过滤零方差提示(动态采样)、以及 token 级损失聚合,以解决 GRPO 训练中的熵崩溃、奖励噪声和训练不稳定问题。
- 05Dr. GRPO 指出了 GRPO 中的两种关键偏差:响应级长度偏差(通过固定常数 MAX_TOKENS 聚合损失解决)和问题级难度偏差(通过从优势估计器中去除标准差项解决)。
- 06TIS 通过引入重要性采样纠正项,解决了因使用独立推理引擎(如 vLLM)和训练引擎(如 FSDP)导致的 token 概率不一致问题。
- 07ScaleRL 方案的 sigmoidal Scaling 曲线,在小规模实验(如 8K GPU 小时)下拟合,能准确预测大规模实验(如 16K 及 100K GPU 小时)的最终性能,验证了该方法论的有效性。
- 08文献 [2] 的 Scaling 公式(幂律)支持跨模型外推:用较小 Qwen-2.5 模型(0.5B 至 32B)的训练结果,可以预测更大模型(72B)在数学推理领域的性能。
- 09文献 [3] 发现,RL 训练的最优算力分配是将增加的算力用于为每个提示采样更多滚出(n),而非单纯延长训练步数(M),且最优 n 值会随算力预算增加并最终饱和。
反方 / 局限
- — 文章大量依赖于特定实验设置(如 Polaris-53K 数据集、Qwen-2.5 模型系列、数学推理领域)得出的结论,作者明确承认 RL 配置上的细微变化就可能使 Scaling 趋势发生根本性变化,因此这些发现的普适性存疑。
RL Scaling LawGRPO预训练 Scaling Law幂律Cameron R. WolfeDeepSeek-R1ChinchillaQwen-2.5GSPODAPODr. GRPOCISPOTISScaleRL
57 分钟 · 8 卡片 · 19 资料
读原文 →概念锚点
前置背景
技术原理
平行视角
未来推演
延伸追问