深览-阅读与思考

8.6

深览指数

科技微博·机器之心Pro·06-01 18:45·AI 生成

别光会调GRPO，来看看真正的大规模RL是怎么炼的

Cameron R. Wolfe 博士的长篇技术博客，系统梳理了 Scaling Law 从预训练到强化学习（RL）的演化脉络。文章核心结论是，RL Scaling Law 远不如预训练标准化，其设计空间庞大且结果严重依赖具体设置，但通过特定的方法论（如 sigmoid Scaling 曲线）仍可在特定设置内实现可预测的性能外推。文章详细比较了预训练与 RL 在衡量性能、定义算力、外推方式和标准化程度上的根本差异，并总结了 GRPO 算法的多种关键变体（GSPO、DAPO、Dr. GRPO、CISPO、TIS）及其在以色列设计上的取舍。适合已具备 LLM 基础知识和 RL 背景的研究员或工程师，用于深入理解当前 RL 训练的前沿实践与挑战。

核心观点

▍RL 的 Scaling Law 远不如预训练成熟和标准化：预训练有明确的幂律关系和高度标准化的算力定义（C = 6ND），而 RL 的 Scaling Law 结构混乱、高度定制化，性能指标（奖励/准确率）会因领域和基准大幅波动，算力定义（GPU 小时 vs FLOPs）也不统一。
▍尽管 RL Scaling Law 混乱，但在特定训练设置内，通过 sigmoid 曲线建模单次训练的奖励增长轨迹，可以实现有效的性能外推，包括跨模型和单模型外推。

01预训练 Scaling Law 的核心是逆幂律（y = a × (1/x)^p），建模了测试损失与模型规模、数据量、算力之间的可预测关系。Chinchilla 研究进一步指出，在固定算力预算下，模型规模与数据规模应等比例增加，以实现最优分配。
02GRPO 通过组内奖励归一化来估计优势，省去了价值模型，因此比 PPO 更轻量。它通常需要较大的批次规模（每个提示采样多个完成序列），以保证优势估计的可靠性。
03GSPO 将 token 级重要性比率改为序列级（几何平均数），降低了方差，在训练大型 MoE 模型（如 Qwen3-235B-A22B）时稳定性优势尤为突出。
04DAPO 提出解耦截断上下界（提高上截断值）、过滤零方差提示（动态采样）、以及 token 级损失聚合，以解决 GRPO 训练中的熵崩溃、奖励噪声和训练不稳定问题。
05Dr. GRPO 指出了 GRPO 中的两种关键偏差：响应级长度偏差（通过固定常数 MAX_TOKENS 聚合损失解决）和问题级难度偏差（通过从优势估计器中去除标准差项解决）。
06TIS 通过引入重要性采样纠正项，解决了因使用独立推理引擎（如 vLLM）和训练引擎（如 FSDP）导致的 token 概率不一致问题。
07ScaleRL 方案的 sigmoidal Scaling 曲线，在小规模实验（如 8K GPU 小时）下拟合，能准确预测大规模实验（如 16K 及 100K GPU 小时）的最终性能，验证了该方法论的有效性。
08文献 [2] 的 Scaling 公式（幂律）支持跨模型外推：用较小 Qwen-2.5 模型（0.5B 至 32B）的训练结果，可以预测更大模型（72B）在数学推理领域的性能。
09文献 [3] 发现，RL 训练的最优算力分配是将增加的算力用于为每个提示采样更多滚出（n），而非单纯延长训练步数（M），且最优 n 值会随算力预算增加并最终饱和。

反方 / 局限

— 文章大量依赖于特定实验设置（如 Polaris-53K 数据集、Qwen-2.5 模型系列、数学推理领域）得出的结论，作者明确承认 RL 配置上的细微变化就可能使 Scaling 趋势发生根本性变化，因此这些发现的普适性存疑。

RL Scaling LawGRPO预训练 Scaling Law幂律Cameron R. WolfeDeepSeek-R1ChinchillaQwen-2.5GSPODAPODr. GRPOCISPOTISScaleRL

57 分钟 · 8 卡片 · 19 资料

读原文 →

别光会调GRPO，来看看真正的大规模RL是怎么炼的

概念锚点

前置背景

技术原理

平行视角

未来推演

延伸追问