Alignment - RL from Verifiable Rewards (基于可验证奖励的强化学习)
Alignment - RL from Verifiable Rewards (基于可验证奖励的强化学习)
Slide 1: 引言与背景回顾
- 本课重点:从 RLHF (Reinforcement Learning from Human Feedback) 转向基于 Verifiable Rewards 的强化学习(如推理模型)。
- RLHF 回顾:
- 目标:最大化基于人类偏好数据的 Reward。
- DPO (Direct Preference Optimization):
- 将 Reward 重写为 Policy 的比率。
- 本质上是在偏好数据上进行 Supervised Learning,增加好样本的 Likelihood,降低坏样本的 Likelihood。
- RLHF 的局限性:
- Overoptimization (Goodhart’s Law):随着 Proxy Reward 的增加,真实的 Human Preference 最终会下降。
- Calibration 问题:RL 模型通常会出现过度自信 (Overconfident),不再是校准良好的 Probabilistic Model。
Slide 2: 动机:从人类反馈到可验证奖励
- Human Feedback 的难点:难以规模化 (Hard to scale),容易被 Hack,且人类偏好本身具有噪声。
- 新的范式 (Paradigm Shift):
- 借鉴 AlphaGo/AlphaFold 的成功经验。
- 在拥有 True Reward 的领域(如数学、代码)进行 RL。
- 目标:利用 Verifiable Rewards 进行大规模 Post-training。
Slide 3: PPO (Proximal Policy Optimization) 及其痛点
- 基础:Policy Gradient
- 公式:。
- 问题:需要频繁采样 (Rollouts 昂贵),属于 On-policy。
- PPO 的改进:
- 利用 Importance Sampling 进行 Off-policy 更新。
- Clipping:限制 Policy 更新幅度,防止参数偏离过远。
- PPO 的缺点:
- 实现极其复杂 (Implementation details matter)。
- 显存占用:需要维护一个与 Policy 模型一样大的 Value Model (Critic),显存成本加倍。
- 需要计算 Generalized Advantage Estimation (GAE)。
Slide 4: GRPO (Group Relative Policy Optimization) 核心概念
- 动机:去除 Value Model,降低系统资源消耗,保留 PPO 的稳定性。
- 算法机制:
- 对于每个输入问题 ,采样一组输出 (Group of outputs) 。
- Baseline:利用组内输出的平均 Reward 作为基线。
- Advantage 计算:
- 使用组内的 Z-score:
- 直觉:同一问题内的输出互为参照,消除了问题难度的影响。
Slide 5: GRPO 的实现细节
- KL Divergence Estimation:
- 使用一种低方差的估计器:
- Loss Function:
- 在 Online 设定下(单步更新),简化为加权 Policy Gradient。
- 通常包含 Clip 机制以保证训练稳定。
- Reward Shaping:
- Accuracy Reward:在序列末尾计算。
- KL Penalty:通常按 Token 级别计算。
Slide 6: GRPO 的数学争议与修正 (Dr. GRPO)
- 理论问题:
- Standard Deviation Division:除以标准差违反了 Policy Gradient Theorem(Baseline 必须独立于 Action)。这会导致算法偏向于极易或极难的问题(即 Variance 小的情况)。
- Length Normalization:如果 Reward 为负,模型倾向于生成极长的回复(BSing)以稀释惩罚。
- 修正建议:
- 移除 Standard Deviation 项。
- 修正长度归一化问题,可以避免 CoT 长度无限制增长。
Slide 7: Case Study 1: DeepSeek R1
- R1-Zero (Pure RL):
- 直接在 Base Model 上运行 RL。
- Rewards: Accuracy (Correctness) + Format (Thinking tags)。
- 现象:模型自发学会了长思维链 (Long CoT)、自我修正 (Self-correction/Aha moment)。
- R1 Pipeline (Full Recipe):
- Cold Start SFT:使用少量长思维链数据微调,提高可读性和收敛起点。
- Reasoning RL:使用 GRPO,增加 Language Consistency Reward 防止语言混合。
- General Post-training:加入非推理数据 SFT 和 RLHF,恢复通用能力。
- 重要发现:
- Distillation:将 R1 的思维链数据用于微调小模型 (如 Qwen),效果显著提升。
- Negative Results:PRM (Process Reward Models) 和 MCTS (Search) 在 R1 中并未带来明显收益,Outcome Reward 依然是主流。
Slide 8: Case Study 2: Kimi k1.5
- 概述:性能匹敌 OpenAI o1,采用类似的 Long CoT + RL 路线。
- 数据策略:
- Filtering:使用 Best-of-N 策略。如果是简单问题(任何一次采样都正确)则剔除,保留有挑战性的样本。
- RL 算法变体:
- 类似 DPO 的推导,使用 Squared Loss 对齐 Policy Ratio 和 Reward Difference。
- 本质上仍是带 Baseline 的 Policy Gradient。
- 长度控制 (Length Control):
- 不鼓励无限长的 CoT。
- Length Reward:只有当答案正确 (Correct) 时,才奖励较短的回复;答案错误时,推向平均长度。
- Curriculum:从易到难,按 比例采样。
Slide 9: Kimi k1.5 的系统架构
- RL 基础设施挑战:
- Rollouts 昂贵,且长 CoT 导致 Batch 极度不均匀。
- 架构设计:
- 解耦 Training Workers 和 Inference Workers。
- 使用消息传递同步权重和数据。
- 技巧:使用带有 Dummy weights 的 vLLM,甚至定期重启 Worker 以清理显存。
Slide 10: Case Study 3: Qwen 3 (Reasoning)
- 流程:Long CoT SFT -> Reasoning RL -> Thinking Mode Fusion -> RLHF。
- 数据效率:仅使用 ~4000 个样本进行 RL 即可获得显著提升。
- Thinking Mode Fusion (思维模式融合):
- 目的:在一个模型中同时支持 Thinking 和 Non-thinking 模式。
- 方法:微调模型识别
<think>和<no-think>标签。 - Test-time Scaling:支持强制提前结束思考(截断 CoT),在性能和推理成本之间进行权衡 (Trade-off)。
- Trade-off 观察:
- Reasoning RL 提升了数学/STEM 能力,但可能会损害通用指令遵循能力 (General Instruction Following),需要后期的 RLHF 修复。
Slide 11: 总结与展望
- RL is Powerful:从 RLHF 到基于 Verifiable Rewards 的 RL 是当前的趋势。
- 算法趋势:GRPO 及其变体证明了去除 Value Model 的可行性,简化了训练。
- 关键要素:
- Outcome Based Rewards 目前优于 Process Rewards。
- Data Curation (难度分级、去重) 至关重要。
- Inference Efficiency:控制 CoT 长度和推理成本是产品化的关键。