「RLHF/对齐」分类下共 4 篇文章。
全面解析 RLHF 的三阶段训练流程(SFT、奖励模型、PPO),理解为什么大语言模型需要人类反馈来对齐。
深入理解 PPO 的裁剪机制和稳定性原理,掌握它在 RLHF 中如何平衡探索与利用,避免训练崩溃。
解析 DeepSeek 的 GRPO 算法如何通过群体采样和相对奖励,实现更高效稳定的对齐训练,以及它在 DeepSeek 系列模型中的应用。
解析 DPO 如何用一个简单的分类损失替代复杂的 RLHF 流程,理解其背后的 Bradley-Terry 模型和数学直觉。