强化学习知识补课:同样的数据集,SFT 和 RL 学到的东西为什么不一样? 前言 我本人虽然学习的是自然语言处理专业,但当时跟着的学习资料主要是深度学习相关的,但对于强化学习的了解非常少。然而现在 LLM 的效果增强越来越依赖于强化学习, 2026-03-17 · aopstudio · 强化学习 LLM SFT PPO · 0 评论 · 0 浏览