RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

内容摘要机器之心PRO · 会员通讯 Week 15--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---1. RL for LLMs,强化学习的 Scaling Law 才刚刚起步?为什么说 LLM 性能的下一个突破点是强

机器之心PRO · 会员通讯 Week 15

--- 本周为您解读 ②个值得细品的 AI Robotics 业内要事 ---

1. RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

为什么说 LLM 性能的下一个突破点是强化学习的 Scale?RL 是如何增强 LLM 的能力的?预训练与 RL 缺一不可,为什么单纯的 RL 并不能提高 LLM 的「智力」?RL 的 Scaling Law 才刚刚起步,有哪些关键难点?近期主流的 LLM 是如何通过强化学习来增强决策能力的?...

2. Anthropic 首席科学家的 AI「视界」如何判别 AGI 进程?

什么是 AI「视界」?AI「视界」正在如何快速进步?Anthropic 一直在关注 DeepSeek?Kaplan 对 Scaling Law 为何仍保持乐观?Anthropic 和 DeepMind 如何辨析「AGI 的加速时间表」?

...本期完整版通讯含 2 项专题解读 + 27 项本周 AI Robotics 赛道要事速递,其中技术方面 11 项,国内方面 4 项,国外方面 12 项。

本期通讯总计 21036 字,可免费试读至 8% 

 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 

要事解读① RL for LLMs,强化学习的 Scaling Law 才刚刚起步?

日期:4 月 11 日

预训练模型 x 强化学习=智能?

1、近期、来自 DeepSeek、清华大学的研究者发表了一项关于提升通用奖励模型(GRM)在推理阶段的可扩展性  的技术论文。研究者提出了名为「自我原则批评调整(SPCT)」的方法,通过拒绝式微调和基于规则的在线强化学习,使 GRM 通过动态生成原则和批评优化奖励生成。[1-1] 

2、在 o1 模型推出后,LLM 的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段,通过更多的强化学习(训练时计算)和更多的思考时间(测试时计算)来持续提高 o1 的性能。

① 即 o1 在响应用户之前会先产生一个很长的内部思维链,完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

② o1 开启了通过强化学习来实现 LLM 推理能力显著提升的路线,同样,DeepSeek-R1 系列模型也进一步验证了通过纯强化学习训练(无需监督微调)实现 LLM 推理能力的跃升。

3、LLM 本身依赖于「Next token prediction」机制,类似于概率模型,虽知识丰富但缺乏深度规划和长期结果预测能力,易陷入短视决策。而强化学习则起到补充作用,为 LLM 提供「Internal World Model」(内心世界模型),使 LLM 能够模拟不同推理路径的潜在结果、通过评估路径优劣并选择更优解,从而实现更系统化的长期规划,LLM 与 RL 的结合是提升复杂问题解决能力的关键。

4、清华叉院助理教授吴翼在一档播客节目中将 LLM 与强化学习的关系形容为「乘法关系」。强化学习虽然在决策能力上表现出色,但其本身无法提供理解能力。理解能力的构建需要依赖预训练模型,而强化学习则在此基础上进一步优化决策能力。两者的关系可以被形容为「乘法关系」,只有在预训练阶段构建了强大的理解能力、记忆能力和逻辑能力,强化学习才能充分发挥其潜力,最终实现一个完整的智能体。[1-2] 

5、在来自墨尔本大学、浙江大学等机构发布的综述论文《Reinforcement Learning Enhanced LLMs: A Survey》中,使用 RL 训练 LLMs 的过程可以大致分为三个主要步骤:

① 首先是奖励模型的训练。在微调之前,训练一个奖励模型(或奖励函数)来近似人类偏好并评估不同的 LLM 输出;

② 其次是基于偏好的微调。在每次微调迭代中,大型语言模型会为给定指令生成多个响应,每个响应都使用训练好的奖励模型进行评分;

③ 最后是策略优化,通过强化学习优化技术,根据偏好分数更新模型的权重,以提升响应生成。将强化学习纳入大型语言模型,使模型能够基于不同的偏好分数动态调整,而不是仅限于单一的预定答案。

RL 的 Scaling Law 才刚刚起步,有哪些关键难点?

1、尽管强化学习的 Post-Training 成为当前提升 LLM 性能的突破点。但强化学习算法仍有很大的改进空间,强化学习的 Scaling Law 才刚刚起步。

2、所谓的「强化学习的 Scaling Law」 指如何通过增加计算资源(如并行化处理、GPU 加速等)、训练样本或模型规模,来提升强化学习模型的性能。不同于传统的 Scaling Laws 范式,使用更多的数据和算力来实现模型性能的提升,强化学习的 Scaling Law 的影响因素更为复杂,包括样本吞吐量、模型参数量、训练环境的复杂度等。

3、目前,强化学习的 Scaling Law 面临的一大难题是奖励稀疏性,Reward model(奖励模型)是强化学习中的关键模块,生成准确的奖励信号至关重要。Reward model 要想实现泛化性和连续性成为关键重点。

RL for LLMs,强化学习的 Scaling Law 才刚刚起步?  
RL for LLMs,强化学习的 Scaling Law 才刚刚起步?  
RL for LLMs,强化学习的 Scaling Law 才刚刚起步?  
RL for LLMs,强化学习的 Scaling Law 才刚刚起步?
 
举报 收藏 打赏 评论 0
今日推荐
浙ICP备19001410号-1