Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Dr. GRPO
Dr. GRPO
技术
修正了损失聚合偏置并消除长度奖励扭曲的GRPO改进算法
1 次提及
1 个连接
首次出现: 2026-05-01
最近出现: 2026-05-01
关系图谱
关系 (1)
基于 (1)
GRPO
相关文章 (1)
1.
机器之心 - 强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史