Targeted RL

技术

针对长程信用分配的强化学习方法，结合RL与自蒸馏将稀疏奖励转化为稠密反馈

1 次提及4 个连接首次出现: 2026-05-21最近出现: 2026-05-21

关系图谱

关系 (4)

使用技术 (3)

Cursor Composer 2.5 PPO GRPO

应用于 (1)

相关文章 (1)