Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Targeted RL
Targeted RL
技术
针对长程信用分配的强化学习方法,结合RL与自蒸馏将稀疏奖励转化为稠密反馈
1 次提及
4 个连接
首次出现: 2026-05-21
最近出现: 2026-05-21
关系图谱
关系 (4)
使用技术 (3)
Cursor Composer 2.5
PPO
GRPO
应用于 (1)
代码生成
相关文章 (1)
1.
极市平台 - 他们跑,Cursor追,半年接近第一梯队