Wesum AI

Targeted RL

技术

针对长程信用分配的强化学习方法,结合RL与自蒸馏将稀疏奖励转化为稠密反馈

1 次提及4 个连接首次出现: 2026-05-21最近出现: 2026-05-21

关系图谱

关系 (4)

使用技术 (3)

应用于 (1)

相关文章 (1)