Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
稀疏奖励
稀疏奖励
技术
LWD采用的奖励机制,保证最终行为符合预期,配合分布式价值学习使用
1 次提及
2 个连接
首次出现: 2026-05-30
最近出现: 2026-05-30
关系图谱
关系 (2)
使用技术 (1)
LWD
应用于 (1)
机器人
相关文章 (1)
1.
InfoQ - 对话罗剑岚:把机器人“部署”本身变成训练的一部分