Wesum AI

稀疏奖励

技术

LWD采用的奖励机制,保证最终行为符合预期,配合分布式价值学习使用

1 次提及2 个连接首次出现: 2026-05-30最近出现: 2026-05-30

关系图谱

关系 (2)

使用技术 (1)

应用于 (1)

相关文章 (1)