Wesum AI

PPO-clip

技术

PPO-clip,近端策略优化中的裁剪变体,通过限制策略更新幅度保持训练稳定,常用于强化学习

1 次提及1 个连接首次出现: 2026-04-09最近出现: 2026-04-09

关系图谱

关系 (1)

使用技术 (1)

相关文章 (1)