Wesum AI

PPO

技术

PPO(近端策略优化),一种基于策略梯度的深度强化学习算法,通过裁剪目标函数实现高效稳定的策略更新,常用于大模型 RLHF 对齐训练

12 次提及16 个连接首次出现: 2026-04-03最近出现: 2026-06-23

关系图谱

关系 (17)

相关文章 (12)