Wesum AI

PPO算法

技术

PPO,近端策略优化算法,一种常用于强化学习的策略梯度方法,是大模型 RLHF 对齐训练的核心算法

1 次提及1 个连接首次出现: 2026-04-24最近出现: 2026-04-24

关系图谱

关系 (1)

应用于 (1)

相关文章 (1)