PPO

技术

PPO（近端策略优化），一种基于策略梯度的深度强化学习算法，通过裁剪目标函数实现高效稳定的策略更新，常用于大模型 RLHF 对齐训练

12 次提及16 个连接首次出现: 2026-04-03最近出现: 2026-06-23

关系图谱

关系 (17)

使用技术 (8)

GTR-Turbo AdaGen ManiDreams RLHF Targeted RL TeamTR 强化学习 AstraBrain-WBC 0.5

基于 (5)

REINFORCE DPPO GRPO Deep RL GIPO

应用于 (3)

具身智能 LLM推理 AI对齐

竞争 (1)

相关文章 (12)