Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
PPO
PPO
技术
PPO(近端策略优化),一种基于策略梯度的深度强化学习算法,通过裁剪目标函数实现高效稳定的策略更新,常用于大模型 RLHF 对齐训练
12 次提及
16 个连接
首次出现: 2026-04-03
最近出现: 2026-06-23
关系图谱
关系 (17)
使用技术 (8)
GTR-Turbo
AdaGen
ManiDreams
RLHF
Targeted RL
TeamTR
强化学习
AstraBrain-WBC 0.5
基于 (5)
REINFORCE
DPPO
GRPO
Deep RL
GIPO
应用于 (3)
具身智能
LLM推理
AI对齐
竞争 (1)
GIPO
相关文章 (12)
1.
量子位 - 别再花钱请GPT当老师了!GTR-Turbo用「历史经验」自我蒸馏,训练成本砍半,效果反超丨CVPR'26
2.
机器之心 - AdaGen-让图像生成模型学会自适应策略
3.
具身智能之心 - WAM一直在回避和翻车的事情被ManiDreams解决了,并且同步开源!
4.
机器之心 - 强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史
5.
机器之心 - OpenAI翁家翌:梯度之外,下一个AI训练范式有着落了?
6.
机器之心 - ICML2026告别「利用率崩溃」:GIPO开启大模型强化学习高效训练新方法
7.
极市平台 - 他们跑,Cursor追,半年接近第一梯队
8.
AI科技大本营 - 告别「利用率崩溃」:GIPO开启大模型强化学习高效训练新方法ICML2026
9.
PaperWeekly - 8个Agent也能稳定收敛,信任域约束重塑多Agentic工作流ICML2026
10.
PaperAgent - 飙升169%!人大UnityMAS-O让Multi-Agent踏入可训练时代
11.
AI科技评论 - 超越SONIC!人形机器人通用小脑迎来GPT时刻
12.
InfoQ - 拿下OpenAIOffer后,她复盘了57场面试:Transformer要会手写,LeetCode还得刷