Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
DAPO
DAPO
技术
DAPO,解耦裁剪与动态采样策略优化算法,用于大语言模型的强化学习训练与对齐
3 次提及
3 个连接
首次出现: 2026-04-18
最近出现: 2026-06-02
关系图谱
关系 (3)
使用技术 (2)
强化学习
TeamTR
基于 (1)
GRPO
相关文章 (3)
1.
机器之心 - 不写Prompt,连按Tab完成重构:蚂蚁CodeFuse团队提出无指令代码编辑框架NES
2.
机器之心 - 强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史
3.
PaperWeekly - 8个Agent也能稳定收敛,信任域约束重塑多Agentic工作流ICML2026