DAPO

技术

DAPO，解耦裁剪与动态采样策略优化算法，用于大语言模型的强化学习训练与对齐

3 次提及3 个连接首次出现: 2026-04-18最近出现: 2026-06-02

关系图谱

关系 (3)

使用技术 (2)

强化学习 TeamTR

基于 (1)

相关文章 (3)