DYPO

技术

动态策略优化框架，根据样本学习阶段动态分配SFT或RL优化路径

1 次提及5 个连接首次出现: 2026-05-14最近出现: 2026-05-14

关系图谱

关系 (5)

使用技术 (4)

SFT RL GRPO 多教师蒸馏

应用于 (1)

数学与逻辑推理

相关文章 (1)