Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
DYPO
DYPO
技术
动态策略优化框架,根据样本学习阶段动态分配SFT或RL优化路径
1 次提及
5 个连接
首次出现: 2026-05-14
最近出现: 2026-05-14
关系图谱
关系 (5)
使用技术 (4)
SFT
RL
GRPO
多教师蒸馏
应用于 (1)
数学与逻辑推理
相关文章 (1)
1.
量子位 - 当SFT遇上RL:基于样本学习阶段的动态策略优化机制