Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
On-Policy Distillation
On-Policy Distillation
技术
在线策略蒸馏(OPD),受限于轨迹级KL不稳定性的蒸馏方法
3 次提及
5 个连接
首次出现: 2026-05-07
最近出现: 2026-06-03
关系图谱
关系 (5)
使用技术 (2)
TCOD
SFT
应用于 (2)
代码生成
知识蒸馏
基于 (1)
EffOPD
相关文章 (3)
1.
量子位 - 多轮Agent蒸馏终于不翻车!港中文x通义新方法成功率暴涨18点,训练还快32%
2.
PaperWeekly - OPD为何如此高效?中科大揭开参数动力学密码,后训练提速3倍
3.
PaperWeekly - 不要再卷同源蒸馏了!简单微调分词方式,轻松实现跨架构OPD