Wesum AI

On-Policy Token-Level 蒸馏

技术

学生模型在自身生成轨迹上获得教师纠正信号的训练机制

1 次提及2 个连接首次出现: 2026-05-19最近出现: 2026-05-19

关系图谱

关系 (2)

使用技术 (1)

应用于 (1)

相关文章 (1)