Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
DSRL
DSRL
技术
双空间联合优化方法,结合预训练空间预热和后训练空间精化
1 次提及
1 个连接
首次出现: 2026-05-18
最近出现: 2026-05-18
关系图谱
关系 (1)
使用技术 (1)
GRPO
相关文章 (1)
1.
PaperWeekly - 从P(yx)到P(y):将RL引入预训练空间,激发大模型内生推理