Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Distill-Qwen-1.5B
模型
用于 RLVR 后训练的蒸馏模型
2 次提及
4 个连接
首次出现: 2026-05-30
最近出现: 2026-06-17
关系图谱
关系 (4)
使用技术 (3)
GRPO
Chain-of-Thought
强化学习
发布 (1)
深度求索 DeepSeek
相关文章 (2)
1.
机器之心 - AdamW和Muon的失稳根源有解了,港中文新优化器Pion:在等谱流形上更新大模型
2.
机器之心 - ACL2026Main|混合推理模型也会「钻空子」:南大移动团队提出TNT,破解「假装不思考」骗奖励