DeepSeek-R1-Distill-Qwen-1.5B

模型

用于 RLVR 后训练的蒸馏模型

2 次提及4 个连接首次出现: 2026-05-30最近出现: 2026-06-17

关系图谱

关系 (4)

使用技术 (3)

GRPO Chain-of-Thought 强化学习

发布 (1)

深度求索 DeepSeek

相关文章 (2)