Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
SOLAR-RL
SOLAR-RL
模型
一种全新提出的半在线强化学习训练模型,能稳定收敛
1 次提及
5 个连接
首次出现: 2026-06-27
最近出现: 2026-06-27
关系图谱
关系 (5)
发布 (3)
vivo AI Lab
之江实验室
中国科学院大学杭州高等研究院
基于 (1)
Qwen2.5-VL-7B-Instruct
竞争 (1)
UI-TARS-7B-SFT
相关文章 (1)
1.
量子位 - 长链路手机AI训练总崩盘?vivo全新半在线RL,仅15k轨迹稳定收敛