MSRL

技术

多阶段RL框架，通过文本偏好数据训练并迁移至多模态任务的奖励模型

1 次提及4 个连接首次出现: 2026-04-30最近出现: 2026-04-30

关系图谱

关系 (4)

应用于 (4)

图像生成视频生成多模态理解 CVPR 2026

相关文章 (1)