Wesum AI

MSRL

技术

多阶段RL框架,通过文本偏好数据训练并迁移至多模态任务的奖励模型

1 次提及4 个连接首次出现: 2026-04-30最近出现: 2026-04-30

关系图谱

关系 (4)

相关文章 (1)