Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Flow-GRPO
Flow-GRPO
模型
使用奖励模型的强化学习基线方法
1 次提及
3 个连接
首次出现: 2026-04-23
最近出现: 2026-04-23
关系图谱
关系 (3)
使用技术 (2)
GRPO
RL
竞争 (1)
SOAR
相关文章 (1)
1.
量子位 - 视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏