Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
REINFORCE
REINFORCE
技术
带奖励加权的SFT基础策略梯度算法
3 次提及
4 个连接
首次出现: 2026-05-01
最近出现: 2026-06-08
关系图谱
关系 (4)
基于 (2)
PPO
RLOO
使用技术 (2)
Janus-Pro-7B
MANGO
相关文章 (3)
1.
机器之心 - 强化学习的进化:从PPO到MaxRL,LLM推理训练的算法演进史
2.
AI科技评论 - BIGAI&中科大团队提出MILR-测试时隐空间推理,让图像生成学会「边想边改」丨ICLR2026
3.
机器之心 - 解锁AgentSwarm新潜力,openJiuwen又一力作:多智能体流网络