REINFORCE

技术

带奖励加权的SFT基础策略梯度算法

3 次提及4 个连接首次出现: 2026-05-01最近出现: 2026-06-08

关系图谱

关系 (4)

基于 (2)

使用技术 (2)

Janus-Pro-7B MANGO

相关文章 (3)