Wesum AI

Expert-Induced Policy Optimization

技术

EIPO,一种用专家调度策略计算专家优势以替代传统RL稀疏终局奖励的强化微调技术

1 次提及1 个连接首次出现: 2026-05-29最近出现: 2026-05-29

关系图谱

关系 (1)

使用技术 (1)

相关文章 (1)