DPH-RL

技术

DPH-RL，分治式保多样性强化学习训练框架，通过f-散度替代传统反向KL散度，有效保持模型多样性并缓解灾难性遗忘

1 次提及5 个连接首次出现: 2026-04-09最近出现: 2026-04-09

关系图谱

关系 (5)

发布 (3)

复旦大学无限光年上海科学智能研究院

使用技术 (2)

forward-KL PPO-clip

相关文章 (1)