Wesum AI

DPH-RL

技术

DPH-RL,分治式保多样性强化学习训练框架,通过f-散度替代传统反向KL散度,有效保持模型多样性并缓解灾难性遗忘

1 次提及5 个连接首次出现: 2026-04-09最近出现: 2026-04-09

关系图谱

关系 (5)

相关文章 (1)