Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
DPH-RL
DPH-RL
技术
分治式保多样性强化学习训练框架
1 次提及
5 个连接
首次出现: 2026-04-09
最近出现: 2026-04-09
关系图谱
关系 (5)
发布 (3)
复旦大学
无限光年
上海科学智能研究院
使用技术 (2)
forward-KL
PPO-clip
相关文章 (1)
1.
新智元 - RL特训出「押题大师」?破解模型微调中的多样性危机与灾难性遗忘