Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
SelectiveRM
SelectiveRM
模型
基于部分最优传输方法,能自动排除噪声偏好的奖励模型
1 次提及
5 个连接
首次出现: 2026-06-15
最近出现: 2026-06-15
关系图谱
关系 (3)
使用技术 (1)
RLHF
应用于 (1)
AI安全
基于 (1)
ICML 2026
相关文章 (1)
1.
AI科技评论 - 从最优传输角度训练奖励模型:让RLHF学会「忽略错误偏好」丨ICML2026