Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
SelectiveRM
SelectiveRM
技术
基于最优传输的选择性分布对齐奖励模型训练方法
1 次提及
5 个连接
首次出现: 2026-05-13
最近出现: 2026-05-13
关系图谱
关系 (5)
应用于 (2)
AI安全
AI对齐
使用技术 (1)
RLHF
创建 (1)
潘黎铖
使用 (1)
小红书
相关文章 (1)
1.
AI科技评论 - 从最优传输角度训练奖励模型:让RLHF学会「忽略错误偏好」丨ICML2026