Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Tri-state 标注
Tri-state 标注
技术
Tri-state 标注,强化学习中将奖励建模转化为相对优势分类(+1推进,-1回退,0停滞)的方法,应用于基于AI反馈的强化学习(RLAIF)
1 次提及
1 个连接
首次出现: 2026-04-28
最近出现: 2026-04-28
关系图谱
关系 (1)
使用技术 (1)
AW-BC
相关文章 (1)
1.
具身智能之心 - 如何让你的policy在柔性长程操作任务上表现更加稳定?ARM:pi0.6的低成本复现方案