Wesum AI

Tri-state 标注

技术

Tri-state 标注,强化学习中将奖励建模转化为相对优势分类(+1推进,-1回退,0停滞)的方法,应用于基于AI反馈的强化学习(RLAIF)

1 次提及1 个连接首次出现: 2026-04-28最近出现: 2026-04-28

关系图谱

关系 (1)

使用技术 (1)

相关文章 (1)