Wesum AI

Value model

模型

Value model,强化学习中评估状态或动作长期收益的组件(或在 AI 对齐中指代价值观对齐模型),典型应用于 RLHF 奖励建模

1 次提及1 个连接首次出现: 2026-04-25最近出现: 2026-04-25

关系图谱

关系 (1)

相关文章 (1)