Wesum AI

潜在过程奖励模型

技术

LPRM,从潜在状态直接预测轨迹质量的候选答案选择策略

1 次提及1 个连接首次出现: 2026-05-23最近出现: 2026-05-23

关系图谱

关系 (1)

使用技术 (1)

相关文章 (1)