Wesum AI

RLHF

技术

RLHF,基于人类反馈的强化学习技术,通过训练奖励模型使 AI 行为对齐人类偏好,典型应用于 ChatGPT 等大模型对齐

166 次提及99 个连接首次出现: 2026-03-30最近出现: 2026-06-28

关系图谱

关系 (112)

相关文章 (166)

下滑加载更多...(已显示 30 / 166