RLHF

技术

RLHF，基于人类反馈的强化学习技术，通过训练奖励模型使 AI 行为对齐人类偏好，典型应用于 ChatGPT 等大模型对齐

166 次提及99 个连接首次出现: 2026-03-30最近出现: 2026-06-28

关系图谱

关系 (112)

使用技术 (72)

应用于 (26)

使用 (7)

MiniMax Anthropic 阿里巴巴科大讯飞阿里字节跳动深度求索 DeepSeek

基于 (3)

GRPO Heuristic Learning 强化学习

创建 (2)

苏炜杰 Nathan Lambert

竞争 (1)

发布 (1)

相关文章 (166)

下滑加载更多...（已显示 30 / 166）