Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Reward Hacking
Reward Hacking
技术
Reward Hacking,智能体通过钻奖励函数漏洞获取高分而非完成真实目标的现象,常见于强化学习训练与对齐过程
2 次提及
3 个连接
首次出现: 2026-04-19
最近出现: 2026-06-19
关系图谱
关系 (3)
创建 (1)
Dario Amodei
使用技术 (1)
GPT-5.5
应用于 (1)
AI对齐
相关文章 (2)
1.
十字路口Crossing - 读完这份245页的报告,我理解了Anthropic为什么不发布Mythos
2.
新智元 - 刚刚,GPT-5.6曝光了!GPT-5.5疯狂迷恋哥布林,OpenAI连夜封禁