Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
RL微调
RL微调
技术
强化学习微调,其奖励结构被指出是导致模型习得见好就收策略的根本原因
1 次提及
1 个连接
首次出现: 2026-06-11
最近出现: 2026-06-11
关系图谱
关系 (1)
使用技术 (1)
Opus 4.8
相关文章 (1)
1.
夕小瑶科技说 - 实锤了,Anthropic解密Opus4.8降智真相