RL微调

技术

强化学习微调，其奖励结构被指出是导致模型习得见好就收策略的根本原因

1 次提及1 个连接首次出现: 2026-06-11最近出现: 2026-06-11

关系图谱

关系 (1)

使用技术 (1)

相关文章 (1)