RLAF
技术RLAF(Reinforcement Learning from Agentic/Automaton Feedback),结合智能体反馈或自动机反馈的强化学习框架,用于多视角评论集成训练或复杂历史依赖任务的奖励函数学习
1 次提及1 个连接首次出现: 2026-04-08最近出现: 2026-04-08
RLAF(Reinforcement Learning from Agentic/Automaton Feedback),结合智能体反馈或自动机反馈的强化学习框架,用于多视角评论集成训练或复杂历史依赖任务的奖励函数学习