Wesum AI

RLAIF

技术

RLAIF,基于 AI 反馈的强化学习技术,常用于替代人类反馈以实现语言模型的对齐与微调

6 次提及10 个连接首次出现: 2026-04-10最近出现: 2026-06-29

关系图谱

关系 (10)

相关文章 (6)