Wesum AI

Direct Preference Optimization

技术

Direct Preference Optimization (DPO),一种直接在偏好数据上优化大语言模型的方法,通常作为 RLHF 的简化替代方案

4 次提及5 个连接首次出现: 2026-03-30最近出现: 2026-05-13

关系图谱

关系 (5)

相关文章 (4)