Direct Preference Optimization

技术

Direct Preference Optimization (DPO)，一种直接在偏好数据上优化大语言模型的方法，通常作为 RLHF 的简化替代方案

4 次提及5 个连接首次出现: 2026-03-30最近出现: 2026-05-13

关系图谱

关系 (5)

应用于 (5)

VLM AI科研助手 AI对齐数学推理医疗AI

相关文章 (4)