Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Direct Preference Optimization
Direct Preference Optimization
技术
Direct Preference Optimization (DPO),一种直接在偏好数据上优化大语言模型的方法,通常作为 RLHF 的简化替代方案
4 次提及
5 个连接
首次出现: 2026-03-30
最近出现: 2026-05-13
关系图谱
关系 (5)
应用于 (5)
VLM
AI科研助手
AI对齐
数学推理
医疗AI
相关文章 (4)
1.
量子位 - VLM解几何题总翻车?GEODPO从「看」入手:用结构化表示+DPO优化,让模型先看懂再推理丨ICLR'26
2.
Z Finance - 深度|115篇接收、12篇Oral!字节跳动ICLR2026成绩单刷屏,基座+多模态火力集中
3.
PaperWeekly - 无惧Off-Policy偏移!Bengio团队解绑后训练,大模型RL提速50倍
4.
机器之心 - ICML2026将多教师冲突转化为动态约束,破解多模态大模型推理对齐难题