Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Direct Preference Optimization
Direct Preference Optimization
技术
文中用于优化几何感知的结构化强化学习方法(DPO)
2 次提及
3 个连接
首次出现: 2026-03-30
最近出现: 2026-04-13
关系图谱
关系 (3)
应用于 (3)
VLM
AI科研助手
AI对齐
相关文章 (2)
1.
量子位 - VLM解几何题总翻车?GEODPO从「看」入手:用结构化表示+DPO优化,让模型先看懂再推理丨ICLR'26
2.
Z Finance - 深度|115篇接收、12篇Oral!字节跳动ICLR2026成绩单刷屏,基座+多模态火力集中