Wesum AI

Direct Preference Optimization

技术

文中用于优化几何感知的结构化强化学习方法(DPO)

2 次提及3 个连接首次出现: 2026-03-30最近出现: 2026-04-13

关系图谱

关系 (3)

相关文章 (2)