Wesum AI

STAPO算法

技术

STAPO算法,Spurious-Token-Aware Policy Optimization(基于伪令牌感知的策略优化)算法,由滴滴与清华联合提出,用于大模型强化学习微调训练并显著提升训练稳定性与推理性能

1 次提及2 个连接首次出现: 2026-04-22最近出现: 2026-04-22

关系图谱

关系 (2)

发布 (1)

应用于 (1)

相关文章 (1)