STAPO算法

技术

STAPO算法，Spurious-Token-Aware Policy Optimization（基于伪令牌感知的策略优化）算法，由滴滴与清华联合提出，用于大模型强化学习微调训练并显著提升训练稳定性与推理性能

1 次提及2 个连接首次出现: 2026-04-22最近出现: 2026-04-22

关系图谱