STAPO算法,Spurious-Token-Aware Policy Optimization(基于伪令牌感知的策略优化)算法,由滴滴与清华联合提出,用于大模型强化学习微调训练并显著提升训练稳定性与推理性能