Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
TST
TST
技术
Token Superposition Training,通过在前半程叠加连续token的embedding并在后半程恢复,实现最高2.5倍预训练提速的训练方法
2 次提及
4 个连接
首次出现: 2026-05-14
最近出现: 2026-05-15
关系图谱
关系 (5)
应用于 (2)
预训练
MoE
使用技术 (2)
MoE
MCE
创建 (1)
Nous Research
相关文章 (2)
1.
PaperWeekly - 不改架构、不加算力:NousResearch巧用Token叠加,预训练提速2.5倍
2.
AI前线 - Hermes团队改写预训练:算力成本降六成,DeepSeek之后提效新路径