Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
Token Superposition Training
Token Superposition Training
技术
在预训练前半程将连续token的embedding叠加,后半程切回标准训练的方法
1 次提及
2 个连接
首次出现: 2026-05-14
最近出现: 2026-05-16
关系图谱
关系 (2)
发布 (1)
Nous Research
竞争 (1)
MoE
相关文章 (1)
1.
InfoQ - Hermes团队改写预训练:算力成本降六成,DeepSeek之后提效新路径