Wesum AI

TST

技术

Token Superposition Training,通过在前半程叠加连续token的embedding并在后半程恢复,实现最高2.5倍预训练提速的训练方法

2 次提及4 个连接首次出现: 2026-05-14最近出现: 2026-05-15

关系图谱

关系 (5)

应用于 (2)

使用技术 (2)

创建 (1)

相关文章 (2)