Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
稀疏注意力
稀疏注意力
技术
稀疏注意力,一种优化Transformer注意力机制的技术,通过仅计算部分关键token对降低计算复杂度,常用于长文本处理
9 次提及
18 个连接
首次出现: 2026-04-06
最近出现: 2026-06-19
关系图谱
关系 (18)
使用技术 (13)
DeepSeek V3
GLM-5
SubQ
瞬悉2.0
Grok V9
Keye-VL-2.0
Attention Mechanism
Stem
Qwen3-Coder-30B-A3B
Qwen3.5-35B-A3B
Full Attention
KV Cache
GLM-5.2
应用于 (4)
长文本理解
长序列推理
多模态理解
代码生成
发布 (1)
腾讯
相关文章 (9)
1.
CVer - 北大团队改造DeepSeek注意力,速度快四倍还不丢精度!
2.
DeepTech深科技 - 号称1200万token上下文的模型来了,数据亮眼但疑点重重
3.
ScienceAI - 中国科学院发布类脑大模型瞬悉2.0,打破长序列与低功耗部署核心瓶颈
4.
腾讯研究院 - 腾讯研究院AI速递20260527
5.
"财联社AI daily" - 腾讯混元提出Stem稀疏注意力算法,首字延迟降低3.6倍
6.
腾讯混元 - 首字延迟降低3.6倍,腾讯混元提出Stem稀疏注意力算法,长文推理加速新SOTA
7.
机器之心 - 阿里RTPurboV2:原生Transformer再次崛起,百步训练实现10倍稀疏注意
8.
花叔 - MSA上桌,稀疏注意力玩家开始三国杀!
9.
量子位 - 马斯克预测GLM明年Q1追平Fable,智谱唐杰:没那么久