稀疏注意力

技术

稀疏注意力，一种优化Transformer注意力机制的技术，通过仅计算部分关键token对降低计算复杂度，常用于长文本处理

9 次提及18 个连接首次出现: 2026-04-06最近出现: 2026-06-19

关系图谱

关系 (18)

使用技术 (13)

DeepSeek V3 GLM-5 SubQ 瞬悉2.0 Grok V9 Keye-VL-2.0 Attention Mechanism Stem Qwen3-Coder-30B-A3B Qwen3.5-35B-A3B Full Attention KV Cache GLM-5.2

应用于 (4)

长文本理解长序列推理多模态理解代码生成

发布 (1)

相关文章 (9)