Next-ToBE

技术

一种不改变模型结构、将 one-hot 目标替换为覆盖未来窗口的软目标分布的训练方法

2 次提及7 个连接首次出现: 2026-05-10最近出现: 2026-06-16

关系图谱

关系 (9)

应用于 (4)

Qwen2.5 LLaMA 3 代码生成数学推理

基于 (2)

Next-Token Prediction Multi-Token Prediction

使用技术 (2)

Qwen2.5 LLaMA 3

竞争 (1)

相关文章 (2)