动态采样
技术动态采样(Dynamic Sampling),强化学习训练中的数据收集策略,通过丢弃过长的 prompt 并补充合格的 prompt 来稳定 batch 内数据的方差,典型应用于 DAPO 和大模型对齐训练
1 次提及1 个连接首次出现: 2026-04-03最近出现: 2026-04-03
动态采样(Dynamic Sampling),强化学习训练中的数据收集策略,通过丢弃过长的 prompt 并补充合格的 prompt 来稳定 batch 内数据的方差,典型应用于 DAPO 和大模型对齐训练