Wesum AI

GRPO

技术

GRPO,群组相对策略优化算法,无需价值网络即可优化 LLM 推理能力,典型应用于 DeepSeek 模型的强化学习训练

157 次提及127 个连接最近出现: 2026-06-27

关系图谱

关系 (136)

相关文章 (157)

下滑加载更多...(已显示 30 / 157