GRPO

技术

GRPO，群组相对策略优化算法，无需价值网络即可优化 LLM 推理能力，典型应用于 DeepSeek 模型的强化学习训练

157 次提及127 个连接最近出现: 2026-06-27

关系图谱

关系 (136)

使用技术 (98)

MMDuet2 TrustJudge Qwen2.5 LongCat-Next GR4AD Qwen2.5 AgentConductor DeepSeek R1 Hermes reverse-KL TDM-R1 Qwen3 RAGEN-2 LatentUM Agent SANA FLUX.1 SD3.5-L ClawGUI-2B TokenRig Flow-GRPO 3D生成 KVL 多模态架构 Hermes Agent DeepSeek V4 DeepSeek V3 IBISAgent MathForge LLaMA 3 STReasoner DeepSeek V4-Pro Claude Opus 4.6 uAI Nexus MedVLM Doc-V*DeepSeek-V4-Flash DeepSeek GPT-5 Agent-World-14B Qwen2.5-VL-3B-Instruct Qwen2.5-VL-7B-Instruct 自然语言自动编码器 (NLA)自然语言自动编码器 Microsoft Opus 4.6 Natural Language Autoencoders CodePercept-8B-R1 CodePercept-8B XinMM-AM1 AntAngelMed CodePercept I²B-LPO DYPO MemPrivacy-4B-RL CX-Mind Thoth Qwen3-VL-8B Qwen3-VL-4B Atlas SxS Interleaved Reasoning Evolver 北京大学山东大学 DSRL Terminus-4B Qwen3-4B-Base Qwen3-8B-Base Gamma Targeted RL RLHF Unified Thinker Ophiuchus-7B Kimi 2.5 AutoWebWorld NVIDIA Qwen3-1.7B DeepSeek-R1-Distill-Qwen-1.5B MetaAgent-X Abstract-CoT DiffusionOPD SLIM 快手 SE-GA MiniMax-01 LoRA TeamTR Qwen3-8B OmniVTG PaddleOCR-VL-1.6 AesThinker OneReason ReTAS Crayotter UniRL AutoResearch SKILL GoLongRL-30B-A3B E-GRM TRM SocraticPO

应用于 (20)

基于 (12)

JoyAI-LLM Flash SFT DeepSeek R1 DGPO MedGRPO RLHF Dr. GRPO DAPO CISPO PPO LA-GRPO 强化学习

使用 (2)

字节跳动 NVIDIA

竞争 (2)

发布 (1)

创建 (1)

相关文章 (157)

下滑加载更多...（已显示 30 / 157）