GRPO
技术GRPO,群组相对策略优化算法,无需价值网络即可优化 LLM 推理能力,典型应用于 DeepSeek 模型的强化学习训练
157 次提及127 个连接最近出现: 2026-06-27
关系图谱
关系 (136)
使用技术 (98)
MMDuet2TrustJudgeQwen2.5LongCat-NextGR4ADQwen2.5AgentConductorDeepSeek R1Hermesreverse-KLTDM-R1Qwen3RAGEN-2LatentUMAgentSANAFLUX.1SD3.5-LClawGUI-2BTokenRigFlow-GRPO3D生成KVL 多模态架构Hermes AgentDeepSeek V4DeepSeek V3IBISAgentMathForgeLLaMA 3STReasonerDeepSeek V4-ProClaude Opus 4.6uAI Nexus MedVLMDoc-V*DeepSeek-V4-FlashDeepSeekGPT-5Agent-World-14BQwen2.5-VL-3B-InstructQwen2.5-VL-7B-Instruct自然语言自动编码器 (NLA)自然语言自动编码器MicrosoftOpus 4.6Natural Language AutoencodersCodePercept-8B-R1CodePercept-8BXinMM-AM1AntAngelMedCodePerceptI²B-LPODYPOMemPrivacy-4B-RLCX-MindThothQwen3-VL-8BQwen3-VL-4BAtlasSxS Interleaved ReasoningEvolver北京大学山东大学DSRLTerminus-4BQwen3-4B-BaseQwen3-8B-BaseGammaTargeted RLRLHFUnified ThinkerOphiuchus-7BKimi 2.5AutoWebWorldNVIDIAQwen3-1.7BDeepSeek-R1-Distill-Qwen-1.5BMetaAgent-XAbstract-CoTDiffusionOPDSLIM快手SE-GAMiniMax-01LoRATeamTRQwen3-8BOmniVTGPaddleOCR-VL-1.6AesThinkerOneReasonReTASCrayotterUniRLAutoResearch SKILLGoLongRL-30B-A3BE-GRMTRMSocraticPO
应用于 (20)
发布 (1)
创建 (1)
相关文章 (157)
下滑加载更多...(已显示 30 / 157)