强化学习

技术

强化学习，AI通过与环境交互试错来优化决策策略的方法论，典型应用包括AlphaGo、机器人控制

351 次提及265 个连接首次出现: 2026-03-31最近出现: 2026-06-29

关系图谱

关系 (274)

使用技术 (209)

DVDF GLM-5 具身智能 Psi-R2 Psi-W0 Vero Genie Sim ORCA Lab 1.0 Genie Studio Agent LatentUM 深度求索 DeepSeek NVIDIA AWE3.0 GO-2基础模型追觅 DAPO ABot-N0 SocialNav Sudo R1 IHIQL ICRL GCMBC NMR Genie Envisioner 2.0 ADS 隐空间世界模型破壳机器人 Momenta R7 talkie LWD GPT-5.5 VFA GPT-5.1 DeepSeek V3.1 NB-Cell GS-Playground GPT-4 DeepSeek V4 NB-Cell Prefix RL Agent-World-14B DeepSeek-V4-Flash Oxygen Vision LfHV 视觉语言导航 Agent DreamerV3 Physical Intelligence Harness Helix Helix 2 Microsoft REFORM HiLight UniDoc-RL LaST-R1 Stellaris-VL-4B CodePercept-8B TBA框架 Hy3 preview E-TTS Claude Opus 4.6 Qwen3 Muse Spark 灵初智能 HTD Opus 4.7 Helix 02 MuseSpark PoliFormer Ring-2.6-1T World-R1 GIPO AcceRL DeepSeek R1 Composer 2.5 Composer 2.5 SU-01 HyperEyes OpenAI Anthropic GPT-5 Atlas 驭势科技百炼 DeG VLA OneModel 1.7 FrontoStria-RL Echo-N1 OPPO GigaBrain-0.5M*Agentic RL 百川M4 逆矩阵科技 Grok V9-Medium AlphaProof GPT-5.6 SkyClaw-v1.0 SOFisher AlphaProof Nexus Unified Thinker 他山科技 AcceRL FAM系列 SUGAR VTLA模型 M2RL RSAgent Claude Mythos GigaBrain-0 MetaAgent-X DiffusionOPD SenseNova-U1-8B-MoT-Infographic 生成认知 Flex 2 Mindverse AlphaGo AlphaFold 百灵 v2.6 Suno SRC系列控制器银河通用 OntoZ 混元3 RLaaS 发布 MANGO UniSim-Real UniLab 新程Alpha PhysWorld Rinna 新程 Alpha 阿里巴巴 AlpaGym 阿里千问高考志愿填报Agent OpenClaw 千问高考志愿大模型 PPO Phi-Bot X1 Kairos Robust-U1 世界模型 AlphaZero 悟界·Physis-v0.1 Kairos-4B GPT-3 BudgetMem 摩尔线程 AlphaEvolve 光象科技宇树G1 SkyReels V4 HyVLA-0.5 HY World DM0 MiniMax-01 Qwen2.5 Physis-v0.1 灵心巧手星海图 Cursor 新模型九章云极 DeepSeek-R1-Distill-Qwen-1.5B DeepScaleR-1.5B AI工厂 Qwen LLaMA VibeThinker-3B AstraBrain WAM 0.5 训练工厂 Spectrum-to-Signal MGPO Codex Agent PixVerse R1 Alaya NeW AI工厂 Qwen2.5-3B Qwen3-30B-A3B UniRL G0.5 VLA Phi-Bot X1 slime M4 医学增强模型 Fugu Ultra Stellaris-VL-0.8B Fugu 正行创新 Seed2.1 Momenta R7世界模型 Unitree H2 TRM SocraticPO 智元机器人 DreamX-World 1.0 Jalapeño AlphaChip VideoTemp-o3 WorldPlay PhoneBuddy-4B 子曰3 子曰4 全要素大模型 Mirendi Fugu Ultra UI-TARS-7B-SFT Patronus AI 瓦特跳动

应用于 (55)

使用 (3)

索尼蚂蚁集团百型智能

基于 (3)

POMDP RLHF GRPO

创建 (2)

吴翼 Lerrel Pinto

竞争 (2)

感知学习算法监督学习

相关文章 (351)

下滑加载更多...（已显示 30 / 351）