Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
RL
RL
技术
RL(强化学习),通过与环境交互获取奖励反馈来优化决策策略的方法,典型应用于自动驾驶、游戏博弈和机器人控制
30 次提及
37 个连接
首次出现: 2026-03-30
最近出现: 2026-06-24
关系图谱
关系 (40)
使用技术 (26)
宇树科技
GEN-1
RealtimeVLA V2
RealtimeVLA V2
AdaGen
ManipDojo双臂协作挑战赛
R-EMID
CoRL
Flow-GRPO
RLHF
GPT-4
GPT-3.5
VLA
DYPO
Qwen2.5-Math-7B
LaST-R1
Claude
SkyClaw-v1.0
OmniWork
DeepSeek R1
o3
AgentDoG 1.5
o1
PaddleOCR-VL-1.6
EvoSkill
FuseSearch-4B
应用于 (11)
自动驾驶
具身智能
机器人
AI写作
代码生成
代码重构
数学推理
AI对齐
Agent
Skill-RM
代码生成
竞争 (2)
VLA
EffOPD
使用 (1)
Anthropic
相关文章 (30)
1.
具身智能之心 - RL让VLA从“静态策略”进化为“可进化策略”.......
2.
AI科技评论 - 羊毛党大军,狂薅模型Token;明星AI公司,上市却现离职潮;华东大厂AI基建华南遇阻AI情报局VOL.2
3.
机器人前瞻 - 12秒折完一个纸箱,成功率99%,GeneralistAI最强具身模型发布了!
4.
具身智能之心 - 重磅分享!LaST-R1:让RL激活机器人的物理世界!达到接近99.9%的成功率
5.
具身智能之心 - VLA如何在机器人上变得更快?RealtimeVLAV2:机器人快速动起来时遇到的天坑
6.
AI科技大本营 - 原力灵机发布Realtime-VLAV2:从遥操作到真实部署,VLA提速的系统解法
7.
机器之心 - AdaGen-让图像生成模型学会自适应策略
8.
具身智能之心 - 无需本体,云端即可!ICRA’26双臂挑战赛ManipDojo来啦(重点关注VLA和RL)
9.
具身智能之心 - Post-TrainingforRFMWorkshop@RSS2026全球首个面向真机RL的Challenge
10.
PaperWeekly - ACL2026通义首提R-EMID框架:形式化揭示角色扮演性能退化机制
11.
量子位 - 视觉大模型迎来“o1时刻”:腾讯混元提出SOAR,让AI在生成中学会自我纠偏
12.
AI寒武纪 - 最新!Karpathy:VibeCoding只是抬高了地板,真正的战场在这里
13.
新智元 - AI能改10万行代码,却让你走路去洗车!Karpathy戳破「锯齿状智能」
14.
AIGC开放社区 - Karpathy的软件3.0:Agent的原生世界
15.
PaperAgent - Anthropic最新论文:检测LLM内省意识的方法
16.
具身智能之心 - RSS'26放榜后,发现具身顶会正在往一个方向收窄...
17.
量子位 - 当SFT遇上RL:基于样本学习阶段的动态策略优化机制
18.
PaperWeekly - OPD为何如此高效?中科大揭开参数动力学密码,后训练提速3倍
19.
新智元 - Anthropic自曝下一代Claude训练内幕!有人专职研究「性格」
20.
人工智能学家 - nthropic自曝下一代Claude训练内幕!有人专职研究「性格」
21.
AIGC开放社区 - Token烧不起了?比肩ClaudeOpus4.6免费模型来了,还将开源
22.
"AGI Hunt" - OmniWork:面向创作者的AgentOS
23.
机器之心 - 别光会调GRPO,来看看真正的大规模RL是怎么炼的
24.
AI科技评论 - Agent安全进入运行时:AgentDoG1.5如何在最终交付前拦住风险
25.
新智元 - Anthropic全球警告!OpenAI已跨「可靠性阈值」:AI自我加速启动
26.
AIGC开放社区 - 百度发布文档解析新王者:0.9B参数,96.33%得分新SOTA
27.
阿里云开发者 - 如何更科学、方向可控的实现Skill的“自进化”
28.
PaperAgent - 阿里Qwen也来卷Skill,大模型起飞
29.
新智元 - 代码定位太慢?蚂蚁ACL2026新作:让模型自己学会「该搜多少」
30.
有机大橘子 - 大模型的ROI定律