🦾 具身智能与机器人
人形机器人、自动驾驶、世界模型 收录数:489 篇
目录
- 1. 人形机器人
- 2. 自动驾驶与出行
- 3. 世界模型与物理仿真
- 4. 具身数据与训练方法
- 5. 商业化与产业进展
- 6. 具身数据采集、部署基建与工程底座
- 7. 评测基准与具身数据生态
- 8. 前沿技术突破与评测基准
1. 人形机器人
1.1 量产与产业突破
量产里程碑与头部厂商格局
财联社AI daily(20260330) | 第一新声(20260330) | 机器人前瞻(20260331) | 智能涌现(20260402) | 具身智能之心(20260403) | 智东西(20260403) | AI科技评论(20260408) | 前沿在线(20260411) | 数据猿(20260416) | 前沿在线(20260417) | 机器人前瞻(20260417) | 财联社AI daily(20260417) | 新智元(20260417) | 机器人前瞻(20260417) | AI科技评论(20260418) | 具身智能之心(20260418) | 智能涌现(20260418) | 光锥智能(20260418) | 机器之心(20260420) | 机器人前瞻(20260423) | 前沿在线(20260428) | CVer(20260429) | 钛媒体AGI(20260429) | "财联社AI daily"(20260429)
- 行业统计乱象与瓶颈转移:Omdia预测2035年全球出货260万台;当前订单与出货等口径混乱致数字参考受限;核心瓶颈已从本体转向具身大脑
- 技术路径多线并行未收敛:VLA、世界模型、分层控制与多模态+原子技能库四路线并存;多模态数据面临成本高、效率低与标准缺失挑战
- 硬件本体趋同加速:供应链成熟使后发者追赶成本骤降,差异化窗口极短,如荣耀“闪电”立项一年半半马成绩即反超宇树十年积累
- 量产规模与制造代工分化:智元2025年以超5100台居首,联合领益智造获超万台代工订单;宇树坚持全链条自研,同期纯人形出货超5500台
- 智元组织扩张与商业闭环:分拆四足业务(智元酷拓),成立觅蜂科技主攻数据基座,推擎天租订阅平台降门槛,剑指2027年营收百亿、2030年千亿
- 天机万台交付与产品矩阵:Marvin系列2026年新单破万、累计出货超3万台,2025年营收约2亿已规模化盈利;产品覆盖轻量、高速、长臂展及50kg重载旗舰
- 天机核心零部件壁垒:唯一实现全关节力控双臂万台级交付;全球首家量产MEMS关节扭矩传感器(灵敏度超传统10倍),Fusion系统填补大模型与电机间“小脑”空白
- 巡检场景率先规模化验证:任务标准化且具高危替代价值,正向园区、地铁、商场延伸,被视为智能社会新基建
- 巡检标杆案例与5G-A赋能:国网2025年发布68亿采购规划,乐聚夸父在南网效率提升84%;5G-A结合VR实现毫秒级响应,支撑倒闸等高危操作
- 新锐团队商业突破:清华00后创立零次方机器人,成立半年获超亿元融资及破亿订单,落地20余个地标,以V0模型与V2类脑架构构建壁垒
- 人形机器人出海机场场景:日本航空联合GMO在羽田机场实证试验,采用宇树G1与优必选Walker E,以“派遣服务”模式降低航司前期风险,目标2028财年末部分作业机器人化
- 老龄化倒逼部署与法规瓶颈:日本少子老龄化致地面服务缺人,高负荷装卸岗位首当其冲;但现行停机坪规则禁机器人作业,法规调整是大规模推广前提
- 机场场景技术落地路径:不追求完全自主,先通过模仿与强化学习攻克动态平衡控制,作业范围从货物装卸起步逐步扩展至机舱清洁
RAM:多人3D人体运动重建统一框架
北京理工大学联合华盛顿大学等提出 RAM,打破传统"跟踪与重建分离"范式,将运动感知跟踪、时序记忆建模与动作预测融合为统一端到端框架,被 CVPR 2026 接收。
核心模块:
- SegFollow:引入卡尔曼滤波建模运动一致性,融入目标关联,缓解对外观特征过度依赖
- T-HMR:从邻近帧筛选关键特征,Transformer 跨时间融合,噪声下仍生成平滑 3D 人体
- 动作预测:基于历史运动序列预测未来姿态,应对完全遮挡等极端情况
- 自适应融合:对重建与预测结果自适应加权,依观测可靠性动态调整权重
RAM vs 传统方法对比:
| 维度 | 传统方法 | RAM 框架 |
|---|---|---|
| 处理范式 | 跟踪与重建独立流水线 | 统一端到端优化 |
| 时序建模 | 逐帧处理,无历史记忆 | 跨帧特征融合+时间记忆 |
| 遮挡应对 | 依赖外观重识别 | 运动预测+自适应融合补偿 |
关键结果:在 PoseTrack 等复杂场景数据集上,身份一致性、跟踪稳定性及三维重建精度均显著优于现有方法,zero-shot 设置下仍取得领先性能,具备直接部署到真实场景的潜力。适用于体育分析、VR、人机交互、医疗康复等场景。
1.2 技术与生态
具身智能平台生态与全栈技术基座
机器之心(20260330) | 数据猿(20260330) | 前沿在线(20260404) | 智能相对论(20260401) | 机器之心(20260422) | 量子位(20260422) | 具身智能之心(20260423) | AI科技评论(20260428)
AlphaBrain开源社区与前沿技术
- AlphaBrain平台:打通具身智能全链路的开源社区,集齐五大前沿技术。
- NeuroVLA模型:采用LIF脉冲神经元编码结合GRU-FiLM精修,实现零反向传播开销与边干边学。
- RL Token训练:引入信息瓶颈冻结VLA主体,单张RTX 4090即可完成后训练,梯度更新参数降至1.3M。
- 跨架构持续学习:LoRA仅训练VLM骨干网6%参数并降低60%显存,结合经验回放解决灾难性遗忘。
- 可插拔世界模型:原生集成NVIDIA Cosmos Policy权重,内置约1.1亿参数解码器,共享统一动作解码器。
世界模型Backbone参数对比 | 世界模型Backbone | 参数量 | 核心特点 | | Meta V-JEPA 2.1 | ~18亿 | 视频联合嵌入预测架构 | | NVIDIA Cosmos Predict | ~21亿 | 原生动作预测 | | 通义万相 Wan 2.2 | ~50亿 | 文本-视频生成 |
智平方商业壁垒与AlphaBrain演进
- 模型演进路线:2024首发VLA,2025.06推双系统VLA,2025.11吸纳Video2Act实现先预测后执行。
- 性能对标硅谷:早期规模仅为谷歌1/20性能提升超80%;新一代VLA架构超越硅谷标杆Pi0达30%。
- 商业落地壁垒:获惠科1000台订单被认定为全球最大单一订单,已在汽车等十余场景落地。
- 量产交付壁垒:自研AlphaBot 2核心部件无故障运行超5万小时,自建产线年产能达2000台。
优必选战略与量产交付数据
- 三层生态战略:入门层开源0成本上车,价值层以真实订单和算力补贴黏住开发者,沉淀层共建标准。
- 核心商业逻辑:用开放平台承接成百上千种差异化场景需求,坚定执行“一流公司做标准”的战略。
- 量产交付数据:2025年全尺寸人形机器人营收8.21亿元(同比增超22倍)交付1079台,2026年目标5000台。
- 家庭场景战略:聚焦收纳、早餐等单点刚需任务,不追求全能家庭机器人,以此撕开B端到C端缺口。
自变量WALL-B:世界统一模型+家庭数据飞轮闭环
- 架构与模态对比:VLA为多模块流水线传递,存在搬运损耗;WUM为全模态原生统一,视觉、听觉、语言、触觉、动作、物理预测从零联合训练,实现零损耗,彻底突破VLA仅能模仿轨迹的天花板。
- 原生物理世界观:生成内在感知与物理规律底层理解,能识别部件级朝向材质并动态调整握持力度与速度,以物理驱动实现零样本泛化。
- EBench对比传统评测:空间从二维平铺升级三维纵深(洗碗机装载);精度从粗放升级毫米级动态对齐(齿轮安装);时序从单步升级长程重规划(水瓶装箱);主体从单臂升级双手移动协同。
- 五维原子诊断体系:从场景环境、Grasp等11种原子技能分布、任务时长、操作精度衰减、灵巧与移动操作模式五大维度进行能力差异剖析。
- 双轨评测入口与开源:Specialist兼顾专项分析,Generalist主攻通用比较;结合验证集日常调参与隔离测试集考察真实泛化;开源github.com/InternRobotics/EBench并免费提供7×24小时在线平台。
- 数据飞轮与进家庭计划:区分低价值糖水与高价值牛奶数据,与58同城合作35天内送机器人入数百家庭与保洁协同作业,真实家庭采集形成进化闭环为核心壁垒。
- 交互式自我进化:任务失败后动态调整策略重试,成功经验直接更新模型参数,实现从被动喂数据到边做边学的跨越。
- 隐私安全三重方案:设备端实时脱敏不离设备、物理按键授权无默认同意、可疑指令锁定且不共享第三方,目前极小概率仍需人工兜底。
- 商业模式转型:彻底摒弃传统一次性硬件销售,全面转向以持续服务订阅、功能更新与模型升级为核心的长期付费关系。
REI-Bench:首个模糊指令基准揭示具身智能语用推理缺陷
- 南洋理工MARS Lab发布REI-Bench:首个系统性评估机器人处理模糊人类指令能力的基准,基于语用学桥接推理理论构建9级模糊性测试体系
- 模糊指令下主流框架成功率最高暴跌36.9%,即便无模糊词汇的多轮对话也导致成功率下降10.8个百分点(LLaMA3.1-8B+SayCan:57.7%→46.9%)
- 错误主因是目标物体混淆:模型将隐式指代错误解析为上下文中其他物体,"急切"完成任务而忽视语用推理
评估体系9级模糊性设计
| 维度 | 等级 | 示例 |
|---|---|---|
| 指代难度 | L1显式→L2混合→L3隐式 | "把土豆放锅里"→"把那家伙挪外面" |
| 上下文干扰 | 标准→噪声(同名干扰项)→短上下文 | 对话聊"苹果手机",指令要求拿水果苹果 |
缓解方案
- 反思性提示(Reflection Prompting):模型可重新识别正确目标,表明问题在注意力分配而非能力缺失
- TOCC方案:将指代解析与任务规划解耦,轻量级即插即用,有效提升成功率
- 测试覆盖4种主流规划框架+6种轻量级大模型,现有基准(ALFRED、VirtualHome等)全部基于显式指代
- 核心洞察:"清晰指令"假设是具身智能落地的核心瓶颈,真实场景中模糊表达是常态;指代解析应与任务规划解耦是更鲁棒的架构方向
PhyAgentOS:State-as-a-File范式的Physical AI操作系统
- 研发背景:中山大学HCP实验室联合鹏城实验室研发的Physical AI操作系统开源框架
- 设计理念:"State-as-a-File"将状态、感知与动作以Markdown结构化记录,转化为可版本控制、可审计的文本流
- 范式洞察:证明具身智能普及瓶颈在工程框架而非算法,Physical AI时代需统一中间件,类似移动互联网的iOS/Android
- 三层接口:自然语言指令层→代码API层→底层执行循环(Perceive→Plan→Simulate→Learn→Execute),打通认知到执行闭环
- 架构优势:真实机器人、仿真环境与benchmark共享同一架构,仅需数行代码即可驱动复杂物理交互任务
BETA Hackathon 2026赛事验证(旧金山,总奖金池6万美元,Robotics赛道统一平台)
| 案例团队 | 核心特征与成果 | 评审关注点与后续规划 |
|---|---|---|
| 冠军Arjun团队 | 11岁开发者(9岁学AI,第11次参赛),4个月从入门夺冠;5人临时组队分工覆盖硬件/Planner/底层实现 | Demo流畅执行、文档高复现性与解耦架构设计获评审特别认可 |
| 亚军Alson Cossette | 专注VLA模型研究 | 计划创立机器人公司 |
1.3 运动控制与全身协调
Heracles:首次统一高精度跟踪与类人扰动恢复
- Heracles框架首次在统一架构内同时实现高精度零样本跟踪与类人扰动恢复,解决精度-鲁棒性二元对立
- 性能突破:101个未见运动序列任务完成率达90.6%,摔倒恢复完成率90.0%,分别超越所有基线
- 核心创新为状态条件扩散生成中间件,以流匹配残差预测实现跟踪与恢复间的隐式平滑过渡
- **上层扩散生成中间件(25Hz)**根据实时状态动态调制参考轨迹,正常时近似直通、偏离时生成类人恢复轨迹
- **下层物理跟踪器(50Hz)**采用改进有限标量量化(iFSQ)压缩运动信号为语义令牌,稳定跟踪调制后轨迹
- 几何残差参数化不预测绝对坐标,而是预测相对本体状态的残差轨迹,正常工况下残差趋零实现指令直通
- 定向热启动与非对称噪声:以朝向目标的线性插值作为ODE初始值,仅对本体状态加噪,弥合训练-部署差异
- iFSQ量化相比传统VQ-VAE码本利用率更高、跟踪误差更低,量化后形成清晰运动语义聚类
- 在宇树G1全尺寸人形机器人上完成仿真+真机全流程验证,上层扩散生成25Hz、下层物理跟踪50Hz
宇树H1奔跑速度达10m/s,刷新人形机器人世界纪录
- 宇树H1峰值速度达10m/s(36km/h),从过往3-5m/s量级跃升至逼近人类极限的80%(博尔特峰值12.42m/s),标志动态运动控制重大突破
- 硬件参数聚焦极致轻量化:身高1.8m,体重62kg,腿长0.8m(0.4m+0.4m对称设计),单腿6自由度(髋3+膝1+踝2)
- 极简形态与低重心策略:采用无头无手设计降低惯量与控制复杂度,配合贴地低重心奔跑姿态换取高稳定性
- 驱动方案核心差异对比:
| 驱动方案 | 代表产品 | 优势 | 劣势 |
|---|---|---|---|
| 电机驱动 | 宇树H1、特斯拉Optimus | 控制精度高、响应快 | 功率密度低、易过热 |
| 液压驱动 | 波士顿动力Atlas | 爆发力强、功率密度大 | 系统复杂、噪音大、成本高 |
- 国内供应链赋能电机路线:国内厂商依托成熟的电机、减速器、控制器供应链性价比优势,普遍选择电机驱动方案
- 赛道进入全面竞速期:镜识科技Bolt同期达10m/s峰值,2025年具身天工Ultra以21.50s获百米冠军,多家厂商并驾齐驱
- 从“能走”迈向“能跑”:10m/s突破要求极高频力矩输出,验证了关节驱动与控制算法的深度协同,为物流、巡检等高速场景铺路
- 实用化瓶颈依然显著:续航普遍仅1-2小时,全身协调控制、复杂环境感知与自主决策仍是下一阶段需攻克的技术高地
- 2026年迎来关键赛事检验:4月北京亦庄人形机器人半程马拉松及8月第二届世界人形机器人运动会将成为综合能力的试金石
人形机器人全身控制:从VLA割裂到分层协同
主流架构性能对比
| 模型 | 机构 | 核心架构 | 频率/延迟 | 关键数据与性能 |
|---|---|---|---|---|
| LeVERB | UC Berkeley | 双系统分层:高层CVAE+底层Transformer RL | 10Hz / 50Hz | 纯仿真零样本迁移真机,成功率58.5%,为传统VLA 7.8倍 |
| SONIC | NVIDIA | 运动跟踪基础模型,统一令牌空间 | - | 700h动捕数据(1亿帧),参数1.2M→42M,真机零样本失败率0% |
| WholeBodyVLA | 复旦+港大+智元 | 统一潜动作学习:操控+移动双LAM | - | 遥操作数据依赖降低75%,移动完全服务操控,成功率78% |
| PhysiFlow | 上海交大 | 三脑仿生:新皮质+基底神经节+小脑 | 10Hz/50Hz/1000Hz | 流匹配替代自回归,推理延迟18.65ms(提速126倍) |
| Psi0 | 南加大 | 三阶段训练(视频预训练→动作专家→微调) | - | 传统方法1/10数据实现40%+成功率提升 |
| HEX | 北京人形创新中心等 | 高层VLA策略+低层RL控制,动态门控 | - | 预训练7种本体1200万帧,8类扰动成功率61.8% |
HEX 架构核心突破
- 跨本体对齐状态表征:按身体部位统一槽位映射到通用语义空间,覆盖7种人形平台
- 混合专家自感预测器(UPP):MoE动态匹配不同身体部位/任务阶段的专家,预测短时域未来状态
- 动态门控机制:状态分支与视觉语义分支自适应平衡,任务意图与身体可行性协同
- 回顾-前瞻双通路:轻量级历史查询缓存+UPP未来预测在动作专家中融合
- 性能基准:分布外扰动成功率61.8%,显著优于π0.5(44.3%)和GR00T N1.5(41.0%)
- 落地表现:姿态模仿100%、人类指令倒酒91.7%、半跪拾物100%,强干扰场景保持53.3%成功率
- 核心洞察:全身操作的核心瓶颈不在视觉理解而在本体感知,跨本体统一状态表示是实现平台泛化的前提
1.4 机器人硬件与形态创新
仿生肌肉驱动:从流体致动到电流体纤维的技术演进
DeepTech深科技(20260412) | 小互AI(20260423) | DeepTech深科技(20260425)
- 基础性能参数:Clone Hand拥有24个自由度、37块人工肌肉,单指抓起7kg,耐久达65万次收缩;全身版Torso含124块肌肉
- 驱动与控制参数:采用电液阀系统独立驱动,500W无刷电机与2L柔性水容器供能,控制频率100Hz,电池续航约2小时
- 核心突破成果:MIT与巴里理工学院联合研发电流体纤维肌肉(EFM),内嵌EHD泵形成封闭液路彻底消除外挂泵站,登《Science Robotics》
- EFM基础性能:单根重约2克且如牙签粗细,成束可举4公斤(自身2000倍),功率密度达50 W/kg,运行完全静音
- 技术架构机理:EHD泵夹于两根McKibben执行器中拮抗布局互为储液罐,封闭配对实为工程约束的自然收敛
- 预压机制提效:施加75kPa偏置压力消除气泡崩溃防空化,耐受电压由4kV跃升至8kV以上,收缩幅度从2%大幅增至14%
- 动态响应与模块化:低压柔顺高压大力,4泵并联驱动速度达180mm/s(0.13秒/次);电液组件支持类乐高自由组装提升适配性
- 可穿戴验证:EFM织成机械臂肌肉织物实现超40度弯曲,具备传统电机难以企及的反向可驱动性(如握手顺从被推)
- 循环稳定性:EFM纤维肌肉在1000次动作循环后性能无明显衰减,展现出初步的耐用性与工作稳定性
技术路线对比
| 对比维度 | MIT EFM技术 | Clone技术 | 传统伺服电机 |
|---|---|---|---|
| 动力系统 | 内嵌EHD泵,完全自包含 | 依赖7kg外置泵站 | 电机直驱 |
| 功率密度 | 50 W/kg | 未详述 | 相对较低 |
| 运行噪音 | 完全静音 | 存在机械噪音 | 需齿轮降噪 |
| 驱动特性 | 分布式,柔顺性极高 | 高度仿生,高自由度 | 质量集中,刚性输出 |
- 应用前景:无噪穿戴外骨骼(适老辅助)、柔软贴合假肢、人形机器人(分布式肌肉改变踩高跷步态)及高顺应性康复机器人
- 待解挑战:千伏级高压电源管理与能量转化效率待优化;McKibben管疲劳需万次验证;氢氟醚液体存环保限制亟待非氟化替代
模块化机器人:构型搜索与损伤适应
西北大学团队研发乐高式模块化机器人,每个模块自带电池、芯片、传感器和电机,可独立跳跃、翻滚、转弯,也可自由组合成多足机器人,论文发表于 PNAS。
硬件参数:单模块伸展长 62 cm,核心为球形关节,两条腿可 360° 旋转,外表面分布 18 个蜂窝状接口
| 指标 | 数值 |
|---|---|
| 滚动速度 | 0.46 m/s |
| 功耗 | 0.38 W |
| 原地转弯速度 | 55°/s |
| 跳跃高度 | 37 cm(腿长 1.54 倍) |
- 构型空间爆炸:两模块间有 435 种连接位点,五模块组合达数千亿种
- VAE 降维:通过变分自编码器将数千亿种构型压缩至 8 维潜在空间,结合异步贝叶斯优化与深度强化学习筛选最优设计
- 最终构型:筛选出三模块、四模块、五模块三种最优构型,另手工设计五模块四足构型(带活动脊柱)
- 统一损伤适应:训练一个对截肢无感的统一控制策略,通过模仿多种专家策略数据学习
- 适应性能:无论断一条腿、断两条腿还是仅剩单模块,均能快速适应新身体结构继续移动
- 无损性能:统一策略在未受损时移动速度达原专家策略的 105.3%
- 关键洞察:模块化≠牺牲性能,打破"模块化机器人只能慢速移动"的固有认知
- 降维突破:构型空间的维度诅咒可通过 VAE 破解,损伤适应的关键是策略而非硬件冗余
轮式双足多形态产品化:逐际动力领先RAI两代的工程化代差
- RAI Roadrunner:波士顿动力前创始人马克·菲莱伯特团队推出15kg轮式双足机器人,支持并排轮、直列轮、步态跨障三种模式切换,仍定位技术能力展示「具身智能之心」
- 逐际动力TRON 1(2024.10):全球首个将点足、双足、轮足三形态集成于同一基座的工业级产品,已量产销往80+国家,起步价7.98万元「具身智能之心」
- 逐际动力TRON 2(2025.12):突破"一体多态",手脚共用一套平台,轮/足/臂构成统一可重构系统,支持VLA任务(如pi0.5)及连续翻跟头等极限动作,起步价<5万元,机械臂负载10kg「具身智能之心」
| 维度 | RAI Roadrunner | 逐际动力TRON 1 | 逐际动力TRON 2 |
|---|---|---|---|
| 发布时间 | 2026年 | 2024年10月 | 2025年12月 |
| 产品状态 | 首次发布 | 已量产,80+国家 | 已投产交付 |
| 形态覆盖 | 双轮足 | 三足形态 | 手脚通用+轮足 |
| 起步价格 | 未公开 | 7.98万元 | <5万元 |
- 竞争范式迁移:行业评价标准从追求技术可行性转向同时验证工程可行性与商业可行性,中国企业在本体量产、成本控制、供应链整合上已建立显著优势;"一体多态"成行业共识方向,逐际动力在产品化上领先至少两年「具身智能之心」
超维动力 KAI:115自由度+世界模型+第一人称数据的全栈人形机器人
- 产品定位:超维动力(Kinetix AI)发布全尺寸人形机器人KAI,以「世界模型+第一人称数据+高拟人本体」三要素构建具身智能闭环,面向家庭与办公场景的人机协作。
- 研发破纪录:2025年7月注册、9月研发,7个月创行业最快整机发布纪录;发布会由两台KAI无人类介入自主主持20+分钟。
- 路线分歧核心论据:KAI主张「世界为人类设计」,超拟人形态是零改造适配人类环境(楼梯、门把手、厨房)的唯一路径,区别于特斯拉效率优先与轮式多臂趋势。
- 本体核心参数:身高173cm、体重70kg、115个全身自由度(全球已发布最高水平之一);1.7kWh半固态电池支持约3小时双臂操作,双臂负载接近20kg。
- 灵巧手与触觉系统:单手36自由度(22主控+14柔顺碰撞缓冲);全身18000个触点触觉皮肤,可感知≥0.1N轻微触碰。
- KAI World Model闭环:动作模块(生成候选动作)→基模型(预测未来状态)→评估模块(价值判断),形成「预测-执行-评估」完整链路。
- 三阶段训练范式:预训练(互联网+仿真+第一人称视角多模态对齐)→桥接训练(UMI+数采手套补足精细手部动作)→后训练(真机遥操解决本体对齐)。
- KAI Halo采集设备:头戴式一芯八摄,非脚本化采集第一人称视频、人体姿态、场景点云重建。
- 技术验证系统对比: | 核心框架 | 功能亮点 | 技术指标 | | SMASH户外乒乓球系统 | 高动态连续对打 | 全球首个户外连续对打三天系统 | | χ₀双臂服装操作框架 | 双臂精细衣物整理 | 实现24小时不间断操作验证 |
禾赛科技:从空间感知到空间智能的三层基础设施布局
- 6D全彩激光雷达芯片"毕加索":全球首创将RGB与TOF测距集成于同一芯片,实现XYZ+RGB芯片级原生融合,从源头消除传统后融合的时空不对齐问题
- ETX高线数平台:搭载"毕加索"芯片,最高支持4320线、600米测距能力,预计2025年下半年实现量产交付
- Kosmo空间智能硬件:整合激光雷达结构感知+摄像头纹理+空间重建算法,将真实世界还原为可浏览、可编辑、可训练的3D空间
- 动力模组首次公开:标志禾赛从纯感知向执行系统延伸,与感知、数据产品共同构建"看见→记录→改变世界"的具身智能完整拼图
- 车载基本盘稳固:全球首家激光雷达赛道全年盈利公司,车载主激光雷达市场份额连续13个月第一,年出货160万颗
- 跨形态基础设施战略:明确不做机器人整机与通用大模型,将21款车规级芯片认证体系直接外溢至机器人场景
- 机器人市场预期:预计2025年机器人行业累计交付量超100万台,覆盖割草机器人、物流车、无人机、人形机器人等多场景
传统感知方案与毕加索6D全彩技术路线对比
| 维度 | 传统激光雷达 | 后融合方案 | 毕加索6D全彩 |
|---|---|---|---|
| 输出信息 | XYZ空间坐标 | 点云+图像拼接 | XYZ+RGB原生融合 |
| 时空对齐 | 仅空间 | 存在偏差 | 芯片级同步 |
| 语义理解 | 无 | 间接获取 | 每点自带颜色属性 |
核心洞察:禾赛正从单一硬件供应商升级为具身智能"底座"平台。"毕加索"将多传感器融合从算法层下沉到芯片层,Kosmo瞄准具身智能的"数据瓶颈"(将3D空间数据从"奢侈品"变为"标准资源"),车载基本盘的高盈利与大规模出货是其向多场景延展的前提条件。
特斯拉 Optimus V3 灵巧手:五项专利揭示系统工程方法论
- 轴向串联+径向分层:第一段容纳旋转致动器,第二段高密度并列≥17个线性致动器,电机圆周阵列镶嵌
- 双电机万向节手腕:2个线性致动器配合中央万向节,同步伸缩=俯仰,差动=偏航,替代传统4电机
- 无销关节复合柔性部件:硅胶+Vectran纤维(拉伸强度>895 MPa)“三明治”结构,肌腱拉动下指骨纯滚动复现生物轨迹
- 缆绳各向异性解耦:前臂侧扁平束贴近俯仰轴,手部侧纵向束贴近偏航轴,最小化力臂实现机械解耦
临界点 AGILINK 灵巧手产品矩阵
- 旗舰款 OmniHand 3 Ultra-T:22+3自由度,负载自重比10:1(自重<500g/负载5kg),百万次寿命
- 自研行星滚柱丝杠电缸:额定力300N,0.3秒极速开合,航空级镁钛合金骨架
- 全手三维触觉+掌内相机:分布式触觉感知补齐视觉盲区,具备“第一视角”感知能力
- 腱绳快拆设计:单根更换压缩至10分钟内,解决绳驱维护痛点
- 普惠款 OmniHand 3 Lite:千元级人民币,开源版预期<300美元,仅鼠标大小
- 量产实绩:截至2026年Q1累计交付灵巧手超8000台、夹爪过万台,市占率行业第一
工程路线对比
| 维度 | 特斯拉 Optimus Gen3 | 临界点 OmniHand 3 Ultra-T |
|---|---|---|
| 驱动方式 | 前臂外置线性致动器 | 前臂后置行星滚柱丝杠电缸 |
| 自由度 | 22+2+1 | 22+3 |
| 核心创新 | 复合柔性无销关节+缆绳解耦 | 10:1负载自重比+腱绳快拆 |
| 感知方案 | 未公开 | 全手三维触觉+掌内相机 |
| 成熟度 | 专利披露,量产受阻 | 已交付超8000台 |
关键洞察
- 驱动后置是共性解法:特斯拉与临界点均将驱动移至前臂,降低手部惯量、提升负载比
- 工程极限取决于空间几何:特斯拉未发明新材料,通过轴向串联+径向分层的空间重构实现人体尺度约束下的性能突破
- 绳驱路线已跨越量产门槛:临界点用快拆设计+丝杠电缸解决寿命与维护痛点,市占率证明商业可行性
1.5 灵巧手与末端执行器
灵巧手产品矩阵与技术路线对比
量子位(20260412) | 机器人前瞻(20260415) | 机器之心(20260420) | AI早餐汇(20260429)
- Linkerbot 产能与成本突破:月产超4000台即将破万,居全球首位;塑料行星关节模组定价399元,将行业成本从百万级降至千元级;16自由度体积等同传统6自由度产品。
- Linkerbot 产品矩阵:16自由度量产版、20自由度迭代计划开源版、轻量化新品(自重370g/负载30kg,负载自重比81:1);自研指关节滚珠丝杠模组驱动效率超90%。
- 源升智能 Apex Hand 参数:21自由度,指尖负载2.5kg,提拉30kg,误差≤0.1mm,超1000Hz刷新与<1ms延迟实现类脑触觉;独创内置张紧与快拆绳驱机制。
- 三款新品定位与核心参数:
| 产品 | 定位 | 核心指标 |
|---|---|---|
| Ultra-T | 科研旗舰 | 22+3自由度,<500g |
| Lite | 普惠耐用 | <$300,鼠标大小极简 |
| OmniPicker 3 | 工业夹爪 | 140N夹持力,0.1N力控精度 |
- 21自由度甜点位与可反驱特性:精细动作稳定复现,超此界限边际收益递减且控制恶化;关节顺应外力实现柔顺力控,3Hz级开合消除刚性卡死震荡。
- 全栈软件与开源生态:Linkerbot三层体系(技能复刻Linker Dex、智能体Agentix、造物大模型Genesis)实现99.9%成功率;发布Open TeleDex遥操作与UMI-Dex全链路数采开源方案。
- 量产数据与飞轮效应:累计交付超8000台灵巧手,千台数采产出超5万小时真实数据,Linkerbot真机强化学习已突破穿针引线、功夫茶等高精度操作。
- 脑机接口与碳硅融合:7年仿生手经验,灵巧手作为硅基执行器与脑机信号结合,残障场景严苛要求构建起向工业迁移的技术壁垒。
- 融资战略与生态布局:Revo 3拟2026年赴港IPO;源升年内连获五轮数亿元融资;Linkerbot完成15亿元B轮,2026年目标交付5-10万台并实现机器造机器。
- 行业洞察与资本风向:2026年为行业交卷量产年,腾讯Robotics X成顶级人才孵化器;深圳国资借源升等抢占具身智能硬件高地,达闼陨落印证拼盘模式不可持续。
功能融合范式:可脱落爬行机械手
武汉大学高霄团队在《自然·通讯》发表可脱落自主爬行机械手,首次将“抓取末端”与“移动平台”统一为同一结构,打破传统机器人分离式架构。
核心性能
| 能力维度 | 具体表现 |
|---|---|
| 抓取模式 | 人类 33 种标准抓取模式全部完成 |
| 最大抓重 | 稳抓 2kg 物体 |
| 多物体抓取 | 一次性同时抓取 4 个物体 |
| 精细操作 | 六指版本可单手拧瓶盖 |
| 爬行效率 | 对称设计比非对称提升 5%-10% |
| 翻转恢复 | 任意面朝上均可自主站立 |
设计创新
- 完全对称设计:每根手指结构相同且可双向弯曲,活动范围达人类两倍
- 多对生指组合:任意两根手指可组成功能性对生指,相当于拥有多个“大拇指”
- 脱落爬行机制:手掌内置电动螺丝结构,移至边缘自动脱离手臂变六足机器人
仿生与方法论
- 仿生灵感:来自章鱼腕足(爬行与抓握)和螳螂虾捕食肢(行走与捕食合一)
- 算法优化:遗传算法仿真确认 4-5 根手指为最优,更多手指增重且易自干涉
- 关键洞察:对称构型在多功能适应性上优于模仿人类的不对称结构;约束下精简(4-5 指)优于无限制堆叠
2. 自动驾驶与出行
2.1 Robotaxi商业化
全球Robotaxi商业化竞争与战略布局
财联社AI daily(20260401) | 财联社AI daily(20260401) | 财联社AI daily(20260401) | 新智元(20260422) | 光锥智能(20260422)
全球Robotaxi无人化与规模化竞争新阶段
- 核心趋势:2026年Q1中美同步迈入无人化扩张,竞争从“谁能跑”转向“谁能无人跑”
- 行业洗牌:Cruise停摆与Argo AI关闭验证纯技术驱动难以存活,终局壁垒是系统能力
北美市场:Waymo爆发与特斯拉困局
- 运营规模:Waymo周付费出行超50万次(同比翻倍),2026底目标周百万单
- 扩张合作:覆盖10城并向20城拓展,多与Uber合作获160亿美元融资
- 特斯拉困境:Austin仅44辆活跃车,远未兑现承诺且正受NHTSA调查
中国市场:政策提速与滴滴系统能力突围
- 滴滴技术:联合清华发布STAPO算法,精准剔除噪声Token提升微调质量
- 量产指标:首款R2已交付,零部件国产化率超90%,连续安全运行2100天
- 终局战略:依托平台有人/无人混合派单,2025年2267亿营收反哺研发
- 格局演进:无安全员路测已在北京、武汉、深圳、杭州四城获批
中国市场:曹操出行的商业化与追赶
- 财务数据:Q4首度单季盈利,全年收入202亿元,净亏损同比收窄50.8%
- 用户规模:月活用户4130万,定制车售出超1.5万辆
- 战略规划:发布“十年百城千亿”战略,2030年目标投放10万辆
- 核心优势:换电模式使TCO成本降低36.4%,适配无人且提升运营时长
- 面临挑战:当前仅2张牌照处于起步阶段,追赶窗口快速收窄
中东市场:文远知行全球化与聚合生态
- 迪拜突破:与Uber及迪拜RTA合作,成为当地首批纯无人车队
- 生态演进:Uber放弃自研,联合Waymo等十余家构建全球轻资产聚合平台
全球及国内头部玩家核心对比
- 全球格局:Waymo规模领先(50万单/周),滴滴(14国积累)中阿联酋首站,特斯拉规模滞后
- 国内规模:小马智行超1400辆(广深单车盈利),文远知行约1100辆(收入+200%)
- 萝卜快跑:周订单超25万单,武汉单车收支平衡,累计出行超2000万次
- 曹操出行:仍处起步阶段,相比头部玩家千辆级规模,需持续验证L4智驾水平
多智能体协同感知中的无标注学习:DOtA++
- DOtA++ 在 V2X 多智能体协同感知场景中,通过多模态先验约束(多尺度/一致性观测/几何先验)抑制伪标签噪声,实现多类别无标注协同感知,三维目标检测平均精度提升 10.7%
- 核心挑战:智能体数量增多导致人工标注成本成倍增长,解决方案从"依赖标注"转向"先验约束 + 迭代训练"的伪标签自净化路线
驭势科技港股IPO:机场场景L4自动驾驶商业化
- 机场场景龙头:全球唯一大型商业机场L4方案供应商,市占率超90%,累计行驶约900万公里
- 全球化布局:已为6个国家249名客户部署,含35家《财富》500强企业
- 营收高增长:2022-2024年营收从0.65亿增至2.65亿,2023年同比增146%,商业化拐点初现
| 指标 | 2022 | 2023 | 2024 |
|---|---|---|---|
| 营收(亿) | 0.65 | 1.61 | 2.65 |
| 同比增速 | — | 146% | 64% |
- AI司机劳务派遣模式:不自建运力,输出L4能力,覆盖车辆/软件/套件/租赁四条产品线
- 四大场景产品:无人牵引车(机场)、无人巴士(摆渡)、无人运输车(化工/光伏)、UiBox(配送/巡逻)
- 技术底座:自研U-Drive®系统(5.0版本),规划7.0版本目标在安全性和效率上超越人类100倍
- 具身智能延伸:招股书明确从L4自动驾驶演进路线,感知-决策-控制栈可复用至人形机器人
- 出海战略:以机场为桥头堡(全球标准化高),卡塔尔哈马德机场已试点,募资后海外:本土人员80:20
- 风险提示:五大客户占比82.8%,三年半累计亏损7.85亿,现金储备约2.2亿
华为车桩双线战略:智擎运动域+兆瓦超充的电动出行全栈布局
- 车桩协同双线推进:2026年发布会同时推出智擎运动域与超充补能两条技术线,车端实现度电十二公里能效突破,桩端迈向兆瓦级充电「脑极体」
- 双94%碳化硅动力平台:增程发电效率突破94%,纯电工况效率超94%,动力总成效率94.36%、线控电制动响应缩至78ms,均刷新业界纪录「脑极体」
- 兆瓦超充终端矩阵:自然冷终端400A、液冷800A、屏显自然冷双枪1000A三档;1.44兆瓦超充实现重卡10%→80%仅15分钟级,已开通20+条超充物流路线「脑极体」
- 电网侧突破:业界首发构网型储充方案,免改市电消除百兆瓦级谐振实现100%可用率;AI强化学习优化光储融合调度提升场站收益约15%「脑极体」
- 全球部署规模:超充网络覆盖全球60+国家、国内70+高速沿线,极端环境验证覆盖珠峰、吐鲁番、瑞典;智擎三年蝉联中高端新能源动力总成质量第一,累计安全行驶400亿公里「脑极体」
2.2 智驾技术路线
卓驭端到端架构演进与移动物理AI战略
- 端到端判据:关键在于Planning到Perception是否端到端梯度反传,而非限定“无感知”
- 三阶段演进:传统方案(40分开箱即用)→端到端中模型(70分)→原生多模态大模型(目标95分)
- 端到端4.0突破:100%数据驱动覆盖掉头等难场景,具备防御性驾驶与缝隙穿行能力
- 舱驾同芯:行业首发单芯片舱驾一体方案,2025年4月陆续推送
| 阶段 | 技术范式 | 开箱即用能力 | 适配后能力 | 核心瓶颈 |
|---|---|---|---|---|
| 传统方案 | 小模型+高精地图+规则 | ~40分 | ~80分(大量开城) | 开城成本过高 |
| 端到端中模型 | 两段式/一段式端到端 | ~70分 | ~90分(少量适配) | 跨场景适配成本高 |
| 原生多模态大模型 | 底层物理世界预训练 | 目标95分 | 开箱即用 | 研发投入巨大 |
VLA World Model架构:预训练阶段融合视频、文本、语义、语音、动作等多模态数据,在Latent Space统一表征,区别于现有拼接架构。底层预训练基于物理世界通用规律(非后训练泛化),支持零数据支持迁移。
- 预训练vs后训练是分水岭:中模型靠后训练泛化,大模型靠底层预训练注入物理规律
- 数据质量优于架构调优:数据质量管控和分布配比对性能提升贡献大于架构建模
- 去除规则兜底:轨迹评分、平滑操作等规则限制模型上限,需彻底移除
- 评测驱动训练:端到端黑盒易导致“跷跷板问题”,需离线评测监控收敛
移动物理AI战略:CEO沈劭劼提出,通过原生多模态基础模型实现跨车类、跨地域、跨场景自主移动能力。
- 生存判断非战略选择:未来能存活的智驾公司都将转型为移动物理AI公司
- 成本驱动转型:大模型年训练投入数十亿,单一垂类无法覆盖,跨垂类规模化分摊是刚需
- 量产数据:累计定点三位数、交付超50款,与TOP6商用车品牌全部合作
- 重卡商业化:行业首个通过强标的商用车重卡L2+方案,单车年节省数万元
小马智行 PonyWorld 2.0:Intention层替代Language,自动驾驶AI四阶段范式
-
自动驾驶AI四阶段模型:①模仿学习(不如人)→②模仿+强化学习(接近人)→③强化学习+世界模型(超越人,人类失去评判权)→④AI自我诊断+定向进化(AI主导研发闭环),每阶段技术方法完全不同,跨越阶段需范式跃迁而非渐进改良「量子位」
-
PonyWorld 2.0核心突破——Intention语义层替代Language层:传感器数据跳过语言中间层直接映射为驾驶动作,语言是对4D物理时空的极度降维"扁平投影",不可避免丢弃物理世界上下文;Intention层可基于意图反向生成虚拟场景,穷尽所有意图排列组合,这是真实世界不可能完成的任务「量子位」
-
人类数据价值从正到负的拐点:AI驾驶超越人类后,模仿学习不仅无效还会引入坏习惯,颠覆行业"数据为王"的底层假设;人类工程师角色从"驾校教练"转变为"AI数据采集员",系统自动识别薄弱场景给测试团队派单采集特定数据「量子位」
-
VLA终局判断——L不是最终连接方式:中间阶段VLA仍有价值(语言数据最易收集),但Language角色会逐步减少,Intention层比语言更接近驾驶本质;与行业已有路线(英伟达转向WAM、王兴兴看多世界模型)形成呼应「量子位」
-
L4全无人运营数据是核心燃料:AI司机遇到的人类交互模式(加塞、试探边界等)只有无人车队才能采集,形成"运营→数据→模型→部署"自加速飞轮;小马智行已积累千万公里级多城市纯无人驾驶数据;跨区域泛化成本低(不同地区驾驶风格差异仅是世界模型中的概率分布变化)「量子位」
吉利智驾全栈自研路线与基座模型战略
雷峰网(20260414) | 雷峰网(20260417) | 十字路口Crossing(20260422) | 数据猿(20260423) | AI前线(20260425) | 光锥智能(20260427) | InfoQ(20260429)
- 历史教训与战略转向:亿咖通早期重金押注失败致2021年单年亏损11.8亿,核心因缺架构师与产品定义引发内耗,吉利认清全栈自研必要性后组建千里科技。
- 智驾方案与交付目标:智驾方案收敛至H5/H7/H9三级,2026年ASD目标装机100-130万辆,2028年冲刺800万辆;数据闭环覆盖46万辆,用户激活率达92%。
- 核心技术路线:以L4标准贯穿开发拒用开源,打造世界模型体系弥补数据不足,赋予VLA架构未预设场景应对能力;极氪8X首发双Thor-U算力超1400TOPS。
- 原生智驾基座模型对比:区别于主流大模型叠加智驾数据后训练(泛化受限、面向L2/L3),原生模型同源预训练通用与智驾数据,原生理解三维时空与动力学,直指L4。
- 量产落地进程:Step 3.5 Flash上车仅耗时40天;Agent OS成业内首个搭载端到端语音座舱系统,超级Eva实现全链路执行;自研补盲雷达与高端国产芯片将量产。
- 超级智能体规划:2026年定义超级智能体上车元年,以基座大模型发展Skill与心智,形成“大脑(认知服务)+小脑(驾驶)”组合,演进为具身智能。
- 生态架构与商业闭环:阶跃星辰(造大脑)与天数智芯、爱芯元智构建底层,千里科技造终端容器,模型与场景深度绑定,解决通用AI落地难矛盾。
- 具身智能最佳载体:印奇指出“AI+车”是3-5年内唯一可规模化具身赛道,汽车同时具备算力、能源与高频交互三大条件,首创“含模量”衡量智能化。
- Robotaxi原生架构:吉利发布原生原型车Eva Cab,基于千里科技L4架构与超级智能体打造,搭载G-ASD L4版本,支持公开道路无人接驳,MPI目标超1000公里。
Momenta:物理AI路线图与智驾"两超"格局的竞争壁垒
- 市场与量产规模:累计定点超200款、量产交付超70款,城市NOA份额连续三年超60%,量产车超80万台,与华为形成“两超多强”格局
- 客户矩阵与量产:与BBA、丰田、通用等量产合作;北京车展超20个品牌60余车型搭载;奥迪E7X将成全球首款L3车型,奔驰累计测试80亿公里
- R7世界模型首发:R7首发搭载上汽大众ID.ERA 9X,面对长尾场景如前车掉落苹果箱,能预判轨迹并规划绕行,将问题从“碰巧遇到”转向“可推演、可训练”
- 物理AI三层路线:
| 训练阶段 | 输入 | 目标 |
|---|---|---|
| 预训练 | 80万台量产车海量数据 | 物理世界常识 |
| Post-Training | 筛选后优质驾驶行为 | 对齐人类优秀驾驶 |
| 强化学习 | 世界模型仿真虚拟训练场 | 极端罕见场景安全应对 |
- 行业收敛逻辑:智驾软件边际成本为零,规模效应强于芯片业;合作周期极长,国内3年、海外5-7年,奔驰历时8年,预计中国仅存2-3家、全球3-4家供应商
- 数据飞轮本质:原始数据仅占价值链10%,完整体系能力是90%核心壁垒;平台模型(一个大模型覆盖Robotaxi/Robovan等)将碾压垂直方案,与电商平台胜出逻辑一致
- 商业化与泛化:通用机器人需千亿美金研发,必须靠智驾率先跑通“数据↔商业”闭环支撑;AI应用接近人类水平后,1-3年内将大幅超越
- 全球巨头印证趋势:Waymo发布基于Genie 3的世界模型;Mobileye约9亿美元收购Mentee Robotics,明确智驾与机器人共享感知、世界建模、规划控制等底层Physical AI能力
- IPO与资本进展:已向港交所秘密递交招股书,IPO估值预期超千亿元;2024年下半年Pre-IPO融资交割金额超10亿美元
2.3 智驾产业困境
智驾 Tier1 生存困境与组织败局
雷峰网(20260402) | 雷峰网(20260401) | 雷峰网(20260406) | AI蓝媒汇(20260401) | 雷峰网(20260401)
- 双领导制决策低效:长城与百度双高管无汇报关系须共同签字,CTO长期缺位致技术纠错耗时数月
- 绝对控股无自主权:长城持股超50%,管理层不足12%,与行业创始人绝对控制模式截然不同
- 宏景智驾一言堂:技术决策依赖个人拍板,核心VP相继出走
- 管理层决策失能:倪凯“不表态、不拍板”致研发与量产矛盾无法斡旋;降本裁员计划流于形式仅裁50人
- 关键人才流失:蒋京芳离职后带走60名苏州员工加入知行科技,严重削弱域控研发能力
算力与算法技术断层
- 毫末芯片陷阱:押注高通8540/9000(360TOPS),工具链不成熟且售后薄弱,量产推迟一年仍未兑现
- 宏景选型失误:选安霸CV3为主力平台,与英伟达Orin/地平线J5等市场主流形成明显算力代差
- 感知算法缺失:地平线要求Tier1自建感知算法,宏景交付不力被边缘化,易航/轻舟等抢占机会
软硬一体战略与股权陷阱
- 软硬一体战略失控:押注博世式域控路线,但外采芯片代工致成本失控,苏州团队盲目扩至180人
- 股权融资陷阱:早期低价贱卖股份致后续资方压价,融资断档,2023年全年零新资金入场
地平线的盈利悖论
- 增收不增利:2025年营收37.58亿元(+57.7%),但亏损104.69亿元;研发投入占收入比达137.1%
- 毛利结构恶化:正从高毛利IP授权(94.5%)转向低毛利软硬一体(下半年仅24.3%)
- 城区NOA市场挤压:市场份额被英伟达(49.36%)、华为(23.07%)瓜分,地平线仅占17.88%急剧收窄
车企自研反超与VLA窗口
- 长城端到端反超:2024年11月智驾上车,2025年前三季度L2++渗透率19.9%位居传统车企第一
- VLA量产节点:2025年12月量产VLA大模型(国内唯二),计划2026年上车直接取代毫末
- 算力基建支撑:九州超算中心总算力达5 EFLOPS万卡级,并在硅谷筹建自动驾驶研发中心
- 当前智驾布局:城市NOA由元戎启行提供,高速NOA由Momenta提供,芯片采用多元布局策略
智驾规模化运营的系统性风险与安全边界争议
雷峰网(20260331) | 财联社AI daily(20260401) | 老冯云数(20260401) | 机器之心(20260403) | InfoQ(20260405) | 雷峰网(20260423)
- 萝卜快跑规模化趴窝暴露云端架构单点脆弱性:3月31日武汉约百台车因云端调度或OTA故障同时在高架趴窝,乘客被困快车道
- 交通瘫痪风险极高:研究表明高峰期20%车辆瘫痪即可冻结城市交通,10%足以阻断急救通道
- 系统安全保护机制引发新隐患:车辆就地停车机制需在“停止行驶”与“安全靠边”间寻找平衡,避免引发次生灾害
自动驾驶架构与技术路线对比
-
维度:自主式(特斯拉FSD/Waymo) vs 云端管控式(萝卜快跑)
-
核心闭环:车端完成驾驶闭环 vs 路线规划和接管依赖实时通信
-
故障影响:云挂了车仍能安全靠边 vs 云端故障直接导致车辆失去行驶能力
-
多传感器融合 vs 纯视觉:Waymo多传感器全无人里程破2亿英里,特斯拉陷“硬件不敢堆、软件跑不通”死循环
-
AI控制物理实体引发质变:数字故障直接传导为现实伤害,取消人类司机缓冲层致使平台直接控制数吨钢铁
-
L4级自动驾驶规模化关卡:必须跨越感知冗余、决策可靠性、应急闭环三大关卡,当前行业仅跨越第一关
-
FSD官方定位与宣传严重冲突:明确标注L2级辅助驾驶要求驾驶员担责,官方却转发点赞71岁视力衰退车主依赖FSD上路视频
-
监管调查与法律诉讼全面升级:NHTSA将调查范围扩至290万辆核查违规,特斯拉面临多起撞车诉讼,欧盟盯上误导性命名
-
全球车主维权与HW3车主遭实质抛弃:马斯克承认HW3无法实现无监督FSD,约400万车主被弃,二手车大幅贬值,中荷车主发起集体诉讼
-
11年承诺跳票时间线:从2015年“2年内完全自动驾驶”到2019年“无需新硬件”,2026年仅以“猜测”表述落地可能
-
估值逻辑动摇:175倍市盈率建立于卖自动驾驶服务叙事,FSD持续跳票正瓦解资本信仰,销量增速从40%骤降至3%
-
WorldScape登顶世界模型榜单:Manifold AI自研模型以小参数量实现全球最高空间智能密度,单GPU接近实时生成
-
核心技术跨越:统一动作状态建模与显式三维几何感知,实现从生成“像不像”到物理逻辑“对不对”的跨越
-
团队资本双优:创始人武伟为前商汤高管曾击败特斯拉,公司成立10个月完成5轮融资
2.4 无人配送与出海
无人城配出海策略与市场格局
新石器与九识智能 2025 年交付均破万台,融资总额超 10 亿美金,出海成为 2026 年主旋律。无人城配出海核心逻辑已从"卷低价复制国内"转向"找路权+绑伙伴+本地合规"。
- 中东市场:资本与路权双驱动,商业化可行性最高
- 美国市场:面临国安审查与签证限制,通道基本关闭
- 欧洲市场:千亿级市场但属空白,面临严苛数据监管红线
- 东南亚市场:人力成本极低且路况混乱,仅新加坡具备商业化条件
四大市场进入策略对比
| 市场 | 核心玩家 | 关键动作 | 核心障碍 | 商业化进展 |
|---|---|---|---|---|
| 中东 | 新石器、九识 | 资本绑定+本地定制(40℃+高温、沙尘适配) | 政策准入 | 半年完成牌照到数百台部署,2026 年目标 1 万台 |
| 美国 | 新石器 | 本地设新公司、核心代码重写、招募 Nuro 附近人才 | 签证限制、合规重构 | 基本通道关闭,"重启"式切入 |
| 欧洲 | 九识 | 评估中 | 场景错位、数据监管红线、不正当竞争风险 | 战略备份阶段 |
| 东南亚 | 九识 | 绑定邮政国家队、优先封闭场景 | 人力成本低、公开道路混乱 | 仅新加坡具备商业化条件 |
中东出海进展
- 新石器:获 Stone Venture 超 6 亿美金 D 轮,与阿联酋 K2 集团合作进行中东版定制
- 新石器:半年内从首张牌照到数百台车部署,完成 98 公里无接管配送
- 九识智能:拿下中东首张无人驾驶运营牌照,投入 RoboVan 常态化运行
产品本地化适配
- 九识智能:推出高温版 Z5 车型,采用液冷散热,在 60℃ 环境稳定运行
- 新石器:与阿联酋 K2 集团合作,对传感器、底盘、电池、算法进行中东版定制
- 图达通:同步出海覆盖 DeepWay、陕汽重卡、九识等客户,欧洲智慧交通已官宣合作
- 图达通:非车载赛道(商用车、Robotaxi、机器人)毛利优于车载,竞争温和适合打磨产品
比亚迪高端出海:3 倍溢价定价策略
- 腾势 Z9GT 欧洲售价约 11.5 万欧元(超 90 万元人民币),为国内 26.98 万元起售价的 3 倍多
- 搭载易三方技术平台,纯电版百公里加速 2.7 秒,配备 1500kW 闪充技术
- 腾势计划 2026 年底覆盖欧洲 30 余国,建成超 150 家零售门店,比亚迪将在欧洲布局 3000 座海外闪充站
2.5 自动驾驶与出行
DeepWay深向:正向定义电动重卡的渐进式自动驾驶路线
- 正向定义战略:区别于图森等纯算法公司,采用正向定义电动重卡+渐进式L2→L4路线,已交付超万台,拥有全球最大智能驾驶重卡车队。
- 融资与市场验证:Pre-IPO轮累计募集超3.1亿美元,创近五年行业最大单轮融资纪录;L2智驾付费订阅率突破30%(对比特斯拉FSD仅12%)。
技术架构对比
| 维度 | 传统油改电重卡 | DeepWay正向定义 |
|---|---|---|
| 信号架构 | 碎片化模拟信号 | 统一电子电气架构+线控底盘 |
| 数据能力 | 售后失联,无迭代 | 实时全量监控,OTA远程升级 |
| L4冗余 | 改造≈整车重构 | 原生集成,天然支持 |
| 成本控制 | 机械件议价权低 | 自研三电,模具一体成型 |
- 数据闭环与盈利改善:2025年自研三电系统掌控关键数据;毛利率从2023年0.4%升至2025上半年2.9%,加速盈利改善。
- 渐进式数据飞轮:L2全系标配量产积累超1亿公里真实数据;第三代架构L2与L4共用平台,仅增冗余硬件即可平滑升级。
- 核心运营数据:累计主动干预超100万次,减少超200起风险事故;单车每公里节省1元,两年抹平购车差价。
- 编队商业化进展:2025年在内蒙古大规模部署智能编队;L4编队人机共驾成本比单车L4便宜一半以上,为商业化最优解。
- 全球化布局:2026年有望成智能编队商业化运营元年,已在中东、东南亚、澳新等地建立销售网络。
- 行业胜负手:图森无主机厂配合无法量产,Peloton纯算法烧光资金;证明胜负取决于最快将技术转化为可持续商业闭环,而非算法先进性。
纵目科技破产复盘:智驾Tier1的结构性陷阱
- 三年巨亏15.86亿资金链断裂:2021-2023年营收从2.25亿增至4.98亿,净亏损累计15.86亿元,9轮融资超22亿几近耗尽,错失四维图新2-4亿收购的自救窗口
- 核心客户全面流失:赛力斯被华为替代(收入下滑46%)、理想2023年10月被踢出供应链、头部央企和兵工企业先后丢失,定点从50款缩水至4-5款
- 两次关键否决致技术停滞:2021年否决行泊一体方案(影响上市财数据)、2022年否决高速NOA延伸,将技术能力实质锁定在2022年
- 旁支业务烧钱超10亿无果:智慧城市(>1亿)、无线充电(~2.5亿)、蚕丛机器人(>6.5亿)均未商业化,前高管称“融来的20多亿有10亿打水漂”
| 客户 | 流失原因 | 收入影响 |
|---|---|---|
| 赛力斯 | 华为方案全面替代 | 2023年收入降至1.27亿,下滑46% |
| 理想 | 销售负责人离职,派财务高管谈判 | 2023年10月被踢出供应商名单 |
| 头部央企 | 性能不达标、人事变动致重验 | 两年合同拖至五年,亏损严重 |
| 兵工企业 | 白盒方案被转交另一供应商 | 投入产出倒挂 |
- Tier1定位是结构性陷阱:从算法Tier2转型硬件Tier1需博世级成本管控,创业公司难以同时做好算法研发和供应链管理
- 智驾供应商遭双向挤压:车企自研(比亚迪天神之眼、吉利千里浩瀚)和ICT巨头(华为ADS)同时收窄第三方供应商生存空间
自动驾驶商业化路径:L3 不可跳过的三维论证
- 2026年定位全球自动驾驶商业化元年:中国启动L3分批次准入,美国联邦法案进入众议院表决
- 明确L3/L4商业化时间表:遵循先L3后L4、先ToB后ToC路线,2026年部分城市试点L3(支持120km/h),2027年规模商用,2028年城区低速及干线物流L4商用试点
- 揭露辅助与自动驾驶MPI差距:L3/L4标准要求33至66万公里无接管,当前行业辅助驾驶接管间隔仅几十至几百公里,两者差距达3至4个数量级,外推安全具有误导性
- 华为定位行业电子螺丝钉:合作车企超25家,累计装载辅助驾驶系统140万套,2026年起月均装载量将超10万套
- 规模数据全面爆发:当前搭载ADS上路170万辆(在售35款),预计年底突破300万辆(增至93款)
- ADS系统快速迭代突破:从依赖高精地图(1.0)演进至不依赖地图的城区智驾(2.0)、首创车位到车位(3.0),2025年推出基于WEWA架构的ADS 4.0
- 四大技术攻坚方向:感知层(多雷达与物理级对齐)、决策层(算力迈向百亿级与WEWA 2.0)、执行层(底盘控制上移至行车大脑实现三维协同)、系统可靠性(目标百万公里无系统不稳定)
- 云端与车端算力协同:ADS 4.0云端算力达4.5G FLOPS,结合扩散生成与安全强化学习;车端采用多模态感知与原生模型
- 安全数据透明化标杆:自2026年起每月公开安全出行报告,累计辅助驾驶里程超100亿公里,单月里程25亿公里
- 多维安全表现卓越对比:中国市场均值为180万公里,ADS人工驾驶517万公里(2.87倍),辅助驾驶757万公里(4.2倍),ADS 4.1版本达1100万公里(6.1倍)
- 主动安全与用户口碑双丰收:CAS 4.0已避免479万次潜在碰撞,乾崑智驾公开赛两周吸引18万人参与,前三名城区里程均超1.7万公里
2026北京车展五大趋势:舱驾一体、L3落地与产业链洗牌
-
中国智能汽车产业链进入全球引领阶段:从技术跟随转向标准输出,合资品牌全面拥抱中国供应商,BBA/大众/丰田智驾采用Momenta、华为乾崑、地平线方案「光锥智能」
-
L3自动驾驶进入规模化落地年:华为乾崑ADS 5.0采用WEWA 2.0架构,已在23城完成路测认证;智驾责任首次明确——系统激活且未要求接管时事故由华为与合作车企共同承担,是自动驾驶商业化的关键制度创新「光锥智能」
-
舱驾一体成为下一代核心赛道,本质是AI Agent获得整车调用权限的架构革命:
| 厂商 | 方案 | 核心能力 |
|---|---|---|
| 地平线 | 星空芯片+KaKaClaw OS+HSD | 智驾/智舱功能skill化,供座舱Agent统一调用 |
| 华为乾崑 | 汽车智能体 | 自然语言实时指挥智驾,打通舱驾边界 |
| 斑马智行 | 元神AI汽车机器人大脑 | AutoOmni全模态端模型+Agent支付 |
| 商汤绝影 | Sage三层架构 | 座舱AI"一体机",从聊天到干活 |
-
华为"不造车"策略本质是做智能汽车时代的"高通+安卓":华为系占据10个场馆,鸿蒙智行展台超4400㎡,华为智擎品牌正式发布覆盖电机/底盘/液冷超充/智驾/智舱全栈;HI Plus模式(弈境/启境)工程阶段联合开发,车企自主权更强「光锥智能」
-
自主品牌集体冲击高端:理想L9 Livis(55.98万,2560TOPS)、小鹏GX(39.98万,三颗图灵芯片)、蔚来ES9(52.8万起,900V高压平台);800V高压架构已成20-30万价格段标配,极氪推进900V架构「光锥智能」
2.6 智驾芯片与硬件
智驾核心架构:从实时工程到端到端大模型
-
分布式实时数据流架构:自动驾驶技术栈由发布/订阅组件构成,需在毫秒级时限内将数千兆传感器数据转化为安全控制指令,典型4K/60fps摄像头原始吞吐约12Gbps
-
场景自适应感知调度:基于运行设计域(ODD)动态调整资源投入,高速场景提激光雷达信任(R=0.1)降摄像头(R=0.5),城市场景反转
-
MPC编码产品哲学:轨迹生成的成本函数权重矩阵直接体现工程取舍,抖动惩罚权重(50)远超位置误差(10)和超速(1),确立舒适性优先原则
-
确定性调度取代尽力而为:通过WCET估算与多速率设计,100ms控制周期内各环节延迟预算精确到毫秒级,实现从"尽量快"到"确定性地快"的跨越
-
隐空间推理替代文本CoT:ColaVLA(清华+港中文MMLab,CVPR 2026)将自动驾驶推理从文本token搬到统一潜空间,全程不生成中间文本
-
四步认知链路:模拟人类司机认知过程,Understand(全局场景)→ Recognize(动态筛选关键token)→ Rethink(复核推理)→ Decide(输出驾驶先验)
-
分层并行规划器:轨迹生成先粗后细、保持因果约束,单次前向传播并行完成多尺度多模式轨迹解码,无需串行生成
-
推理效率显著提升:闭环评测NeuroNCAP得分3.48、碰撞率36.8%,端到端延迟228ms/frame(H200),比文本式方法快5-10倍
蔚来自研芯片产品矩阵
| 维度 | 神玑NX9031 | 第二颗5nm芯片 |
|---|---|---|
| 制程 | 5nm | 5nm |
| 算力 | >1000TOPS | ~700TOPS |
| 定位 | 旗舰高性能 | 成本优先,中端市场 |
| 状态 | 已出货超15万套 | 已流片,量产推进中 |
- 乐道L90选型博弈:2026款车型面临高算力路线(NX9031配LPDDR5x成本高)与低成本路线(700TOPS新芯片)的权衡,最终方案尚未确定
- 行业格局影响:第二颗芯片性能等效三颗Orin-X,神玑技术完成超22亿元首轮融资(投后估值近百亿),形成高低搭配产品矩阵
智驾芯片竞争格局与地平线战略跃迁
雷峰网(20260402) | AI蓝媒汇(20260401) | AI早餐汇(20260423) | 划重点KeyPoints(20260423) | 脑极体(20260423)
- 地平线困局与转型:2025年营收37.58亿元(+57.7%),剔除公允价值后仍亏损,研发占比137.1%,从高毛利授权转向低毛利软硬件一体交付。
- 三方围堵压力:英伟达2026年与比亚迪吉利合作直插核心价位;Momenta新芯拿下上汽大众等;理想M100路测中。
- 激光雷达跨界扩张:车载市场扎堆内卷毛利缩水,头部厂商寻找第二曲线;图达通实现1550nm规模化量产,成本降至500美金以下,兼顾905nm矩阵。
- 芯片分层协作:核心信号芯片联合蔚来自研(代号“杨戬”),非核心外部采购,反对盲目全自研。
- 竞争壁垒:实现芯片设计、OS、智驾算法、座舱能力四象限全覆盖,单一玩家难以构建同等方案。
- 战略与消费拐点:向整车智能全品类赋能者转型,切入物理AI走向AGI;HSD车型77%用户选装高配,10-20万区间消费者开始买单。 舱驾融合突破
- 传统架构缺陷:硬件冗余成本高,算力利用率均不足50%,座舱响应智驾指令跨域延迟超2秒存隐患。
- 技术方案对比:
- 星空原生融合:单颗原生统一架构,统一物理内存池,硬件级统一动态调度,达毫秒级原生极速响应。
- 虚拟化方案:单芯片虚拟化分区,逻辑共享底层内存,软件层模拟共享算力,延迟缩减至百毫秒级。
- 分离方案:智驾座舱各配一颗,两套独立内存架构,各计算域算力独占,跨域延迟超2秒以上。 核心产品与技术布局
- 经济降本效应:星空芯片单颗省2000-3000元DDR;硬件减半缩减散热与线束附加成本,单车总降本1500-4000元。
- 核心产品矩阵:
- 星空6P/6H:5nm车规,273GB/s带宽,BPU 650 TOPS,支持300亿参数大模型与6-12块屏;2026年Q3量产。
- 城堡安全架构:座舱智驾四域物理隔离,智驾域达ASIL-D级;自适应计算引擎ACE动态调配算力。
- HSD 1.6智驾:国内首个量产一段式端到端;聚焦通勤泊车,新增悬空障碍识别与紧急避让。
- KaKaClaw OS:具备记忆、技能、个性三层;原生跨域调度底层硬件,跨平台兼容高通等,统筹双Agent。
炽云科技:全球唯一量产裸眼3D-HUD的Tier 2突围路径
- 全球首款量产裸眼3D-HUD:炽云科技核心光学零部件及算法搭载长安马自达EZ-60,实现1米至无限远连续景深裸眼3D,彻底解决传统AR-HUD调节性视疲劳痛点
- 核心技术与指标对比:
| 维度 | 传统AR-HUD | 炽云3D-HUD |
|---|---|---|
| 成像方式 | 单/双固定焦面 | 左右眼分别投射视差图像 |
| 虚像距离 | 固定7.5-10米 | 1米至无限远连续景深 |
| 立体效果 | 无(2D贴图) | 连续景深裸眼3D |
| 视野 | 9×3度 | 11×4度 |
| 体积 | 较大 | 大幅压缩,可原位替换 |
- 从几何光学到微纳光学:跳过W-HUD直接攻克3D-HUD,结合眼球追踪与三维空间重建算法,2024年大幅压缩光路体积,证明低成本高工程化路径可行
- Tier 2定位是初创企业最优解:2017-2020年直接对接主机厂做近10个车型Demo零量产,转型与德赛西威、摩比斯等Tier 1巨头合作,专注核心技术供给
- 从国产替代到全球输出:已与日韩两家Tier 1签署5年长期协议,日本客户以远超成本溢价购买样机,并作为车载HUD国家标准核心起草单位
- HUD渗透率迎来爆发拐点:2020年中国乘用车前装HUD渗透率仅4.8%,2025年受大屏内卷安全反噬与L2+智驾信息激增双重推动,国产HUD企业从不足10家扩展至近40家
2.7 智能汽车产品与品牌
智己LS8:25万级AI汽车技术平权
- 智驾技术平权:Momenta一段式端到端大模型打通感知到决策全链路,配合520线激光雷达(凝视区点云密度媲美1040线)和预埋Thor 700TOPS算力
- 底盘架构突破:灵蜥数字底盘3.0实现行业首个全线控四轮转向,取消机械管柱改用电子信号,响应速度为传统结构4倍
- 极致灵活性:后轮最大转角24度,5米大车半圈掉头,线控技术首次下放至30万级,动态转向比自适应调节
- 生态座舱升级:千问大模型首次上车,车机从语音助手升级为任务执行器,支持语音点餐支付,核心价值在于跨App任务闭环
- 增程性能数据:恒星系统搭载66kWh电池,纯电续航430km(实测12.1度/百公里),满电满油综合续航1605km,油耗2.54L
- 定价颠覆意义:25.98万起系统性下放百万级底盘素质+前沿智驾+生态座舱,填平BBA品牌护城河
华为乾崑×奥迪Q5L:燃油车智能化破局与供应链重构
- 全球首款搭载华为乾崑智驾的豪华燃油SUV——全新奥迪Q5L正式上线,实现城区/高速领航辅助,标志着燃油车智能化从概念走向量产「量子位」
- 燃油车智驾三大工程挑战及解法:
- 感知适配:双激光雷达部署于车头左右两侧(燃油车无法车顶安装),重新进行视角差异的算法适配
- 动力响应:深度调校VMM车辆运动管理系统,打通"智能大脑"与"驾控小脑",解决加速平顺性、刹车及时性、转向精准性
- OTA升级:燃油车首次实现辅助驾驶能力OTA,改变燃油车产品生命周期逻辑
| 能力维度 | 具体功能 |
|---|---|
| 城区领航 | 无保护路口转向、行人避让、无高精地图运行 |
| 高速领航 | 上下匝道、巡航跟车、弯道降速、大车横向偏移避让 |
| 泊车辅助 | 遥控泊车、3公里跨层记忆泊车、120米循迹倒车 |
- 供应链权力重构:科技公司从"供应商"升级为"联合开发者",介入产品定义前端;传统Tier 1缺乏智能化能力,供应链出现真空地带被科技公司填补
- 油电竞争新变量:新能源市占比增速放缓(同比仅微增0.8个百分点至42%),燃油车仍占近六成份额;华为乾崑+奥迪为燃油车企提供样板——自建能力或与产业赋能者合作
问界登顶中国豪华品牌价值榜首:智能化重塑豪华定义
- 问界首次入选Brand Finance《2026全球汽车品牌价值100强》,以34.48亿美元品牌价值位列中国豪华汽车品牌第一,成为全球豪华品牌TOP 10中唯一中国品牌
- 品牌强度指数(BSI)达77.8分,位列中国汽车品牌第一;仅用46个月累计交付突破100万辆,2025年累计交付超42万辆
- 问界M9稳居50万级销量冠军,高净值车型占比极高呈"倒金字塔"结构,消费者购买从硬件终端转向对技术路线的信仰和品牌愿景认同
- 核心范式转移:豪华定义权从内燃机时代的机械素质叙事转向智能化时代的算力与模型叙事
| 维度 | 传统豪华品牌 | 问界 |
|---|---|---|
| 核心壁垒 | 机械素质、V8发动机、稀缺材料 | 底层算力冗余、端到端架构、软硬协同 |
| 先进标尺 | 排气量、百公里加速 | 算力、模型迭代速度、智驾能力 |
| 技术阶段 | L2级辅助驾驶缓慢推新 | 高阶智驾大规模工程化落地 |
- 高客单价与大规模交付不再互斥:问界证明技术溢价可同时实现高单车利润和高销量,打破传统豪华品牌"稀缺即高价"的商业逻辑
- 中国汽车产业价值链跃迁:从供应链领先到品牌溢价突破,以技术代差定义新品类规则而非在旧规则中追赶
3. 世界模型与物理仿真
3.1 世界模型突破
空间智能路线之争:vs
- 空间智能路线分化:(像素拟合,Sora为代表)vs(结构化物理参数,群核为代表),后者门槛远高于前者
| 维度 | 看起来对(像素路线) | 物理上对(结构化路线) |
|---|---|---|
| 数据基础 | 像素统计规律 | 结构化物理参数 |
| 代表产品 | Sora等视频生成 | 群核空间模拟平台 |
| 典型缺陷 | 水往高处流、物体穿墙 | 需长期产业嵌入验证 |
| 适用场景 | 娱乐、内容生产 | 机器人训练、工业数字孪生 |
| 地域倾向 | 美国偏重 | 中国偏重(制造业发达) |
- 高质量三维数据极度稀缺:AI训练数据呈倒序分布(海量文本→大量图像→部分视频→极度缺乏三维空间数据),物理世界信息无法从文本推导
- 产业数据壁垒极高:群核积累超5亿个三维场景、4.8亿个模型,含材质、密度、工程规范等物理参数;上市市值638.6亿港元,发售获1590倍超额认购
- SaaS是数据载体而非终局:十五年产业积累的核心不是SaaS用户,而是物理世界的结构化映射能力;垂直领域结构化数据比算法更难复制
NVIDIA Cosmos:Physical AI 的基础骨干模型平台与统一架构演进
|------|---------|----------| | 底层 | 互联网规模数据 | 非机器人视角,编码世界动态知识 | | 中层 | 合成数据+世界模型生成 | 贴近机器人视角,可交互 | | 顶层 | 机器人真实数据 | 观察-动作对应关系,连接感知与执行 |
四层工具栈架构
- Models:Reason 2(理解)+ Predict 2(预测生成)+ Transfer 2.5(视频转换)
- Scripts:推理与后训练脚本,适配 7/12 摄像头、LiDAR 等多形态机器人
- Frameworks:Curator 数据整理 + IO 后训练 + Evaluator 质量评估
- Blueprints:VSS 搜索摘要、Data Search、Physical AI Data Factory
关键模型性能
- Reason 2:视觉语言模型,生成答案前先思考,在两个 Physical AI 理解 benchmark 排名第一
- Predict 2 + Cosmos Policy:LIBERO 仿真基准达 98.5% 成功率,真实测试超越近期 VLA 模型
- 基于模型的规划:困难任务得分平均提升 12.5 分,支持 best-of-n search
- Transfer 2.5:支持深度/边缘/分割/模糊输入作为控制信号
Cosmos 3 统一架构
- 双 Transformer 耦合:Reasoner(推理)+ Generator(生成),整体为单一 omni model
- 多模态 I/O:输入图像/视频/声音/动作,输出文本+图像/视频/声音/动作
- 双重部署方式:既可作动作条件化视频生成器,也可直接预测动作
关键洞察
- 理解与生成的统一是世界模型的必然演进方向,分离模型只是阶段性产物
- 世界模型作为评估器比训练器更具近期实用价值:虚拟评估排序与真实排序的相关性才是加速开发的关键杠杆
- 后训练是体系关键环节:需将 backbone 调整到特定 embodiment,所有 checkpoint 在 Hugging Face 开放
智在无界 Being-H0.7:潜空间推理世界模型,20万小时人类视频屠榜6大评测
机器之心(20260414) | 智能涌现(20260414) | 深度学习与NLP(20260414) | AI科技评论(20260414) | 具身智能之心(20260414) | 雷峰网(20260414) | 人工智能学家(20260414)
智在无界发布第三代具身世界模型 Being-H0.7,提出"潜空间推理"全新范式,以20万小时人类视频预训练,在6项国际权威评测综合排名第一(4项登顶),并成为首个可在端侧(75TOPS)实时部署的世界模型。
三种范式路线对比
| 维度 | VLA | 视频生成式 | 潜空间推理式(H0.7) |
|---|---|---|---|
| 核心机制 | 观测→动作直接映射 | 像素级未来画面生成 | 潜空间推理+动作联合预测 |
| 物理理解 | 弱,易过拟合 | 二维表征,难以抽象规律 | 类"物理直觉"快速判断 |
| 计算成本 | 中等 | 极高 | 极低(Cosmos Policy的<1%) |
| 实时与部署 | 可实时 | 依赖云端,难以实时 | 端侧实时(Orin NX) |
核心架构创新
- 双分支架构:后验分支(未来可见)引导决策学习,先验分支(仅当前观测)负责部署,注意力掩码共享主干
- 放弃像素级预测:物理规律无法通过逐像素图像完全表达,转而在潜空间中模拟"物理直觉"快速判断
- 联合预测状态与动作:与LeCun JEPA路线分野,主张理解与交互不可分割,第一人称视频天然提供双重信号
关键性能数据
- 推理延迟低至3.61ms/step,较Fast-WAM提速10倍+,较生成式方案提速50倍
- 显存占用仅为同类方案50%,信息压缩超百倍,实现端侧部署突破
- 工业场景任务成功率提升至90%以上
数据规模演进
- 人类视频Scaling:H0(1000小时)→H0.5(1.5万小时)→H0.7(20万小时),预计年底扩至100万小时
- U1灵巧手数据采集系统:全球首款Real DexUMI设备,同步获取视觉/动作/触觉信号,效率较传统提升10倍
商业与产品体系
- 三层闭环:模型层(H系列跨本体)→适配层(Being-Dex,新任务学习压至30分钟)→数据层(U1采集系统)
- 产业分工明确:本体公司趋向智能外置,"通用能力打底+专家能力专精"成规模化共识
- 累计融资近亿元:24年种子轮至25年Pre-A轮完成四轮融资,核心团队涵盖清华学者与阿里/京东产业人士
从融资到IPO:具身智能商业化的资本市场验证
- IPO热度创纪录:公开发售超额认购5059倍,首日市值100亿港元,募资约13.73亿港元。
- 基石投资者阵容豪华:高瓴、淡马锡、摩根士丹利等合计认购9840万美元。
核心财务与业务指标对比
| 维度 | 企业A(协作机器人) | 企业B(翼菲智能) |
|---|---|---|
| 行业地位 | 全球协作机器人第五,国内份额10.3% | 国内轻工业机器人第四,国内份额1.4% |
| 2024年营收 | 3.10亿元(三年CAGR 68.4%) | 2.68亿元(三年CAGR 38.8%) |
| 盈利能力 | 24年净利1787万成功扭亏,毛利率34.28% | 亏损扩大,24年亏0.71亿,毛利率26.5% |
| 核心矛盾 | 协作机器人占比升至75.9%,盈利拐点确立 | 营收高增长与亏损扩大并存,三年累亏3.34亿 |
| 业务转型 | 自研核心部件,同时外供人形机器人厂商 | 本体收入占比从12.8%升至31.9%,向产品型转型 |
| 客户集中度 | 五大客户收益占比55.3%,存在依赖风险 | 五大客户占比从60.7%降至46.8%,风险有所改善 |
| 研发与专利 | 研发投入持续高位,累计持有238项专利 | 研发占比最高达18.3%,拥有284项授权专利 |
| 海外市场 | 欧洲快速扩张,收入占比升至29.7% | 海外毛利极高(东南亚59.7%)但收入占比仅9.8% |
| 创始人团队 | 王光能(北航本硕、南科大教授,25年经验) | 张赛(清华博士),历经12轮融估值增至36.04亿 |
- 双线产品矩阵:E系列和S系列协作机器人(精密加工、物流码垛等)构成整机收入核心引擎。
- 全品类产品线扩张:覆盖并联、AGV、SCARA、六轴等七大品类,产品销往29省及24国。
智元 Genie Envisioner 2.0:动作驱动世界模拟器与闭环训练范式
- 产品定位跃迁:GE-Sim 2.0 将世界模型从表征工具升级为可交互、可训练、可决策的系统基础设施
- 双线技术架构:World Action Model(EnerVerse→GE-Act→Act2Goal)与 World Simulator(EnerVerse-AC→GE-Sim 1.0→EWMBench)交汇
World Action Model 演进路线
| 阶段 | 模型 | 核心能力 |
|---|---|---|
| 4D世界建模 | EnerVerse | 具身场景可计算的4D表征 |
| 动作轨迹生成 | GE-Act | 从世界表征到动作轨迹生成 |
| 长程目标控制 | Act2Goal | 目标驱动的长程策略控制 |
World Simulator 演进路线
| 阶段 | 模型/框架 | 核心能力 |
|---|---|---|
| 动作条件建模 | EnerVerse-AC | 基于动作的未来推演 |
| 神经模拟器 | GE-Sim 1.0 | 策略闭环评估 |
| 系统评估基准 | EWMBench | 多维评估基准 |
- 内置 General Reward Model:首次实现模型世界内自评估与强化学习(RL in World Model),无需人工奖励信号
- Real2Edit2Real 数据流:真实数据从被动采集变为可扩展、可编辑素材,配合 Fidelity-Aware Data Composition 混合真实与生成数据
- 三种交互模式:Eval、RL、Teleoperation 实时交互,支持闭环训练
- 范式意义:具身智能训练从"真实世界试错"转向"模型世界训练+真实世界验证",降低部署成本与安全风险
LeWorldModel:SIGReg突破JEPA表征崩塌,1500万参数规划速度提升48倍
- LeWorldModel仅1500万参数,单卡几小时训练,在机器人控制规划任务上持平或超越数十亿参数基础世界模型,规划速度提升48倍「AI寒武纪」
- 核心创新SIGReg:数学正则化项,强制隐表示服从标准高斯分布,彻底解决JEPA架构长期存在的表征崩塌问题;超参数从6-7个缩减至1个(λ≈0.1),实现端到端从原始像素稳定训练
- 隐空间极致压缩:192维向量编码一帧,比传统方法减少200倍token量,这是规划速度48倍提升的根本原因 | 维度 | LeWorldModel | 大型基础世界模型 | |---|---|---| | 参数量 | 1500万 | 数十亿级 | | 训练资源 | 单卡几小时 | 大规模集群 | | 规划速度 | 1秒 | 47秒 | | 隐向量维度 | 192维/帧 | 高200倍token量 |
- 可解释性:线性探针可直接从隐表示中读出物体位置、速度等物理量;对物理不可能事件(如物体瞬间移位)能可靠检测
- 当前局限:仅验证短程规划(约5步)、仅在模拟环境、对低内在维度简单场景高斯先验略差
- 核心突破:LeWorldModel仅1500万参数,单卡几小时训练完成,规划速度比大型基础世界模型快48倍(1秒 vs 47秒),在机器人控制任务上持平或超越更重的基础模型方案「AI寒武纪」
- SIGReg正则化项:替代所有工程补丁(冻结编码器、指数移动平均等),强制隐表示服从标准高斯分布,从根源解决表征崩塌问题(模型将一切映射到相同向量),超参数从6-7个缩减至1个(λ≈0.1)「AI寒武纪」
- 隐空间压缩是效率核心:192维向量编码一帧,比传统方法减少200倍token量,这是规划速度48倍提升的根本原因「AI寒武纪」
- 可解释性验证:线性探针可直接从隐表示中读出物体位置、速度等物理量;对物理不可能事件(物体瞬间移位)能可靠检测「AI寒武纪」
- 当前局限:仅验证短程规划(约5步)、仅在模拟环境、对低内在维度简单场景高斯先验略差;LeCun从Meta离职后自立公司推进研究「AI寒武纪」
高效视频世界模型综述:不可能三角与三层协同优化框架
机器之心(20260424) | CVer(20260424) | "Z Potentials"(20260429) | 数智前线(20260429) | AI科技评论(20260429) | 量子位(20260429) | 具身智能之心(20260429) | 机器人前瞻(20260429) | 新智元(20260429)
- 算力与推理部署:融合视觉记忆与3D点云维持时序;稀疏、窗口与Mamba加速实现单卡实时闭环
- 视觉建模机制:支持任意数量与任意视角的视觉建模,超大参数通过云边端协同实现实时控制
- 泛化与Scaling:潜动作VAE从无标签视频提取通用运动规律,六级数据金字塔驱动抽象高维特征建模
技术路线与行业演进对比
| 流派 | 核心机制 | 优劣势对比 |
|---|---|---|
| 直接行动派(VLA) | 感知直接执行 | 仅吃特定本体数据,数据壁垒高 |
| 先看后动派(Video→Action) | 先预测再决策 | 推演与执行偏差叠加,存在断层 |
| 边看边动派(MotuBrain) | 推演与行动共享表征 | 同步进行消除断点,打破一机一型 |
核心能力矩阵
- 一脑多型:跨形态、自由度与传感器通用,接入设备越多表现越好,掌握操作本质非肌肉记忆
- 一脑贯通:单模型即可独立完成超10个原子动作级复杂长程任务,支持长序列自回归
- 一脑预见:具备实时感知与自主规划能力,如判断勺子为空后重新舀取,无训练长序列外推
- 规模效应验证:任务增加时Pi-0.5成功率下降,MotuBrain成功率上升,跨任务通用知识涌现
Benchmark与真机验证
| 评测基准 | 核心成绩 | 突破性指标 |
|---|---|---|
| WorldArena | EWM Score 63.77居首 | 运动质量、光流与平滑度三项第一 |
| RoboTwin2.0 | Clean 95.8与Random 96.1双冠 | 唯一随机环境均分超95模型,碾压Pi-0.5约40% |
- 抗干扰与长程验证:半数任务满分达熟练工级别,3台不同人形机器人完成火锅、插花等复杂长程任务
- 异构物理反馈:真机演示涵盖调酒、插花浇水,精准处理液体流变、精细抓取与织物形变等反馈
- 行业生态转向:英伟达推DreamZero性能超Pi-0.5,标志具身智能转向通用大脑竞争
- 产业产品闭环:Vidu(视频模型,全球数千万用户)+ Motus/MotuBrain(行动模型),形成预测、生成到行动闭环,推动跨本体适配落地
银河通用 LDA-1B:DINO隐空间统一世界模型与VLA,跑通具身Scaling Law
背景与商业落地
- 银河通用估值超200亿元:国内估值最高未上市具身智能企业,聚焦工厂工业与家庭起居两大落地场景。
- 模型开源与架构:LDA-1B(1.6B参数)嵌入「银河星脑」技术体系,为首个在DINO隐空间统一世界模型与VLA的架构。
三统一架构设计
- 统一任务形式:策略、动力学与视觉预测改写为预测未来状态+动作,通过Task Embedding与Register Token切换。
- 统一表征空间:采用DINO latent替代像素表征,对杂乱背景不敏感而极度敏感于物体语义与空间几何。
- 统一模型架构:多模态Diffusion Transformer(MM-DiT)共享注意力机制,使动作预测参考未来世界状态。
性能实测与路线对比
- 未见过本体泛化:少样本适配Galbot与Unitree G1机器人,夹爪与灵巧手操作、长程任务全面超越GR00T-N1.6及π0.5。
- 长程任务表现:在叠放、转移等步骤依赖任务中能实时纠错并响应指令变更,跨本体性能较前SOTA提升高达48%。
- 三大路线对比:纯VLA(π0.5)依赖专家数据难规模化,纯世界模型受像素空间制约,LDA-1B的WAM路线实现统一。
数据金字塔与Scaling验证
- 按质分配策略:高质量带动作数据参与策略训练,次优与无动作数据分别投入动力学与视觉预测吸收物理演化先验。
- Scaling Law验证:训练数据从5000小时扩至30000小时动作预测误差单调下降,加10000小时人类视频性能仍提升。
- 数据效能质变:加入30%低质量轨迹后任务成功率反升10%,验证按质分配比仅使用好数据效率更高。
- 表征消融实验:将DINO替换为VAE像素重构后基准成功率从55.4%骤降至20.0%,证明表征选择是Scaling关键。
- 核心架构洞察:DINO隐空间是具身智能Scaling Law关键前提,行业竞争焦点从单一模型架构转向异构数据利用效率。
VEGA-3D:释放视频生成模型隐式3D先验,重塑场景理解与具身交互
- 核心发现:视频生成模型(Wan2.1)在训练中隐式习得强大3D空间认知,无需显式3D标注即可迁移至理解任务,构成"生成反哺理解"新范式
- 多视角一致性碾压判别模型:Wan2.1达96.88%-97.04%,远超DINOv3-Large(61.90%)和VGGT(77.21%),该指标与下游3D理解性能强正相关
| 模型类型 | 代表模型 | 多视角一致性 |
|---|---|---|
| 判别式基础模型 | DINOv3-Large | 61.90% |
| 视频判别模型 | V-JEPA v2 | 72.00% |
| 3D专用判别模型 | VGGT | 77.21% |
| 视频生成模型 | Wan2.1-T2V | 96.88% |
| 视频生成模型 | Wan2.1-VACE | 97.04% |
- 技术架构:双流编码+Token级自适应门控融合,冻结Wan2.1通过噪声注入提取DiT Layer 20时空特征(平衡底层纹理与高层3D结构),门控机制动态调节语义特征与几何特征比例,解决"语义-几何鸿沟"
- 下游验证:ScanRefer定位Acc@0.5从51.7提升至56.2;ScanQA等5个基准全面领先Video-3D LLM;LIBERO机器人操作成功率突破97.3%
- 关键洞察:判别模型降维压缩不可逆丢失几何细节,生成模型为保持时序连贯被迫内化3D几何产生更鲁棒的空间表征;3D推理突破口在于释放生成模型已存在的物理先验而非堆叠3D标注
3.2 仿真与重建
世界模型与物理仿真突破
- 核心痛点:现有方法将多机器人视为整体,复杂度随数量爆炸,且易引发梯度冲突与预测误差累积。
- SeqWM方案:将联合动力学分解为顺序因果条件化过程,每个机器人仅建模自身对环境的边际因果贡献。
- 协作自然涌现:后续机器人条件化前序预测,预测适应与角色分工在训练中自动产生,无需人工设计。
- Sim-to-Real验证:部署于Unitree Go2-W平台(ICLR 2026,评分8/8/8/2),真实环境协作行为与仿真高度一致。
基于双向物理感知的交互重建
- 核心痛点:现有3D重建视觉逼真但物理不可用,人体穿透、重心不稳等导致仿真瞬间崩塌(感知-仿真鸿沟)。
- HSImul3R方案:首创将物理仿真器作为“主动监督者”注入3D重建管线,解决人体-场景交互重建难题。
- 双向优化架构:包含正向优化(场景针对性强化学习)和反向优化(DSRO:将仿真器反馈的稳定性直接作为监督信号微调生成模型)。
- 重建与对齐管线:结合HSfM与预训练模型MIDI修正场景几何,施加基于SDF的穿透约束优化接触精度。
- 全链路验证:配套HSIBench数据集(19类物体、50+运动序列、300个交互实例),已在宇树G1人形机器人完成sim-to-real验证。
| 对比维度 | SeqWM(多机器人协作) | HSImul3R(交互重建) |
|---|---|---|
| 核心挑战 | 联合动力学因果结构复杂化 | 3D重建视觉逼真但物理不可用 |
| 架构思路 | 顺序因果条件化分解 | 物理仿真器作为主动监督者双向优化 |
| 关键技术 | 显式意图共享与MPPI顺序规划 | DSRO直接仿真奖励优化与SDF穿透约束 |
| 涌现/优化效果 | 协作行为自然涌现 | 物体重力自稳与交互接触真实性提升 |
| 验证平台 | Unitree Go2-W(四足) | 宇树G1(人形) |
| 学术评价 | ICLR 2026(8/8/8/2) | 南洋理工S-Lab与上海AI Lab联合发布 |
共性启示:当系统复杂度因多主体/多模态交互而爆炸时,寻找合理的分解结构(顺序分解/双向物理约束)比寻找更强的统一模型更有效。
Genie Sim 3.0:一站式仿真开发平台
具身智能之心(20260408) | 具身智能之心(20260410) | 前沿在线(20260411) | 极市平台(20260429)
- 具身操作评测框架(EBench):上海AI Lab发布,含26种任务、794条测试、11种动作原语,由总分排行转向能力诊断
- 五维原子诊断标签:拆解场景、原子技能、任务时长、操作精度、操作模式,精准构建模型能力画像
- 四类泛化测试:涵盖背景、指令、物体及组合扰动,验证集与测试集严格隔离防止退化为调参
- 模型泛化短板:评测表明物体泛化与组合扰动是当前模型的共性短板
首轮评测模型能力画像对比
| 模型 | 核心特征 |
|---|---|
| π0 | 两类操作形态均衡,高精度任务领先,Pull技能优势明显 |
| π0.5 | 泛化性当前领先,背景/物体/组合三维度均优于其他模型 |
| XVLA | Push技能占优,Handover较弱,高精度操作下降显著 |
| InternVLA-A1 | 移动操作突出,桌面固定操作下降明显 |
- 广泛兼容性:支持Genie Operator、π系列、GR00T等主流基座模型一键训练与评测
- 开源评测工具:8卡4090约30分钟完成验证集评测,评测集已在HuggingFace和ModelScope开放
底层架构与技术突破
- 双引擎解耦:物理引擎与渲染引擎分离,支持1000Hz高精度物理模拟与高保真视觉并行运行
- RLinf框架集成:原生适配标准Gym接口,支持大规模并行仿真,打通仿真训练至闭环评测链路
世界模型双线演进体系(GE-Sim 2.0前瞻)
| 演进路线 | 关键节点 | 核心能力 |
|---|---|---|
| WAM线 | EnerVerse → GE-Act → Act2Goal | 从4D世界表征到目标驱动的长程控制 |
| Simulator线 | EnerVerse-AC → GE-Sim 1.0 → EWMBench | 从动作条件推演到系统化模拟能力评估 |
- 双线交汇统一:WAM与Simulator在GE-Sim 2.0交汇,统一建模状态-动作-状态演化
- 自评估闭环:内置通用激励模型(GRM),无需人工标注即可完成强化学习训练闭环
SIM1:柔体操作的物理真实仿真数据引擎
上海AI Lab提出SIM1,实现布料等柔体操作的物理真实仿真,构建real-to-sim-to-real闭环数据引擎。以约200条遥操作演示为种子,扩展为100×规模轨迹数据。
核心性能指标:
| 指标 | 数值 |
|---|---|
| 纯仿真训练zero-shot成功率 | 90% |
| 相比真实数据baseline泛化提升 | 50% |
| 成本降低 | 27× |
| 训练速度提升 | 6.8× |
| 从零训练(无真实数据)成功率 | 76% |
Scan-Simulate-Scale三阶段闭环:
- Scan:亚毫米级扫描重建,保留几何结构与褶皱纹理,仿真起点直接建立在真实环境之上
- Simulate:物理对齐仿真系统校准为可信数据生成器,核心突破为Deformation-Stable Solver
- Scale:基础操作作为可组合"动作词汇",配合随机变化扩展为数万条可执行轨迹
Deformation-Stable Solver核心突破:
- 将布料从"局部粒子系统"升级为"全局响应系统",局部拉伸超阈值时修正力单步传播至整个网格
- 解决传统仿真三大顽疾:延迟传播、粒子漂移、过拉伸伪影
Sim-to-Real三重错配诊断:
- 几何错配:空间结构一致性;物理错配:交互响应可信度;运动错配:轨迹时序与节奏
- 三者缺一不可,任一环未打通则策略无法在真实世界有效执行
关键洞察:
- 数据质量优先于数据规模——"数据首先要做对,scaling效益才会显现"
- 柔体仿真关键瓶颈在于全局一致性:布料形变是全局、快速、强耦合的
松应科技 ORCA:物理AI界的"安卓",对标英伟达 Omniverse
松应科技推出 ORCA Lab 1.0 开发者版,自研中国首个实时多物理场融合仿真引擎,实现刚体动力学、柔性体形变、复杂流体运动的统一融合。以开放生态与低硬件门槛为核心差异化优势,定位物理AI仿真基础设施。
| 对比维度 | ORCA Lab | 英伟达 Omniverse |
|---|---|---|
| 生态策略 | 开放兼容,支持AMD及20余家国产GPU | 软硬捆绑封闭模式 |
| 硬件门槛 | RTX 3060笔记本即可流畅运行 | 依赖高端专业显卡 |
| 商业模式 | 平台免费+技术支持收费 | 软硬件一体化销售 |
合成数据与场景生成
- 黄金数据策略:构建“1:8:1”配比,自动生成20维高保真多模态数据,补齐长尾与危险场景
- 细粒度对齐:数据在时间维度对齐,用于教会AI理解物理规律和因果关系
- 多模态一键生境:文本/图像/全景输入生成3D物理场景,手持点云相机扫描约1.5分钟生成可训练场景
- 预置资产丰富:内置超1000套预置物理属性资产,覆盖工业、服务、家庭场景
- 真实数据痛点:采集成本高、长尾覆盖难,合成数据成为突破具身智能数据瓶颈的关键路径
落地与合作生态
- 已与宇树科技、傅利叶智能、兵器五八智能等数十家机器人厂商达成合作
- 工业级方案已在汽车、3C、电子等行业落地,产品进入数十家央国企
- 全球掌握物理AI仿真技术栈人才不足1万人,松应目标培养50万至100万行业应用人才
庞伯特:运动训练机器人赛道的资本加注与字节系入场
- 融资动态:庞伯特完成近2亿元A轮系列融资(2025年4月),蓝驰创投、锦秋基金(字节跳动旗下CVC)等入场,标志运动训练机器人进入规模化阶段
- 网球机器人PACE系列:PACE PRO支持实时追踪球员位置并智能调整发球策略;PACE最高发球时速130km/h、旋转60转/秒、8.1米高压球,还原职业赛事训练环境
- 乒乓球机器人四大系列:M-ONE(专业训练)、OMNI(校园教学)、HALO(大众健身)、NOVA(多场景覆盖),已落地中小学、企业等
- 智能鹰眼系统SEEKER:毫秒级轨迹识别,支持HDMI外接大屏复盘,对9组训练数据综合分析并自动生成训练报告
- 创始人背景:张海波为华东理工大学教授,曾主导国家队乒乓球对打机器人研发,攻克高速球体感知、轨迹预测、球性模拟等关键技术
- 资本格局演变:2019年天使轮(新松、高通创投)→2021年Pre-A轮→2025年A轮引入蓝驰创投、锦秋基金等,字节系CVC入场表明巨头开始关注具身智能垂直场景商业化
- 商业化路径:从专业训练到校园教学再到大众健身,全场景覆盖降低单一市场依赖;融资重点投入产品迭代与全球化布局
GS-Playground:3DGS高吞吐视觉仿真器,单卡万帧渲染+零微调部署
- 业界首个将高吞吐并行物理仿真与批量3DGS渲染深度融合的全栈仿真平台,被RSS 2026录用,团队来自清华大学AIR DISCOVER Lab
- 单张RTX 4090实现10000 FPS渲染吞吐(640×480),同时渲染2048个场景,全面碾压Isaac Sim光线追踪
- 高斯点剪枝90%以上,PSNR下降不足0.05,视觉策略网络无法感知画质差异;面向批处理深度优化的渲染器消除OOM问题
- 刚性连杆高斯运动学(RLGK):将3D高斯簇与物理引擎刚体精准绑定,位姿实时同步零额外开销,高速运动零伪影
Real2Sim自动化资产生成
- 仅需一张RGB照片即可在数分钟内全自动生成Sim-Ready数字资产,场景构建从"周级"跃迁至"分钟级"
- Grounding DINO + SAM1/SAM2实现目标分割,SAM3D重建物体3DGS与网格,深度对齐实现亚毫米级位姿配准
- 发布Bridge-GS数据集,补充场景/物体级3DGS表征、网格模型、6D位姿与相机参数
全场景通用性与传感器生态
- 自研跨平台并行物理引擎,原生支持CPU/GPU双后端 + Windows/Linux/macOS
- 四足、人形、机械臂开箱即用,首个基于3DGS实现大规模并行LiDAR仿真(旋转/固态/非重复扫描全类型)
- 接口API完全兼容MuJoCo MJCF格式,现有项目零摩擦迁移
Sim2Real验证
- 零微调真机部署:机械臂抓取成功率90%,视觉导航任务零样本直接迁移
性能对比
| 指标 | GS-Playground | Isaac Sim RT |
|---|---|---|
| 640×480峰值吞吐 | ~10000 FPS | 远低于此 |
| 并行场景数 | 2048 | 受限 |
| 资产生成 | 单张照片分钟级 | 人工建模周级 |
| Sim2Real迁移 | 零微调 | 需域适应 |
3.3 具身世界模型商业产品与数据飞轮
极佳视界:AC-WM 路线登顶全球
机器之心(20260330) | 具身智能之心(20260331) | AI科技评论(20260412) | 具身智能之心(20260416) | 机器人前瞻(20260417) | 机器之心(20260414) | 机器之心(20260423)
GigaWorld-1:AC-WM登顶全球
- WorldArena评测全球第一:综合得分突破60分,唯一达此门槛,物理遵循领先第二名16%
- 双维度极致性能(FlowWAM):物理遵循与3D准确度双维度第一,轨迹时空与深度几何领先
- 核心架构:引入显式动作建模保证几何一致性,融合可微分物理引擎获取精准物理参数
- 泛化能力:VLA在新纹理、新视角、新物体位置三大维度实现近300%性能提升
- 评测权威性:WorldArena由清华、普林斯顿等8所高校联合打造,含16项细分指标
FlowWAM三代技术迭代
- 核心迭代路径:FAM-1(3D热力图预训练)→BridgeV2W(跨本体视频生成)→FlowWAM(因果预测)
- 技术演进本质:逐代缩小“动作-视觉”表征鸿沟,实现从像素生成到物理动态流动的跨越
GigaWorld-Policy:突破WAM推理瓶颈
- 因果解耦设计:跳过视频生成仅解码动作,速度达360ms/步(A100),较Motus快10倍
- 训练效率革命:仅用10%真实数据达传统VLA 100%数据效果,任务成功率83%(+7%)
- 双重监督机制:动作预测+视频生成联合训练,因果隔离确保视频token不干扰动作
- 范式意义:将视频生成降级为训练辅助,验证理解物理规律不等于必须渲染物理画面
行业评价范式转移
- 评价标准升级:具身世界模型评价正从视觉保真转向物理遵循与三维空间理解能力
- 共性难题攻坚:单目视觉下的尺度歧义是当前行业共性难题,评价重心已向物理遵循转移
融资与商业化
- 2026年4月B1轮近15亿元:叠加Pre-B轮近10亿,单月累计25亿元,估值突破百亿
- 双料全球唯一:同时获得WorldArena全球第一和RoboChallenge全球第一
- 三大落地场景:Maker H01机器人冲刺千台;驾驶模拟器服务30+主机厂;签约影视头部
- 汽车制造里程碑:联合一汽模具、阿里云完成国内首个汽车制造全流程具身智能方案落地
- 数据飞轮目标:年内视觉-动作数据超100万小时,世界模型预训练数据超1000万小时
灵初智能 Psi-R2 + Psi-W0:策略模型与世界模型的双系统数据飞轮
机器之心(20260411) | 量子位(20260411) | 具身智能之心(20260411) | 新智元(20260412) | AI异类弗兰克(20260412)
- 失败数据训练:Psi-W0 额外加入约 30% 失败样本,使模型能评估“换一种做法会在哪一步失败”,无需真实试错即可掌握失败经验
| 模型 | 输入 | 输出 | 核心职责 |
|---|---|---|---|
| Psi-R2 | 图像+语言 | 未来视频+机器人动作 | 任务知识学习与策略生成 |
| Psi-W0 | 图像+语言+动作轨迹 | 未来视频预测 | 反事实推理与策略评估 |
- 数据规模与构成:95472 小时人类数据 + 5417 小时真机数据,覆盖 294 种场景、4821 种任务、1382 种物体;人类数据规模为真机数据的 17.6 倍,首批开源 1000 小时
- 复合分层架构:外骨骼手套高精度数据(亚毫米级 3D 轨迹)负责模型上限,大规模裸手数据负责泛化能力,综合采集成本仅为传统遥操方案的十分之一
- 数据优先级判断:任务多样性 > 物体多样性 >> 场景多样性;精准 3D 位姿 > 触觉 > 2D 图像特征
- 触觉设计创新:触觉被视为跨具身的“通用语言”,采用 mask training 作为预测目标而非始终可见的输入,解决异构机器人触觉信号兼容问题
- 微调效率:预训练完成后仅需少于 100 条真机轨迹微调,即可完成手机装配、工业包装、叠纸盒等长程精细任务
- 推理优化:通过 DiT 缓存、Torch 编译、模型量化等技术,将单次推理从 2.2 秒压缩至 100 毫秒以内
- 数据治理闭环:Psi-W0 可视化能力参与数据打分,筛除低信噪比样本;决定预训练上限的是有效动作知识密度而非原始时长
- 基准测试表现:Psi-R2 在 MolmoSpaces Combined 榜单(不使用 MolmoBot Data)以 46.4 Oracle Success Rate 排名第一,超越 PI、DreamZero 等国际模型
- 世界模型定位演进:从“看未来”转向“编译经验”——Psi-W0 放在 Human Data 到 Robot Data 的中间层,成为人类技能向机器人能力转换的编译器
- 年底目标:数据集计划 Scaling 至百万量级,已与北京石景山、腾讯云、抖音等达成生态合作
阿里 HappyOyster:实时交互式世界模型与1分钟一致性边界
- 四大能力模式:包含漫游(1分钟/480p)、导演(3分钟+/最高720p)、创造与分享,漫游与导演模式尚未打通。
- 技术内核与壁垒:长时序世界建模结合实时交互控制,实现原生多模态音视频联合生成;新增多源条件一致时序建模与音视频同步输出壁垒。
- 语义级生成:单指令可联动调整场景风格与材质(非滤镜叠加),角色能基于环境合理渐进增补入画。
- 状态跟踪与核心瓶颈:具初步状态跟踪力,但视觉记忆窗口约1分钟,超时场景易破碎对象易变形,不适合强约束高预测性任务。
- 落地路径规划:近期做快速概念原型,中期做镜头环境等低成本试错工具,远期实现玩家自由描述即时生成世界;竞争力终将转向如何让人留下。
- 工程化与产业定位:世界模型约束最弱生成自由度最高但debug成本显著上升,评价技术应紧盯一致性时长、可控性与可复现性。
渲染范式三级对比
| 渲染范式 | 核心逻辑与适用环节 | 约束条件与可解释性 | 代表技术 |
|---|---|---|---|
| 传统渲染 | 精确计算光照,适用空间结构与游戏逻辑 | 最强(几何+材质公式),高可管线倒查 | UE Lumen |
| 神经渲染 | 弱约束推断补全帧,适用高频细节局部补全 | 较弱(依赖引擎向量),中可部分追溯 | DLSS 5 |
| 世界模型 | 直接生成画面,适用视觉表达与氛围构建 | 最弱(最少信息),低且输出带概率性 | HappyOyster |
竞争格局横向对比
| 产品 | 一致性时长 | 技术路线 | 特点与备注 |
|---|---|---|---|
| Happy Oyster 漫游 | ~1分钟 | 像素级实时渲染 | 支持角色移动和镜头调整 |
| Happy Oyster 导演 | 最长3分钟 | 像素级实时渲染 | 支持光照/重力/因果一致性 |
| 谷歌 Genie 3 | 数分钟级 | 像素级实时渲染 | 视觉记忆窗口约1分钟(同赛道第一梯队) |
| 腾讯 HY-World 2.0 | 理论无上限 | 直接生成3D资产 | 一致性由传统渲染引擎保障 |
3.4 世界模型评测基准与榜单
世界模型评测基准、榜单与架构演进
机器之心(20260412) | 量子位(20260420) | 机器之心(20260427) | 量子位(20260428)
- 评测基准揭示真实短板:GM-100 专为覆盖长尾物理过程设计,开源月下载破 5 万;实测 Pi 0.5 仅 13 分,LingBot-VLA+Depth 仅 17 分(满分 100),暴露当前模型远未成熟。
- 莫拉维克悖论验证:模型在直觉简单但极难的物理任务(如串糖葫芦、压制滚动小球)表现差;语言描述难区分物理差异(刷锅与刷马桶可互提分,折筷子与折金属棒语言同但物理异)。
- 评价范式向具身迁移:视觉逼真度与任务成功率仅弱相关(r=0.360),核心指标已从画质转向下游任务执行成功率。
- 双赛道与VIP仿真标准:双赛道含 6 维度 16 指标量化(EWMScore)及数据合成等实用评测;VIP 标准中物理与交互层仍是最大短板,高质仿真(>90%)零样本迁移真机应达 60%-70%。
- MoE 架构与四层协同:WorldScape 0.2 引入 MoE 多专家门控自适应,以 10% 参数量实现最优空间智能密度;四层协同架构(CLWM→TTT-MLP→SAI→EmbodiChain)降延迟 50%。
- ABot 与 DexWorld 刷新 SOTA:ABot-PhysWorld 结合 SFT 精炼、DPO 与 Dense Action Map 在 PAI-Bench 刷新至 0.8491;DexWorldModel 以 94% 成功率居 RoboTwin 榜首,零样本迁移超 π0。
- 具身 Scaling Law 尚未确立:LingBot 2 万小时分段实验可加速收敛,但总规模不足证伪/证实该定律;交互数据持续吞吐率重于参数量,自增长闭环是打破限制关键。
- 数据利用率成根本命题:具身数据可用率极低(12 万小时 Ego-centric 可用不足 5000 小时,11 万小时工厂视频可用仅约 3%),高效提纯与闭环是出路。
- VLA 路线与单步渲染突破:GEN-1 以 1/10 数据实现超 99% 成功率开创世界模型转向;POLARNet 结合 2880 万张 4K HDR 数据实现单步实时前向传播重打光。
- 核心洞察:物理遵循性是世界模型核心分水岭,决定其作为高可靠模拟器指导真实机器人作业的能力;“长征百里,刚刚开始”。
3.5 VLA与世界模型融合架构
VLA与世界模型的技术路线收敛趋势
- 路线之争实为伪命题:最新研究表明VLA与WAM本质都在解决同一问题,即构造对未来有感知的中间表征以支撑动作决策。
- 产业阵营分化:以理想为代表的VLA阵营强调感知行动统一;达摩院、宇树为代表的世界模型阵营强调物理建模的泛化价值。
- GTC 2026风向标:英伟达明确从VLA转向WAM,王兴兴指出世界模型无天花板且泛化更优,产业加速向世界模型收敛。
- VLA核心短板:泛化能力受限,跨场景迁移难度大,难以应对复杂多变的长尾任务。
前沿架构方案对比
| 维度 | Being-H0.7 (Latent WAM) | Fast-WAM (WAM) | π0.7 (VLA) |
|---|---|---|---|
| 未来信息载体 | Latent queries(潜空间) | 视频联合训练(像素空间) | Subgoal images(外部生成) |
| 核心实现机制 | Posterior对齐未来,Prior仅用当前上下文 | Attention mask隔离未来泄漏,视频共训塑造表征 | BAGEL生成关键帧图像作为输入prompt |
| 推理时生成视频 | 否 | 否 | 否(外部模型预生成) |
具身智能底层设计共识
- 问题根源:语言指令不描述路径,稀疏动作监督致行为坍塌,混合数据互相污染,需弥补此缺陷。
- 关键表征共识:预测完整视频对动作生成不必要,关键帧(像素或潜空间)足以获得良好中间表征。
- 竞争核心转移:产业竞争焦点从架构路线的选择,转向“谁能更好定义对未来有感知的中间表征”。
- 信息不对称设计:训练期需利用未来信息塑造表征,推理期不可见未来,核心区别仅在于实现路径。
世界模型四大技术方向
| 方向 | 代表工作 | 核心思路 |
|---|---|---|
| 数据引擎 | UniSim / DreamGen | 生成训练数据,最成熟的落地方向 |
| 推理规划 | LPS / SAILOR | 用世界模型优化policy决策 |
| 预训练模型 | 新兴方向 | 大规模预训练加下游适配 |
| World-Action | DreamZero | 世界模型与动作空间直接耦合 |
VLA+世界模型融合架构:空间价值图与大一统扩散范式
- 单向因果流与注意力:视频预测→价值图→动作解码,Intent-Causal Attention掩码强制动作token仅关注价值图,精准定位接触区域。
- 三任务统一与两阶段训练:视频预测、价值图与动作生成联合建模;两阶段训练中价值图充当内部评判者提供稠密奖励。
- 仿真数据与性能基准:发布含3万条轨迹数据集;在RoboTwin 2.0基准上平均成功率达93.1%,接触敏感型任务(如扫描100%)增益显著。
- 架构对比与优势:空间价值图使解码器在标注空间直接定位,其效果优于单纯的模型规模扩展。
AIM与π0.5基准对比
| 任务难度 | AIM | π0.5 | 提升幅度 |
|---|---|---|---|
| Easy | 94.0% | 82.7% | +11.3% |
| Hard | 92.1% | 76.8% | +15.3% |
| Average | 93.1% | - | 显著 |
- Motus大一统架构:行业首个统一视觉-语言-动作、世界模型等多范式扩散架构,融合多源数据,数据效率较Pi-0.5路线提升14倍。
- 完整世界模型定义:须具备“观察-预测-行动”完整物理闭环能力,而非仅停留在数字空间的交互控制或环境渲染。
世界模型层级定位
| 层级 | 能力 | 局限 |
|---|---|---|
| 交互式视频生成 | 数字空间交互控制 | 无法生成物理动作 |
| 环境建模 | 侧重渲染 | 未涉及行动学习 |
| 完整世界模型 | 观察-预测-行动闭环 | 终极目标 |
- RDT2数据集与强泛化:已知最大超1万小时数据集,兼顾23Hz高频响应;实测可完成网页鼠标操作、孔明棋推理等跨域复杂任务。
- 生成式基础逻辑:核心在于建模数据分布,一次训练无限复用,均摊成本趋近于零。
- 行业瓶颈转移:核心瓶颈从算力转向架构统一与高质量数据稀缺,数据清洗耗时远超采集与模型训练。
- 未来演进预测:视频生成必然走向交互式流式生成;预计2026年具身智能形成“预训练+后训练”成熟范式。
无界动力:隐空间世界模型路线+5亿元海外订单的具身智能新锐
-
融资规模:天使++轮完成,天使轮累计融资超2亿美元,天使+++轮接近完成;投资方含远景科技集团、北京市人工智能产业投资基金(联合投资),红杉中国、线性资本、高瓴创投、BV百度风投等老股东跟投
-
技术路线差异化:选择隐空间世界模型(MWA™)架构,与行业主流VLA路线形成分化;强化学习与世界模型深度耦合实现闭环协同,联合创始人夏中谱为国内最早世界模型和强化学习研究者之一(超15年经验),是国内首个智驾端到端系统缔造者
| 维度 | VLA架构 | 隐空间世界模型(MWA™) |
|---|---|---|
| 核心问题 | 语言与动作跨表征映射存在信息衰减 | 统一表征空间内完成感知、训练与推理闭环 |
| 特征处理 | 存在特征割裂 | 减少特征割裂 |
| 迭代机制 | 依赖外部驱动 | 强化学习与世界模型闭环协同,指数级迭代 |
-
商业化突破:远景科技集团战略投资同步签署超5亿元全球市场订单(具身智能赛道迄今最大单笔海外商业合同),覆盖风光储智能化升级及AIDC数据中心场景,合规标准对标欧盟;与采埃孚(ZF LIFETEC)、大陆集团(欧摩威)达成战略合作,机器人已落地真实产线;与国际连锁咖啡品牌达成海外合作
-
核心信号:订单规模比融资金额更具信号意义,标志着具身智能从实验室PoC验证走向规模化商业交付拐点;远景科技的"战略投资+订单"组合模式代表产业资本从财务投资转向订单绑定技术供应商的新趋势
3.6 4D生成与视频仿真前沿
4D生成与视频仿真前沿
量子位(20260330) | 具身智能之心(20260401) | 具身智能之心(20260403) | 具身智能之心(20260408) | CVer(20260408) | AI科技评论(20260424)
时空推理与物理对齐前沿方案
| 技术方向 | 模型/方法 | 核心机制与效能 |
|---|---|---|
| 双曲空间预测 | GeoWorld | 欧式转双曲空间,能量模型结合测地线推理缓解长时误差累积 |
| 渐进式物理对齐 | ProPhy | 语义至空间两阶段渐进,VLM物理推理结合混合物理专家 |
| 因果物理推理 | Chain of Event | 物理过程拆解为因果子事件序列,结合物理公式跨模态过渡 |
| 无标注物理泛化 | VideoWorld 2 | 大规模无标注真实视频学习规律,实现跨任务与跨环境泛化 |
| 长视频帧间偏移 | FreeLOC | 视频相对位置重编码结合分层稀疏注意力,无训练解决偏移 |
数据引擎、决策智能与评测基准
| 领域类别 | 方案名称 | 机构 | 核心数据与效能 |
|---|---|---|---|
| 规模化数据集 | PhysAssets | / | 5万+对数据整合Qwen3-VL材质分类 |
| 规模化数据集 | Robo4D-200k | / | 含20万+条高保真4D交互序列 |
| 仿真数据驱动 | SimScale | 中科院等 | 真实数据驱动仿真结合轨迹监督,规模化生成长尾危险场景 |
| 决策智能统一 | DriveLaW | 华中科大等 | 潜在空间统一视频生成与运动规划,预测与决策一体化 |
| 数据全自动提取 | Hand2World | / | YOLO结合HaMeR等,无需人工标注实现大规模提取 |
| 标准化评测 | 4DWorldBench等 | / | 引入LLM多维评测,揭示视觉生成与物理规律模型能力权衡 |
领域核心共识与挑战
- 物理一致性是最大短板:视觉真实不等同世界真实,攻克物理与因果建模是当前核心挑战
- 数据效率成为关键战场:单目或无标注视频及仿真驱动证明,降低数据门槛优于单纯增加模型规模
- 潜在空间与决策统一:潜在空间统一建模是实现决策智能的最短路径,推理阶段零成本控制推动落地
- 评测体系走向标准化:引入多维度基准评判视觉、4D对齐、物理与时空一致性,揭示模型能力权衡
4. 具身数据与训练方法
4.1 VLA模型进展
VLA架构演进与Scaling Law验证
机器之心(20260403) | 海外独角兽(20260403) | 量子位(20260406) | 机器之心(20260407) | 具身智能之心(20260408) | 量子位(20260408) | 具身智能之心(20260408) | 机器之心(20260411) | 量子位(20260411) | 机器之心(20260411) | CVer(20260411) | 深度学习与NLP(20260411) | AI科技评论(20260420) | 量子位(20260422)
| 数据需求 | 百万至千万小时操作数据 | 预训练弱标注三维+后训练数千小时精标 | | 本体耦合 | 深度绑定,换本体需重训 | 大脑复用,仅换下层VA小模型 | | 反馈学习 | 训练完即固定 | 在线记忆反思,干中学持续进化 |
- Scaling与架构壁垒:3B参数难学透物理,百亿模型端侧无芯片可载;统一架构如M1内存共享,实现信息零损耗。
- 三大结构性困境:传统嫁接面临表征错配、Scaling受阻与架构负债,VLA跨任务泛化极度依赖上层规划。
空间智能核心表现与验证
- 三大原生模型验证:
| 维度 | Generalist (GEN-1) | 千寻智能 (Spirit v1.5) | 灵初智能 (Psi-R2) |
|---|---|---|---|
| 核心数据 | 50万小时穿戴采集 | 累计超20万小时真实交互 | 10万小时真机+人类操作 |
| 性能表现 | 成功率64%跃升至99% | RoboChallenge双项第一 | MolmoSpaces登顶(46.4) |
- 涌现物理常识:GEN-1自主纠正垫圈偏移并模仿人类晃动塞物,超越训练数据边界,感知即行动。
- 极速高可靠泛化:1小时学会新任务,架构零修改跨具身,1800次连续测试成功率达99%。
- 数据法则与机制:任务多样性优先级最高;精准3D位姿感知优于复杂loss辅助与场景多样性。
- 推理与因果机制:执行前思维链推理激活知识;双模型协同注入失败数据学习反事实因果。
商业化飞轮与行业格局
- 行业三派竞争:本体派(波士顿动力)、VLA派(智元/自变量等)、大模型派(特斯拉/谷歌等)。
- 国内外差距痛点:国内厂商仅学了特斯拉Optimus本体的一半,严重缺失万亿级大脑认知架构。
- 数据飞轮战略:摒弃低价值“糖水数据”,挖掘真实家庭复杂“牛奶数据”,百机入户驱动自主迭代。
- 机器人角色转变:从执行预设指令的工业设备,转向理解生活节奏、沉淀个人偏好的家庭参与者。
- 标杆落地与愿景:千寻任京东咖啡师,GEN-1折叠箱体缩至12.1秒;硬件十年降本90%,单一VLA控制多物理系统将催生应用层寒武纪爆发。
Goal-VLA:NUS邵林团队提出零样本机器人操作的世界模型
- 物体中心世界模型:NUS邵林团队提出Goal-VLA,将图像生成VLM作为以物体为中心的世界模型,实现零样本机器人操作
- 性能对比数据:RLBench 8任务平均成功率59.9%,远超MOKA(26.0%),OpenVLA和Pi0在零样本设定下几乎完全失败
- 真实世界验证:7-DOF机械臂(UFACTORY X-ARM)4任务平均成功率60%,涵盖番茄入锅、桌面清扫、精确称重、直立瓶子
- 核心架构创新:用物体目标状态表示连接高层语义推理与底层动作控制,实现规划与执行的彻底解耦
- 三阶段框架:①文本VLM增强指令→②图像生成VLM生成候选目标图像→③Reflector VLM审查物理可行性
- 合成-反思迭代:消融显示从40.0%提升至83.8%,允许3次迭代后达88.8%,证明自我审查是提升可靠性有效范式
- 关键技术突破:像素级语义特征匹配替代光流估计解决外观偏差;Umeyama算法求解2D到3D的旋转和平移矩阵
- 跨本体泛化关键:物体中心范式天然解耦规划与执行,视觉反馈闭环是质量保障
| 模型 | 零样本成功率 | 备注 |
|---|---|---|
| Goal-VLA | 59.9% | 物体中心范式 |
| MOKA | 26.0% | 关键点分层 |
| OpenVLA | ~0% | 端到端 |
| Pi0 | ~0% | 端到端 |
40B VLA基座模型:视频预测驱动100%数据利用
元戎启行构建40B参数VLA基座模型,针对传统1PB驾驶数据中轨迹监督信号仅10GB(99.99%未被利用)的痛点,采用三阶段训练路线。通过视频预测无监督预训练将监督利用率提升至100%,并整合Driver/Analyst/Critic三角色能力,突破小模型“跷跷板效应”(场景/地域/版本间表现不稳定)的能力天花板。2025年计划交付20万辆,数据闭环从5天缩短至12小时。
- 车载部署优化:视觉输入约1000 token,推理<100毫秒,达10Hz实时响应
- 因果推理设计:先提取关键事件再输出决策轨迹(如识别“自行车汇入”后减速)
- 芯片蒸馏分层:100TOPS纯驾驶,500TOPS推理型驾驶,Robotaxi蒸馏更大模型
- 模型瓶颈先于算力:700T算力芯片与100-200T表现无显著差异,核心在模型能力
- 能力沉淀优于数据:数据提升基座认知能力可间接优化驾驶性能,超越“数据即燃料”叙事
- Scaling通往L5:模型与数据规模化协同可降低数据监管频率,自然消解长尾问题
量产与市场数据
| 指标 | 数据 |
|---|---|
| 2025辅助驾驶市场规模 | 1227亿元 |
| 城区NOA渗透率 | 15.1% |
| 用户黏性 | 20%-30% |
| 行业前三市场份额(2025Q4) | 99% |
| 元戎已交付车辆 | 30万台 |
| 累计行驶 | 13亿公里 |
| 避免前向碰撞 | 14.1万次 |
| 2026目标交付 | 超100万辆 |
- 结构性矛盾:超千亿市场规模与低渗透率、低黏性并存,头部大模型公司已布局智驾
- 无聊数据毒性:信息量极低的数据对小模型危害显著,大模型则有更强抗干扰能力
语言瓶颈与视觉定位突破
- Point-VLA范式:千寻智能高阳团队提出在首帧图像叠加边界框提供像素级空间线索,实现“指着说”交互
- 语言-动作鸿沟:VLM对复杂文本目标定位率达60-70%,但纯文本VLA执行成功率仅25%
- 语言表达局限:绝对坐标描述不自然,不规则物体易模糊,且难以应对杂乱场景的目标指定
- 架构设计:高层意图(如pick/place)保留在语言中,精确空间信息编码于视觉线索,按1:1比例联合训练
- 反哺效应:视觉定位训练反哺纯文本性能,联合训练后的模型即使不使用边界框也能超越基线
性能与泛化对比
| 任务场景 | 纯文本VLA | Point-VLA |
|---|---|---|
| 杂乱场景抓取 | 43.3% | 94.3% |
| 精确放置(平面/蛋槽) | 23.3% | 95.0%/90.0% |
| 6项任务平均 | 32.4% | 92.5%(+60.1pp) |
- 跨平台泛化:在π0.5和π0基础模型、双臂及全身人形机器人上均保持高成功率
- 数据扩展优势:OOD物体抓取中训练场景从3增至12时Point-VLA准确率升至0.95,纯文本在0.27处饱和
高效训练方法
- 自动标注Pipeline:MLLM自动识别关键帧并标注边界框,无需人工标注
- 数据增强策略:结合随机平移与局部CutMix两种策略增强视觉线索鲁棒性
时序、动态与长程记忆:VLA观测与推理机制突破
长程记忆方案性能对比
| 模型方案 | 仿真成功率 | 真实世界成功率 | 核心机制 |
|---|---|---|---|
| KC-VLA (同济) | 92.0% | 48.75% | 关键帧链时间抽象 |
| Long-term GR00T | 57.0% | 6.3% | 扩展上下文窗口 |
| Diffusion Policy | - | 3.8% | 短上下文拼接 |
- KC-VLA 鲁棒性表现:在光照变化、视角偏移等 OOD 扰动下 F1>95,OOD 变体成功率维持 71.5%-88.5%,仅需 50 条专家演示即可微调。开源项目:TJ-Spatial-Intelligence-Lab/KC-VLA,论文 arXiv:2603.01465
华科大联合华为 PUMA 架构:提出预测式动态 VLA 架构,通过耦合历史光流与隐式未来状态预测,将机器人操作从单帧反应式推向预测式未来感知
- 现有SOTA静态偏置问题:现有模型在动态场景下成功率从静态44.8%暴跌至7.5%,微调后提升不足3%,缺乏物理动力学理解
PUMA 双路径动态感知核心机制与性能对比
| 感知路径 | 核心机制 | 成功率表现 |
|---|---|---|
| 历史动态编码(场景中心) | 压缩历史光流图提供显式密集运动线索 | 17.20%(显著较优) |
| 未来状态预测(物体中心) | World Queries在隐空间预测目标未来状态 | 结合历史观测建立动力学理解 |
| 隐式堆叠历史帧 | 直接堆叠原始历史帧作为基线 | 仅8.15%(效果受限) |
- PUMA 关键架构洞察:显式光流编码(17.20%)远优于隐式堆叠(8.15%),为动态VLA提供明确架构方向;单独提供未来位置无效,未来预测必须结合历史观测
- DOMINO 基准同步开源:包含 35 个动态任务(拦截+追踪)、5 种机器人本体、11 万+ 专家轨迹,动态复杂度分三级(匀速→变加速→含突发干扰),引入 MS 分数细粒度衡量操作质量
- 动态操作泛化发现:动态训练可零样本迁移至静态场景,但静态训练不能迁移至动态,表明动态交互是更本质的操作能力
多模态表征突破:3D原生与多视角Scaling
- 极致性能泛化:仿真平均成功率约98%,真实机器人跨视角零样本泛化比π₀.₅高约6个百分点,工厂调整摄像头无需重训
- 多视角监督增效:Robotwin 2.0实验证明多视角演示不仅提升多视角评估表现,在单一固定0°视角下仍显著提升策略成功率
- 打破数据瓶颈:单视角策略在640条演示后性能饱和,多视角策略在同等数据预算下持续提升;基于π0微调验证增益可迁移,Seen任务+7.2%,Unseen+7.3%
- 最佳数据配置:4-8个额外视角收益最大,视角过多因信息冗余损害性能;偏移角度±10°~±40%成功率最高;单视角演示数从10增至50条增益持续扩展无早期饱和
- 聚焦机制机理:Grad-CAM显示多视角使视觉表征更聚焦末端执行器和操作物体,降低背景依赖,训练更稳定
- RoboNVS合成框架:拒绝端到端采用显式3D几何约束,适配Droid、RT-1等主流单视角数据集,合成成本极低
- RoboNVS核心技术:利用DepthCrafter与DA3逆深度scale-shift对齐解决渲染漂移,采用双向Mask训练解决重影分布偏移
- 真实世界验证:Franka Panda机器人测试中,多视角方案使Click Bell成功率25%→70%,Fruit Pick 10%→60%,Lego Pick 5%→65%
- 2D与3D World Policy对比
| 维度 | 2D World Policy | 3D World Policy |
|---|---|---|
| 表征基础 | 像素时序变化latent空间 | 原生点云、深度图、相机参数 |
| 3D能力 | 后期打补丁叠加模块 | 从backbone原生支持 |
| 信息瓶颈 | 3D→2D→3D压缩损失 | 无压缩瓶颈 |
| 跨视角泛化 | 需重新适应 | 零样本直接执行 |
| 精度 | 厘米级误差、姿态偏差 | 原生三维几何精确编码 |
| 额外传感器 | 部分方案需要 | 无需额外3D传感器 |
VLA基座模型架构演进与推理范式跃迁
具身智能之心(20260409) | 智东西(20260415) | 机器人前瞻(20260415) | 量子位(20260415) | AIGC开放社区(20260416) | 具身智能之心(20260416) | CVer(20260416) | 前沿在线(20260417) | 具身智能之心(20260417) | 量子位(20260417) | 机器之心(20260417) | DeepTech深科技(20260417) | 具身智能之心(20260427)
核心性能与模型评估
- GO-2性能:LIBERO任务成功率达98.5%全面超越竞品,LIBERO-Plus扰动零样本泛化86.6%
- 虚实迁移:Genie Sim 3.0迁移真实环境成功率达82.9%(优于π0.5的77.5%)
- VLABench:跨类别与纹理泛化测试平均47.4分,纹理泛化能力显著领先行业基线
- 多步任务进度:ER与VLA演进使多步任务进度自0.29升至0.36,证实系统融合提效
- 策略泛化验证:模型自创异于源数据的垂直抓取策略,证实其掌握高层行为逻辑
模型架构与数据策略
- 参数与模块分工:4B VLM骨干负责理解、860M执行器极速预测50步、14B世界模型视觉消歧
- 多模态提示层级:任务指令+子任务指令+视觉子目标+元数据,提示质量决定95%成败
- 知识绝缘机制:执行器梯度不回传至视觉语言模型,防止动作数据污染互联网语义知识
- 数据质量感知:对低质数据打标签区分风格,颠覆传统清洗模式,有元数据时数据越多越好
- 世界模型定位:放弃预测后果与决策,仅将任务指令翻译为视觉子目标以消除执行歧义
行业综述与学术演进
- 发展五阶段:模块化接入NLP/CV至多感官泛化真实部署,代表模型从GPT-3演进至OpenVLA
- 五大能力重构:感知融合3D建图、神经符号规划、语义导航、语言直接转动作、主动澄清交互
- 六大共性瓶颈:数据稀缺、硬件动作空间异构、推理实时性、安全对齐错位、缺乏统一评估、多感官短板
- 关键行业洞察:从外挂到具身是范式跃迁,物理交互数据与跨体泛化能力是核心商业与突破关键
- 学术与工程:GO系列核心架构被CVPR与ACL双收录,前代获IROS最佳论文提名等行业大奖
安全机制与商业化
- 安全性升级:空间推理策略显著提升隐患识别,可精准区分物体属性并严格遵守物理规则
- 商业生态定位:谷歌与波士顿动力合作部署机器人,坚持不造硬件专注提供大脑软件层
- 资本与授权:当前估值达56亿美元,正洽谈10亿美元融资,模型向硬件厂商进行商业化授权
- 开发者生态:GO系列架构已集成至开发平台,支持直接调用,加速具身智能多场景工程落地
长时序机器人操作的双系统架构
- 双系统解耦架构:VLM高层规划(语义推理+任务分解)与VLA低层执行(扩散策略+轨迹生成)分离,模拟大脑皮层-小脑分工,避免单一架构精度与规划互相掣肘
- 三分支结构化记忆(核心增益来源):时序历史(已完成子任务链)+ 工作记忆(环境状态自然语言摘要,每步更新)+ 错误寄存器(故障诊断记录),消融实验从Base 6.7%提升至35.3%
- 校验-反思-重规划闭环:固定步数后暂停→观测回传高层语义校验→反思引擎诊断→选择重试/调参/全局重规划,故障恢复能力从8.0%提升至28.0%
- RMBench基准显著领先:平均成功率32.4%(最强基线9.8%),长时序M(n)任务38.7% vs 基线9.0%
- 低层执行器关键设计:几何保持掩码滤波(抑制无关区域像素)+ 扩散基础技能库(常用操作封装为独立扩散策略,逆向扩散生成平滑轨迹)
- 双系统解耦架构:VLM高层规划+VLA低层执行,模拟大脑皮层+小脑分工,语义推理与电机执行各自优化不互相掣肘「具身智能之心」
- 结构化三分支记忆:时序历史+工作记忆(环境状态自然语言摘要)+错误寄存器,记忆参与决策校验与故障诊断而非被动存储,消融实验从6.7%→35.3%
- 校验-反思-重规划闭环:每个子任务执行后回传高层语义校验,反思引擎根据诊断在重试/调参/全局重规划三种策略间选择,故障恢复能力从8.0%→28.0%
- RMBench基准显著领先:平均成功率32.4%(最强基线9.8%),长时序M(n)任务38.7% vs 基线9.0%,Blocks Ranking达60%
- 子任务结构化定义:语言指令+前置/后置条件+最大步数+干扰约束+技能索引,支持动态增删替换,低层使用扩散基础技能库+几何保持掩码滤波
StreamingVLA:流水线并行化打破VLA"想完再做"串行瓶颈
清华大学提出 StreamingVLA 框架,通过"动作流匹配"与"自适应提前观测"双维度并行化技术,将 VLA 模型从传统"观测→生成→执行"串行瓶颈转变为异步流式并行执行,实现系统级延迟优化。
性能对比数据
| 指标 | 基线 | StreamingVLA | 提升幅度 |
|---|---|---|---|
| 单动作延迟 | 49.9ms | 31.6ms | 1.57倍加速 |
| 卡顿时间 | 230.8ms | 36.0ms | 6.45倍降幅 |
| 成功率 | 95.1% | 94.9% | 基本持平 |
| 真机动作延迟 | 271.49ms | 170.88ms | 1.58倍加速 |
核心架构:双维度并行化
- 动作流匹配:将"一次性生成动作块"转为"连续演化动作空间状态",预测速度场并通过时间积分逐步输出动作
- 生成-执行重叠:每个动作生成后立即执行,模型继续基于更新状态生成下一动作,消除等待空闲
- 状态对齐机制:引入预计算完整轨迹的动作空间状态变量,消融实验证实缺乏对齐导致训练失败,引入后成功率跃升至97.1%
- 归一化改造:移除偏移项并统一缩放因子,保留流匹配可加性数学结构
自适应提前观测
- 轻量预测器:基于Transformer的显著性预测器,额外开销仅占模型总推理时间约5%
- 决策逻辑:输入当前图像embedding和未执行动作序列,预测图像变化量;低于阈值→提前并行观测,高于阈值→等待执行完毕再观测
- 效果验证:相同触发频率下,自适应策略成功率94.9% vs 随机提前观测90.9%
范式洞察
- 从单环节压缩到多阶段重叠:传统优化聚焦压缩单阶段延迟,StreamingVLA通过流水线并行实现时间重叠
- 系统级思维降维打击:多阶段实时交互系统应优先审视串行瓶颈,用并行化替代单纯压缩单环节耗时
4.2 机器人操作控制与导航
跨具身迁移:机械臂VLA上无人机
斯坦福联合 Physical Intelligence 推出 AirVLA,首次实现纯机械臂预训练 VLA 向无人机平台的系统性迁移,无需重训基础模型。
跨域迁移面临三大鸿沟:四旋翼欠驱动导致动力学完全错配;机载相机大自我运动引发感知剧变;抓取瞬间质量突变造成致命载荷扰动。
双引擎适配机制:以 Pi0 流匹配 VLA 为核心策略,不修改模型权重,采用运行时物理注入与合成数据增强。
- 载荷感知物理引导:在采样过程中注入梯度修正,抓取瞬间自动抬升高度抵消下坠
- 3D 高斯合成数据:增强模型在无人机视角下的感知泛化能力
460 次真实飞行实验关键数据:
| 评估维度 | 基线/无增强 | 物理引导/合成数据 | 提升幅度 |
|---|---|---|---|
| 导航过闸成功率 | 45% | 95% (合成数据) | +50pp |
| 放置成功率 | 23.5% | 50% (物理引导) | +26.5pp |
| 长程任务整体 | - | 62.5% (四阶段) | 从 0 突破 |
基准对比:传统方法 ACT、Diffusion Policy 在飞行场景全军覆没,证明 VLA 基础模型的表征泛化能力不可替代。
核心洞察:视觉语义可迁移,动力学不可迁移。VLA 的视觉-语言表征能直接适配无人机,但飞行控制必须靠外部物理引导补偿,为跨域适配确立了新范式。
模仿学习赋能灵巧操作:2021-2025全景综述
- 模仿学习核心价值:绕过显式建模与稀疏奖励设计瓶颈,通过捕获人类示范提供数据驱动路径,Diffusion Policy以迭代去噪建模多峰分布与时序依赖成为主流范式「机器之心」
| 灵巧手平台 | 自由度 | 核心特点 | 应用定位 |
|---|---|---|---|
| Shadow Dexterous Hand | 24 | 高精度力控 | 高保真遥操作黄金标准 |
| LEAP Hand | - | 简易制造工艺 | 大规模模仿学习实验 |
| Linker Hand L20 | - | 连杆驱动,指尖力接近人类 | 高灵巧性工业/学术 |
| Allegro Hand | - | 直接驱动,紧凑响应快 | 研究通用平台 |
| BarrettHand | - | 欠驱动自适应抓取 | 工业场景 |
- 数据集四路线演进:遥操作/动作捕捉(BridgeData V2、RH20T)→ 几何建模(ARCTIC)→ 合成增强(MimicGen)→ 弱监督视频(VideoDex、NIL),从高精度遥操作向互联网规模弱监督学习演进
- 多学科理论基础:认知层(Bandura社会学习理论、镜像神经元)+ 控制层(内部模型理论、DMP参数化轨迹)+ 优化层(行为克隆/逆强化学习/对抗模仿均具统计学习理论保证)「机器之心」
- 评估标准化瓶颈:任务定义、评价指标(轨迹误差/完成率/能耗)、硬件依赖缺乏统一标准,亟需涵盖插拔、旋拧、穿线等典型任务的统一benchmark
导航系统架构与基础模型驱动
北京邮电大学联合南大、清华、北大发表综述,系统梳理基础模型驱动具身导航的范式转型。
任务体系四分类:
| 任务类型 | 核心目标 | 典型场景 |
|---|---|---|
| 语义导航 | 理解语言指令定位目标 | "找到厨房的红色杯子" |
| 几何导航 | 基于空间结构到达位置 | 点对点路径规划 |
| 交互式导航 | 操作环境中的物体 | 开门、按电梯 |
| 复合/通用导航 | 多目标、多约束协同 | 真实家庭服务场景 |
四大架构范式:
| 架构类型 | 核心思路 | 优势 | 劣势 |
|---|---|---|---|
| 模块化系统 | 感知-建图-规划-控制显式拆分 | 可解释性强 | 模块间误差累积 |
| 单策略系统 | 多模态输入直接映射动作 | 端到端简洁 | 表达能力受限 |
| 双系统架构 | 高层慢速语义推理+低层快速控制 | 兼顾推理与实时性 | 架构复杂度高 |
| 世界模型驱动 | 预测未来状态/地图变化增强规划 | 长程决策能力强 | 计算开销大 |
核心洞察:
- 架构三元权衡:表达能力、计算效率、控制可靠性不可兼得
- 数据瓶颈最核心:仿真与真实的鸿沟、导航专用数据稀缺制约 Scaling Law
- 具身形态差异:轮式、足式、无人机在感知配置与规划复杂度上差异显著
- 记忆三分机制:视觉记忆、文本记忆、地图增强记忆支撑不同决策需求
- 评测体系滞后:静态高分≠真实可靠,开放词汇、动态环境等维度覆盖不足
TAMEn:视触觉闭环数据引擎打通双臂协作全链路
港大联合复旦、上交大提出 TAMEn(视触觉融合闭环数据引擎),基于UMI框架升级,打通数采-训练-部署-纠错-再训练全链路,双臂协作成功率从 34%→75%。
三层闭环架构
- 数采硬件层:高精度动捕(亚毫米级)+便携VR低成本in-the-wild双模式灵活切换
- 人在环数据层:在线可达性验证融合运动学与动态约束,省去后处理清洗
- 价值推理层:AR介入纠错+采集recovery状态数据形成正反馈闭环
金字塔式数据体系
- 三层递进:大规模单臂触觉预训练→双臂任务微调→失败恢复数据闭环优化
- 核心机制:触觉输入、预训练、闭环纠错三者分别带来持续性能提升
AR纠错闭环
- 自研tAmeR APP赋予遥操作者实时触觉反馈,采集纠错状态下的视觉、触觉、位姿信息
- 闭环纠错使失败案例成为最有价值的训练信号,数据质量比数据量更重要
任务验证(四类接触丰富操作)
| 任务类型 | 核心难点 | 操作对象 |
|---|---|---|
| 中草药倾倒 | 可变形物体协调控制 | 袋装颗粒物 |
| 线缆装配 | 柔性物体适应性抓握与插入 | 线缆 |
| 弹簧夹收纳 | 多阶段协同时序配合 | 弹簧夹 |
| 擦盘子 | 持续接触力控 | 盘子+清洁工具 |
关键洞察:触觉感知是突破盲操瓶颈的关键,纯视觉方案在接触丰富任务中天然受限。
代码开源:github.com/OpenDriveLab/TAMEn,论文:arxiv.org/abs/2604.07335
4.3 具身强化学习与训练机制
VLA+RL融合范式与闭环优化实践
具身智能之心(20260330) | 具身智能之心(20260422) | CVer(20260426) | 具身智能之心(20260428)
- 离线RL选型对比:AWR>Decision Transformer>Q-learning。AWR参数少(核心仅κ)、复现稳定,是低成本复现π*0.6的实用路径。
- 演进路线与趋势:VLA+WM以世界模型辅助动态特征(π0.7为转折点);WAM强泛化但推理慢;2025-2026年融合进入算法创新阶段。
- 世界模型RL后训练:用物理一致世界模型替代真实环境,将不可逆试错转化为可重置虚拟演练,实现零真机交互策略优化。
- 双组件评估架构:U-Net扩散结合几何/语义特征预测未来帧;LLaVA评估语义对齐度输出连续奖励并动态终止任务。
- 动态终止机制:奖励超阈值(η=0.5)触发终止,解决VLA过度执行冗余动作问题,消融实验显示移除该机制后置失败率显著上升。
- 核心发展瓶颈:VLM理解与生成Gap未解决,视频生成模型做backbone是突破方向;VLA决定感知上限,RL决定执行边界。
- 少样本与真机SOTA:LIBERO基准仅5条演示即达79.6%成功率超OpenVLA-OFT,Sim-to-Real验证真机机械臂任务均优于原基线。
- LOOP优化算法:采用Leave-One-Out PPO结合RLOO基线计算轨迹级优势,收敛速度显著快于标准SFT基线。
- ARM长程柔性操作:基于GR00T-N1.5(3B)主干,双臂叠毛巾任务成功率达99.4%(SARM 78.5%/原始BC 62.1%),仅用972 episodes约20小时遥操作数据。
- Tri-state奖励建模:摒弃绝对进度回归,转向相对优势三分类(+1/0/-1),MIMO多帧并行+完成头锚点反向累积重建全局进度,消融提升+13.8%。
- 高效离线策略改进:Advantage-Weighted BC(AW-BC)本质为AWR离线变体,ARM充当Critic免环境奖励,消融较RA-BC提升+7.1%,总提升+20.9%。
- 自动标注极速化:13.7倍推理加速使百万级自动标注成为可能;三态标注速率(人工250/8h vs 自动>40万/8h),分别比子任务分割快2.5倍和133倍。
小米 Xiaomi-Robotics-0:开源真机后训练全流程与"偷懒效应"破解
- Xiaomi-Robotics-0 开源真机后训练全流程:4.7B参数VLA模型,发布首月登HuggingFace全球VLA下载榜第六;预训练基座含约2亿步运动轨迹+超8000万条视觉/语言样本,仅需20小时任务数据即可让机器人掌握精细操作
| 维度 | 数据规模 |
|---|---|
| 机器人运动轨迹 | 约2亿步 |
| 视觉及语言样本 | 超8000万条 |
| 模型参数量 | 4.7B |
| 真机后训练数据 | 仅20小时 |
- "偷懒效应":引入动作前缀(Action Prefixing)实现异步推理与动作无缝衔接后,模型过度依赖动作惯性、忽视实时视觉反馈,是VLA落地的核心瓶颈
| 技术名称 | 核心机制 | 解决问题 |
|---|---|---|
| 自适应加权 | 按预测与真实轨迹偏差动态调整Loss权重 | 针对性修正关键误差 |
| Λ型掩码 | 特殊注意力机制兼顾前段动作末尾与当前视觉信号 | 防止纯路径依赖 |
| 前缀动作随机遮蔽 | 训练中对动作前缀随机Dropout | 倒逼模型挖掘视觉/传感器信号 |
- 验证场景:耳机收纳任务(亚毫米级精度、表面粗糙度Ra0.03μm),模型需快速修正动作偏差
- 开源策略:技术报告(arXiv 2602.12684)+ GitHub代码+模型权重全栈开源,计划跨本体通用能力部署
数据引擎进化:从 Data Factory 到 Learning Infrastructure
- 数据范式的本质跃迁:谢晨提出核心框架"数据对模型 ≈ 教育对人的学习",数据是动态的学习信号与经验传递方式,而非静态的训练样本
- 反直觉的训练数据策略:最有效的训练数据是"先失败再成功"的负样本数据,包含纠错过程能赋予模型在非结构化环境中的应变能力
- Data Factory 与 Data Engine 的根本区别:前者是缺少反馈迭代的量贩式流水线,将被快速淘汰;后者是反馈驱动的学习引擎,持续构造学习信号并暴露失败模式
- 仿真的定位发生根本转变:从"加速物理时间的时间机器"跃迁为规模化评测的"先决条件"——测不出来的问题,模型永远学不会
- 具身数据的演进方向:正在走向"本体无关",最大规模的数据不会由硬件本体商提供,需打破物理采集的限制
- 竞争维度的本质变迁:具身智能的核心壁垒不在单点更强的模型,而在让模型持续进化的数据厚度,终局数据公司形态接近教育公司
4.4 VLA推理与执行加速优化
VLA 执行提速的系统工程
- VLA 提速依赖系统级优化而非单一算法改进:Realtime-VLA V2 将执行速度从 0.5x 提升至 2x,接近人手操作速度,已在叠衣服和工业上料(sub-mm 精度)等任务验证。
- 桌面级轻量机械臂存在 200ms 总延迟:控制系统内置平滑处理导致 150ms 运动延迟 + 50ms 传感反馈延迟,远超工业臂平台。
- 初始测试需降至 0.5x-0.75x 演示速度:因相位滞后严重,系统无法直接以原始速度保持合理成功率。
三层加速方案与效果
| 加速方案 | 核心思路 | 效果与代价 |
|---|---|---|
| 轨迹预放大 | 利用 VLA 已知未来位置信息,提前下发放大轨迹抵消平滑时延 | 直接代价是过冲信号引发机械臂→相机→视觉输入的失控抖动 |
| 速度/位置规划 | 模型输出后加入优化算法,将高加速度分摊至其他时段 | 兼顾补偿效果与运动平稳性,补偿后大部分任务可 2x 稳定运行 |
| 油门式人机协作 | 人类旁观按加速/减速键调节速度,DAgger 风格迭代训练 | 最稳定方案,将执行速度推至 2x 以上,论文代码全开源 |
核心洞察
- 人类仍是超强真实世界 RL Agent:在复杂物理交互场景中实时判断能力是最高效的加速信号来源,直接在真实世界用机器人做 RL 训练成本高且不稳定。
- 高速执行要求模型在高提前量下精准输出:VLA 已工作在不适合的区间,软件优化无法突破六轴机械臂的结构性速度上限。
A1:全透明高效VLA,骨干计算量砍76%
中山大学与MBZUAI联合推出 A1,基于Molmo-7B提出预算感知自适应截断推理,首次实现VLM骨干与动作头联合加速,入选CVPR 2026 Findings并全栈开源。
核心架构:自适应截断推理四大技术
- 多出口训练:VLM每层连接共享动作头并受直接监督,中间层即具备动作预测能力
- 动作一致性早停:逐层计算动作变化(余弦相似度/L2距离),小于阈值则提前终止主干前向
- 层间截断流匹配:上一层动作输出作为下一层热启动初始值,去噪步数从10步降至2步
- 双动作头设计:A1-FM(流匹配头,Qwen3-400M)处理高维分布,A1-MLP快速拟合抑制噪声
关键性能数据
| 维度 | 指标 | A1结果 |
|---|---|---|
| 推理延迟 | 最高降幅 | 72.3%(37.8s→10.5s) |
| 骨干计算 | 最大削减 | 76.6%(c=0.1时成功率92.3%) |
| LIBERO | 平均成功率 | 96.6% |
| LIBERO-Plus | 零射成功率 | 75.3% |
| RoboChallenge | 成功率 | 29.00%(登顶开源模型) |
| 真机四平台 | 平均成功率 | 56.7% |
训练策略
- 两阶段泛化训练:公开机器人数据集预训练 + 15951条自研真机数据微调适配多机型
- 数据增强:图像锐化、随机擦除、状态掩码;冻结ViT,VLM学习率5e-5,动作头5e-4
- 部署验证:覆盖Franka、AgiBot、OpenArm、Dobot-Arm等4款机械臂
核心洞察
- VLA存在极端过计算:76.6%骨干计算被证明对操作任务非必需
- 流匹配轨迹3步内锁定正确模式,单边优化存在天花板,主干与动作头协同加速是必要条件
- 自适应推理本质是"算得更少"而非"算得更快",按任务复杂度动态分配算力是VLA落地关键
- 全栈开源透明方案无需私有数据即可达到领先性能,竞争从参数规模转向推理效率
离散扩散VLA的实时推理加速
VLA(Vision-Language-Action)模型加速与泛化范式
- Fast-dVLA 离散扩散加速:港科大(广州)利用块级左到右解码规律,实现 KV Cache 复用与跨块并行去噪
- 实时控制突破:在 LIBERO、CALVIN、SimplerEnv 基准实现 2.8x-4.1x 加速,真实机器人维持 30 Hz
- 三层加速设计:Block-wise Attention 缓存复用、Discrete Diffusion Forcing 跨块并行、不对称蒸馏降低迁移成本
- PI 的 VLA 三阶段训练:语言能力(文本)→ 视觉适配(互联网图像)→ 机器人适配(多样化机器人数据)
- Scaling Law 验证:GEN-1 将平均 64% 成功率任务提升至 99%,速度约为前 SOTA 的 3 倍
- 常识注入机制:执行前先进行思维链推理(如“清理厨房”推导“先拿盘子”)激活预训练世界知识
- 跨形态泛化:同一模型可在自由度完全不同的机器人上工作,架构无需修改
- 语义标注即可提升泛化:仅对执行过程做语义标注(无需新底层动作数据),瓶颈已从物理执行转向场景理解
- 硬件成本十年下降约 90%:2010 年代 PR2 约 40 万美元,当前 PI 平台机械臂成本仅约十分之一
AC²-VLA:动作上下文感知的自适应推理加速
同济大学提出 AC²-VLA 框架,突破性地以"动作上下文感知"替代视觉复杂度作为算力分配依据,实现 VLA 模型自适应推理加速。核心洞察:视觉简单≠控制简单,视觉复杂度与控制难度不相关。
- 核心机制:以前一时刻动作状态为核心路由信号,联合视觉观测和语言指令,生成时间、空间、深度三类门控信号
- 三维协同优化:
| 维度 | 机制 | 效果 | 移除后成功率 |
|---|---|---|---|
| 时间 | 缓存复用(跳过VLM前向传播) | 贡献稳定性 | 降至 70.5% |
| 空间 | Token 剪枝 | 加速最大贡献者 | - |
| 深度 | 层跳过 | 贡献推理质量 | 降至 67.4% |
- 性能数据:Google Robot 任务成功率 76.8%(与原稠密模型持平),FLOPs 降至 29.4%,实际加速 1.79 倍
- 帕累托最优配置:Token 保留率 0.4 + 执行层数 28 层,大量视觉 Token 可丢弃但保留 Token 需足够深度
- 动作引导自蒸馏:教师网络运行稠密策略,学生网络执行稀疏推理,共同优化动作输出和认知特征
- 范式转换意义:从"视觉驱动"转向"动作驱动"算力分配,抓住具身任务中控制需求与视觉表象解耦的本质特征
- 开源信息:论文 arxiv.org/abs/2601.19634,代码 github.com/TJ-Spatial-Intelligence-Lab/AC-2-VLA
它石智航:真实世界模型+Human-centric数据的具身大脑路线
- 创纪录融资:4.55亿美金Pre-A轮刷新中国具身智能单轮融资;高瓴创投与红杉联合领投,美团战投等入局,老股东全加注,50天估值飙至50亿。
- 全球竞争格局:它石智航(中国,4.55亿美金)对阵Skild AI(美国,14亿美金融资/140亿估值),竞争焦点从本体能力转向大脑定价权。
- 路线终局对比:硬件本体路线类似传统制造商,具制造成本且护城河易被追平;模型路线类似操作系统,边际成本趋零,构筑数据、模型与场景三位一体护城河。
- 行业信号:硬件路线护城河塌陷,传统硬件大厂营收超17亿但研发占比不足10%,正拟追加超20亿资金补齐智能模型短板。
- 数据壁垒量级:具身原生数据需求为自动驾驶10倍以上,基础模型体量约为其3-4倍,行业现有数据与需求差距至少两个数量级。
- 投资逻辑:底层技术范式未收敛,团队工程化落地能力权重远高于纯技术能力。
- 铁三角团队:陈亦伦(清华密歇根博士、华为ADS前首席科学家)+丁文超(华为天才少年)+李震宇(商业闭环)。
- 技术路线反共识:摒弃VLA与仿真捷径,坚定自研真实世界模型与自采真实数据,预计2026年该路线将取代VLA成为头部共识。
- 数据引擎与基建:首发工业级Human-centric数采方案SenseHub与配套可佩戴套件;开源全球首个具身VLTA多模态数据集WIYHH。
- AWE3.0大模型:全球首个通用具身大模型,实现视觉+语言+触觉+动作四模态统一输入,区别于主流VLA三模态,未见新视角任务成功率提升3倍,执行抖动降约45%。
- 硬核商业落地:锚定工业界公认世界级难题的线束装配(长程+柔性+亚毫米精度),攻克机器人不可能三角。
- 精细操作极限:A1机器人1小时内完成百余次柔性线束装配创吉尼斯纪录;计划2025年底展示全球首个独立手工刺绣机器人,验证亚毫米级操控。
4.5 跨具身迁移与操作表征
T(R,O)Grasp:图结构统一跨智能体灵巧抓取表征
- 统一跨智能体表征:NUS邵林团队提出T(R,O) Grasp,用图结构建模物体-机器手空间关系替代距离矩阵,已被ICRA 2026接收
- 核心性能指标:多种灵巧手平均抓取成功率94.83%;A100推理5 FPS、吞吐量50 grasp/s;真实场景xArm+XHand成功率91.0%、LEAP Hand 90.0%
- 图构建方式:物体点云经VQ-VAE编码为节点,关节融合BPS几何特征与位姿,边以相对位姿关系定义
- 扩散推理架构:DDIM框架下多层Transformer预测关节位姿矩阵,支持指定抓取方向和区域约束等guidance
- 技术路线对比:
| 方法 | 表征 | 泛化性 | 推理效率 | 计算开销 |
|---|---|---|---|---|
| 机器人中心 | 观测→动作 | 低 | 高 | 低 |
| 物体中心 | 接触点/热力图 | 高 | 低 | 中 |
| D(R,O) Grasp | 距离矩阵 | 高 | 中 | 高 |
| T(R,O) Grasp | 图结构 | 高 | 高 | 低 |
- 动态场景验证:传送带环境下完成稳定闭环抓取,5 FPS推理速度突破此前实时性瓶颈
- 关键洞察:图结构天然适配不同构型灵巧手,避免逐手建模的扩展瓶颈;关系建模兼顾表达力与计算效率
RAAP:可供性解耦预测的低数据精细操作框架
- 框架核心:东大 RAAP 将可供性解耦为静态接触点与动态动作方向,分别采用互补推理机制,入选 ICRA 2026 并已开源
- 检索增强迁移:基于 DROID/HOI4D 构建 affordance 记忆库,CLIP 检索 Top-K 参考后,用 Stable Diffusion 稠密特征进行像素级匹配迁移
- 跨图像动作对齐:SigLIP-2 提取 patch 特征,FiLM 调制融合操作意图,多参考拼接为 Key-Value 矩阵经跨注意力聚合方向线索
- 双权重注意力:融合 CLIP 外观先验与语义门控网络,消融实验证实两者功能互补,有效降低方向匹配偏差
- 核心数据:方向预测精度提升超 50%(MAE 32.55°),每任务仅 18 样本实现跨类别零样本操作,开/关抽屉成功率超 RAM 15-25 百分点
NMR:用学习映射替代逐帧优化的动作重映射范式
- 范式转换:南京大学联合华为CANN提出NMR,将动作重映射从逐帧非凸优化重新定义为人类动作→机器人可行动作流形的学习映射,从根本上绕开局部最优陷阱
- 传统方法缺陷:主流GMR、PHUMA等方法本质是逐帧优化,计算易陷入局部最优,导致关节突变或物理不一致,且对上游SMPL估计噪点鲁棒性差
- CEPR数据流水线:物理筛选→VAE语义聚类(跑步类/武术类等子集)→分治训练RL专家策略,生成约3万对物理合理的人机运动数据对,解决配对数据稀缺问题
- 两阶段训练策略:大规模运动学数据预训练(覆盖动作广度)→CEPR物理数据微调(拉向可执行流形),实现广度与保真度互补
- 核心优势与效果:重映射错误大幅减少,手臂回环等易达关节限位动作全程平滑无突变;隐式修正上游SMPL估计噪点;支持互联网视频Scale Up
- 工程启发:当优化问题难以求解时,考虑用数据驱动方式“绕过”而非“攻克”,前提是设计出高质量数据生成流水线
- 落地部署:已适配华为昇腾平台和CANN解决方案并开源
UniT:视觉锚定跨躯体表征,数据效率提升近10倍
- 核心思路:以视觉为通用物理锚点,将人类与机器人异构动作映射到共享离散隐空间,绕开运动学差异实现跨躯体迁移,由小鹏机器人联合清华、港大提出
- 三分支Tokenizer+双向交叉重构:视觉(DINOv2帧间变化)、动作(统一格式编码)、融合(紧凑鲁棒表示)三支并行,经共享残差量化映射到同一离散码本;每个符号同时满足可还原画面和可还原动作,双向约束确保编码物理意图
- 数据效率与性能:仅用10%数据达传统方法全数据水平,零样本堆叠成功率从10%→60%;RoboCasa仿真完整数据下成功率66.7%,超Diffusion Policy、GR00T等基线
- 双向跨躯体迁移:VLA-UniT(流匹配动作生成)用于策略学习,WM-UniT(统一符号替代躯体特定动作条件)用于世界建模,人类数据可直接驱动机器人视频生成
- 真机验证:IRON-R01在几何变化、干扰物、新背景、新目标、组合指令五大OOD场景保持强鲁棒性,噪声鲁棒性退化仅1.7倍
4.6 具身基础模型与通用架构
MoT架构:模态解耦的具身基础模型
- HY-Embodied-0.5系列:腾讯混元联合Robotics X推出,包含MoT-2B(总参4B/激活2B)和MoE-32B(总参407B/激活32B)两款具身基础模型
- MoT核心架构:复制LLM的FFN和QKV参数交由视觉Token专用,视觉侧解锁独立全向双向注意力,区别于MoE专家路由机制
- 评测表现:MoT-2B在22项具身评测中获16项最佳(超越Qwen3-VL-4B、RoboBrain2.5),MoE-32B综合对标Gemini 3.0 Pro
- 实机任务:MoE-32B在打包/堆叠/悬挂三项实机任务上优于pi0和pi0.5基线模型
- HY-ViT 2.0(400M参数):原生支持任意分辨率,通过大模型知识蒸馏+视觉重建监督+微型LLM语言监督最小化视觉信息损失
- Visual Latent Tokens:在视觉序列末尾追加专属Token接受ViT全局特征监督,充当视觉-文本语义桥梁
- 训练数据:超100M条具身专属数据,覆盖视觉感知→空间感知→具身感知三级认知层级
- 训练流程:四阶段递进(预训练600B+ token→中程30M+条→SFT→后训练),后训练引入RFT、强化学习和在线蒸馏
- 开源获取:GitHub(Tencent-Hunyuan/HY-Embodied),HuggingFace(tencent/HY-Embodied-0.5)
英伟达 CaP-X:代码即策略的机器人编程框架
- 代码即策略范式:英伟达开源 CaP-X 框架,大模型直接编写 Python 代码控制机器人,成功代码存入跨本体复用的技能库
- 性能对标人类:CaP-Agent0 在 7 项核心任务中 4 项追平或超越人类专家手写程序,无需训练即可部署
- 混合架构设计:编程智能体管理高层逻辑,VLA 模型降格为可调用 API 负责精细操作的底层执行
- 交互训练沙盒:CaP-Gym 基于 Gymnasium 构建,内置 SAM3 语义分割和 Molmo 2 点选工具将原始图像转为结构化语义对象
- 接口重于模型:CaP-Bench 对 12 个前沿大模型盲测表明,剥离人类先验接口后所有模型性能断崖下跌
- 强化学习优化:CaP-RL 在代码逻辑层做强化学习,可零样本迁移至真实机器人
- 当前局限性:倒水、精准插拔等高频精细操作纯代码方案仍脆弱,CaP-VLA 混合策略为改进方向
三代机器人控制范式对比
| 维度 | 人工脚手架(TAMP) | 端到端 VLA | CaP-X 编程智能体 |
|---|---|---|---|
| 控制方式 | 工程师逐行编写逻辑 | 视觉-语言-动作端到端 | 大模型直接生成控制代码 |
| 核心优势 | 精准透明 | 无需人工设计接口 | 可调试、可复用、可进化 |
| 核心缺陷 | 泛化性极差 | 黑盒难调试 | 高频精细操作仍脆弱 |
| 代表系统 | 经典 TAMP | OpenVLA、Pi 系列 | CaP-Agent0 |
5. 商业化与产业进展
5.1 融资与资本
资本涌入具身赛道的多维信号
机器人前瞻(20260401) | 机器之心(20260401) | 机器人前瞻(20260413) | AI科技评论(20260406) | 机器人前瞻(20260429)
2026年具身智能赛道资本呈现“大额集中+产业主导+以赛促投”多维特征,头部企业融资显著提速,行业从卖硬件向卖服务加速演进。
| 企业/赛事 | 融资规模 | 核心投资方 | 关键落地进展与指标 |
|---|---|---|---|
| 千寻智能 | 30天内近30亿 | 顺为资本、云锋基金 | 宁德时代量产、京东零售落地,超20万小时交互数据 |
| 璇玑动力 | 数亿元(Pre-A) | 上汽金控、东方精工 | Hypertron T01量产,预计2026交付数千台 |
| 橡鹿机器人 | 3亿元 | 亦庄国投、腾讯、京东 | 落地7000+门店,服务2000+餐饮品牌 |
| 擎天租 | 4个月4轮(数亿元) | 正大、蓝思、明嘉资本 | RaaS模式调度超4000台,覆盖超百城落地13国 |
| 杭州机器人大赛 | 2亿元专项基金 | 启迪之星等10+机构 | 优胜项目直通龙头企业采购备选库 |
产业资本全面主导量产阶段:璇玑动力投资方全为产业资本,反映行业已从概念期进入产能竞争阶段,重载四足机器人已在消防、电力巡检(60公斤负载连续上40层楼)等场景规模化落地。
头部资本形成跨界跨界共识:腾讯与京东同时下注商用炒菜赛道,顺为资本与云锋基金罕见联合重仓千寻智能,说明大厂对具身智能商业化前景的判断趋于一致。
商业化闭环成核心估值支撑:千寻智能凭双场景落地能力获高估值,自研设备将数采成本降至传统1/10;璇玑自研轴向磁通电机解决高负载痛点;千寻Spirit v1.5登顶全球榜首。
行业向RaaS运营服务演进:智元55%控股擎天租构建硬件到租赁的生态闭环,运营服务层或更早盈利。平台可调度机器人超4000台,常态化经营订单占62%,海外落地13国。
机器人租赁核心挑战在履约:擎天租核心团队深度融合智元硬件与阿里地推基因,由阿里中供铁军首任校长与前饿了么VP挂帅,体现产业对规模化落地运营能力的急迫需求。
政策资本通过赛事筛选项目:杭州具身机器人大赛配套2亿元专项基金,要求在真实场景比拼并部分禁用遥控器,体现政策导向从看技术参数向选商业赛道转变。
自变量机器人:四家大厂齐聚与端到端自研路线
- 融资全景:成立16个月完成5轮超40亿元,2025年1-4月连续三轮(A++轮10亿→2月数亿→B轮近20亿),B轮为2025年国内具身智能领域最大单笔之一
- 四巨头齐聚:美团连续四轮加码最坚定,阿里领投A+轮,字节领投A++轮,小米战投首次入场即领投B轮,国内唯一获四家大厂同投的具身智能企业
- 投资方演变:从互联网巨头扩展至汽车产业资本(上汽)和地方国资(北京信息产业发展基金、南山战新投)
- 技术路线对比:
| 维度 | 微调开源模型 | 端到端自研路线 |
|---|---|---|
| 上游依赖 | 受制于上游是否持续开源 | 完全自主可控 |
| 技术风险 | 基础模型飞跃可颠覆微调工作 | 可持续迭代 |
| 数据闭环 | 难以形成规模效应 | 天然支持scaling |
| 泛化能力 | 受限于基座模型 | 零样本泛化随参数与数据增长 |
- WALL-A架构:原生多模态统一表征,视觉/语言/触觉/动作统一映射为连续高维Token序列,单一Transformer联合输入同步输出
- 路线之争本质:端到端投入大但具备scaling潜力,微调见效快但天花板低,竞争焦点正从模型能力转向数据获取能力
- 商业化落地:2026年3月与58到家合作推出家庭保洁机器人服务,依托全国数字家庭场景库构建"落地即训练"数据飞轮
- 硬件产品线:量子一号(轮式双臂)、量子二号(仿人形),自研遥操/外骨骼数采设备搭建数据管线
清洁机器人渠道暗战:技术决定上桌,渠道决定留下
- 清洁机器人进入渠道竞争深水区:扫地机存量货架绞杀,割草机仍在渠道开荒(欧洲渗透率约20%、北美仅2%),泳池机器人走向资本换渠道终局
- 线下渠道极度排他:欧美核心卖场货架高度饱和,新品牌进店谈判周期半年至一年且面临末位淘汰;割草机从接触到进店需跨越一年以上周期
- 售后是隐形利润黑洞:欧美电商退货率20%+,跨境物流与翻新成本使退货处理比生产新机更贵;线下退货率仅1%(现场演示解决80%误报故障)
- 扫地机头部占位黄金陈列:石头、科沃斯、追觅占据BestBuy/HomeDepot黄金位;科沃斯市占率从48%降至20%,石头升至22%,代理商“用脚投票”
- 割草机突破“老男孩俱乐部”:Husqvarna与Worx拥有“每5公里一家”服务网络,中国品牌除二者外无一突破10万台sellout;线上:线下销售比约2:8
- 资本换渠道双刃剑:元鼎获Fluidra近10亿元战略投资切入全球最大泳池分销体系;星迈创新铺设2000代理点后面临高退货率与低盈利压力
- 马斯克放弃1340亿美元赔偿:唯一诉求将奥特曼从OpenAI非营利母公司董事会除名,指控其从公益转向商业优先属于“背叛”
- OpenAI反向施压:策略长致信两州总检察长要求调查马斯克反竞争行为,指控其与扎克伯格协调企图将AGI控制权转移至xAI
- 诉讼背后商业利益交织:SpaceX数日前秘密提交IPO申请;Grok因涉嫌生成未成年人色情深伪影像接受调查
- xAI团队与技术双重困境:11位联合创始人全部离职,马斯克亲口承认Grok编程能力落后
美团具身智能投资版图:全链路硬科技布局
- 全链路硬科技投资版图:累计投资超43家企业,含28家独角兽、7家上市公司,覆盖从算力芯片到具身智能完整技术栈。
- 具身智能为核心布局:至少布局16家公司,10家成长为独角兽,旨在构建AI进入物理世界的基础设施网络。
- 投资方法论聚焦中早期:超66%项目集中在A、B轮,在行业共识形成前精准识别优秀创业者并长期陪伴。
- 产业链纵向贯通:覆盖上游AI芯片算力、中游机器人/具身智能、大模型及底层自动驾驶/传感器三大层次。
- 战略定位抢占接口型生态:不争夺大模型大脑或硬件身体,而是抢占AI与现实连接层,转化为AI行动基础设施。
- 场景壁垒构建数据闭环:近亿单/日配送覆盖2800+市县,提供真实物理世界数据,区別于大厂有技术找场景模式。
- 具身智能代表项目:宇树科技(持股9.65%为最大外部股东,全球人形机器人出货量第一)、银河通用(天使轮,估值210亿元)、星海图、自变量。
- 上游AI芯片算力矩阵:投资摩尔线程(上市首日3000亿港元)、沐曦股份(2800亿港元)、紫光展锐,解决智能基础设施。
- 底层自动驾驶与感知:理想汽车(最大外部股东)、禾赛科技、九识智能、轻舟智航,解决如何感知现实世界。
- 大模型领域同步布局:智谱AI(A轮,最高市值超3200亿港元)、月之暗面(A1轮领投,当前超1200亿元)。
- 研发投入与战略态度:2025年研发投入260亿元(同比+23%),王兴明确策略为进攻而非防守,让AI服务本地生活。
- 消费级3D打印赛道押注:半年内两次投资智能派和快造,通过龙珠及美团战投主体注资。
- 大疆信用锚扭转战局:大疆超亿元投资智能派并派研发支援,扭转其边缘地位引发机构跟风。
- FDM价格战预期:智能派获资本注入后全面切入FDM产品线对标龙头拓竹,2025年极可能爆发行业价格战。
- 已落地合作验证闭环:银河通用机器人药房24小时分拣、禾赛激光雷达进无人机量产、自变量VLA模型完成取餐测试。
- 硬科技核心投资图谱:底层算力(摩尔线程/沐曦/紫光展锐)、大模型(智谱/月之暗面)、具身智能(宇树/银河通用)、自动驾驶(理想/禾赛)。
轮式构型工业落地与非人形路线商业化
- 非人形路线率先跑通商业化:场景适配优于形态炫技,轮式构型覆盖80%以上流转、上下料、巡检刚需,双足人形难兼顾稳定与效率。
- 场景选择与ROI极快验证:避开低毛利快递,优先切入烟草酒水等生产端物流,付费能力强且替换成本高,封闭月台作业上线三月即可算出ROI。
- 大脑小脑分离架构:Safety Unit VLA负责感知决策,前端装备负责边缘实时控制,操作精度达毫米级。
- “一脑多态”打破协作壁垒:MAIC统一内核驱动差异化机器形态,已服务超300家客户,降低多行业方案迁移与技术复用成本。
- 十年数据壁垒与双重锁定:工业现场数据易标注反馈明确,结合万小时实景数据飞轮与深度行业Know-How,构建不可复制护城河。
- 千万级存量市场高渗透潜力:中国装卸场景具身智能渗透率不足1%,千万级装卸工存量市场的智能装备需求已超万台。
工业核心场景落地案例
- 电池与新能源制造:千寻智能“小墨”落地宁德时代中州基地完成电池接插件插接,打造全球首条规模化PACK产线。
- 重载搬运与零售延伸:银河通用Galbot S1轮式重载机器人落地宁德时代、博世,并延伸至零售与家居场景。
- 电芯装配与料箱拆垛:智元远征A2-W轮式机器人落地上汽通用、富临精工,柔性完成电芯装配、拆垛与上下料。
- 半导体与电力高精巡检:优艾智合“巡霄”实现晶圆全流程搬运,对接精度2mm内,80台集群日均搬运超1.6万次、行驶超100公里。
- 3C精密制造规模化突破:智元精灵G2落地龙旗科技产线,单道工序节拍压缩至18秒,整线成功率突破99.9%,效率提升超20%。
香港InnoEX 2026:机器人与低空经济首设专区,千亿投入转向产业落地
- RoboPark机器人专区首设:汇聚超100个应用场景,覆盖工业制造、商业服务、应急救援、家庭陪伴,定位为全亚洲最集中的机器人生态展示
- 低空经济独立专区:与香港特区政府"发展低空经济工作组"合作,聚焦无人机配送与城市空中交通管理,政策红利与产业落地并行
- 专业买家+资本密度是差异化壁垒:观众以采购和投资需求为主,区别于消费电子展的观光属性,商业转化率远高于同类展会;香港贸发局通过全球50个办事处定向邀请高质量买家
- 香港科创战略转向:特区政府投入超千亿港元支持创科,InnoEX成为"技术展示+政策试点+资本对接"的产业落地平台,对有出海意向的内地科技企业,香港正成为最佳跳板
深朴智能:"类家庭"渐进路径与纯视觉数据飞轮
深朴智能(2024年10月成立)完成数亿元融资(线性资本、普华资本领投,顺为资本、BV百度风投等老股东加码),半年三轮累计超2亿元,聚焦家庭场景具身智能机器人。核心差异化在于"以类家庭场景为起点、家庭为终点"的渐进路径——家庭环境非标程度极高,直接训练成本巨大,先在实验室模拟家庭场景积累数据再迁移至真实家庭,是可规模化的务实选择。
- 纯视觉 UMI+Ego 采集系统:自研低成本、大规模多模态数据采集方案,以视觉替代昂贵力控/触觉传感器,用低成本换取数据量优势,符合"数据飞轮"范式
- 分层记忆增强智能体架构:融合自研世界动作模型与端到端 VLA,支持跨本体零样本适配和非标场景泛化
- "1+2+N"飞轮迭代:N个场景落地获取真机闭环数据→双通道数据管线收集多模态信息→一套具身大模型持续迭代
- 创始团队:CEO 李晓飞(清华本博,智行者联合创始人,自动驾驶产业背景);首席科学家 王家伟(中科大少年班,DeepSeek/字节 Seed 核心研究员)——"感知+认知"复合配置是具身公司典型团队范式
前大疆T4工程师转型:从具身机器人到桌面CNC的务实化创业
- 谢博文(前大疆T4,负责Romo感知算法)二次创业,从具身机器人转向桌面级CNC,成立深圳无限工坊,获奇绩创坛天使轮
- 核心团队:CTO项林坚为前大疆农业无人机航线规划负责人,两位95后创始人均为RoboMaster核心成员
- 赛道转换:2024年具身机器人商业化不明,转战需求明确但智能化低的桌面CNC,竞争核心为软件与算法而非硬件
| 维度 | 现状 |
|---|---|
| 市场驱动 | 创客文化、个人制造、小批量定制化生产增长 |
| 竞争焦点 | 智能化程度、易用性、性价比 |
| 技术门槛 | 精密运动控制、路径规划、小型化设计 |
| 核心优势 | 大疆级系统整合与算法落地能力 |
- 产品壁垒:精密运动控制与易用性是关键,与大疆积累的复杂系统集成能力高度匹配
具身智能独角兽百亿估值融资潮
- 融资与资本化:累计融资超20亿元,2026年2月完成超10亿元B轮,百度战投与中车资本参投,投后估值破百亿成具身智能独角兽
- 投资方矩阵:获龙岗金控、立讯精密联合领投,汇聚美团、腾讯、京东、宁德时代及十余家国资平台与产业资本
- 冲刺IPO:完成股改更名智平方(深圳)科技股份有限公司,揭示行业进入规模化与资本化并行阶段
- 全球市场地位:商用服务机器人全球份额23%居首,出海份额近50%,累计出货超12万台,覆盖80余国且海外收入占比超80%
- 财务与渠道:2025年营收同比翻倍,EBITDA接近转正有望率先盈利,依托超700家代理商服务4万余客户
- 核心增长引擎:贯彻场景优先策略,商用清洁营收占比超70%成主力,印证增长引擎随场景成熟度动态切换的行业规律
- 技术架构:全栈自研GOVLA端到端模型及导航、调度与关节模组,核心能力跨形态复用以降低边际研发成本
- 硬件形态矩阵:
| 硬件路线 | 核心产品系列 | 形态覆盖 |
|---|---|---|
| 轮式升降(商用) | Alpha Bot → 1S → AlphaBot 2 | 室内配送、清洁及工业场景 |
| 具身多形态 | T800、SE01、PM01、SA01 | 双足、全尺寸人形、四足及科教 |
- 商业落地:与多伦科技达成超2000台人形机器人采购意向,发力交通安防与移动零售,工业配送一年出货超4000台
- 生态与空间:推出全球首个商业化人形机器人自由格斗联赛,建设全球首个模块化具身服务空间智魔方,三年落地千点
OpenRA-RL:开源RTS训练框架
- Hugging Face 发布 OpenRA-RL,将《红色警戒》改造为 LLM Agent 训练场
- 架构:底层魔改 OpenRA 引擎 + gRPC 桥接 + Python Gymnasium 接口,暴露 50 个 MCP 工具
- 单进程 64 局并发,重置延迟降至 256ms,内存降至 6GB
- Qwen3 32B 对战最弱 AI 五局全平,经济得分 0.58-0.80,战斗与骚扰维度均为 0
- 暴露 LLM 长程规划、多目标权衡的深层缺陷,提供 8 维奖励向量支持强化学习课程设计
追觅造车:十年技术底座向智能汽车迁移
- 造车构想与演进:俞浩造车构想始于2013年清华"天空工场"时期,发布航天级概念超跑"火箭车"并推出"星空计划",2013年完成概念视频,2025年亮相概念超跑。
- 超跑技术架构:采用四轮独立控制、模块化底盘、电池组与车架一体化布局,定位极致性能超跑。
- 跨界技术复用与挑战:家电核心技术向汽车领域迁移复用是跨界造车核心逻辑,但底盘调校、安全认证与供应链等复杂工程化能力决定成败。
| 技术能力 | 家电领域应用 | 汽车领域迁移 |
|---|---|---|
| 高速数字马达 | 吸尘器/吹风机核心动力 | 动力系统基础 |
| 智能算法 | 清扫路径规划 | 自动驾驶/智能交互 |
| 仿生机械臂 | 扫地机器人机械臂 | 车身控制/底盘调校 |
| 全域智能芯片 | 多品类智能控制 | 车载计算平台 |
- AI家电矩阵:覆盖空调X60、冰箱N1、大厨电与清洁电器产品线,设备由孤立工具转为生活场景节点。
- AI范式与核心壁垒:竞争重心转向跨品类数据流通与协同决策(如空间感知反哺空调、饮食记录影响厨电),算法前置虚拟仿真能大幅降低跨域试错成本。
| 产品 | 传统定位 | AI重构后定位 | 关键能力 |
|---|---|---|---|
| X60空调 | 温度控制 | 用户环境整体调节 | 多维送风+全场景AI动态调整风向风量 |
| N1冰箱 | 食材存储 | 家庭饮食管理 | 多模态识别食材+营养分析+饮食建议 |
| 扫地机器人 | 地面清洁 | 空间感知中枢 | 405万组数据训练的环境理解能力 |
- 马达与算法底座:高速数字马达达16万转量产、18万转生产、储备20万转,构建多品类护城河。
- 核心商业数据:过去8年营收年复合增长率超100%,扫地机30国市占率第一(18国超40%),累计销量超1100万台。
- 全球化服务规模:产品覆盖120余国,全球线下门店超6500家,累计服务超4200万家庭。
香港创科展折射三大赛道商业化鸿沟:技术就位、闭环未成
- 香港的真实价值不是技术策源地,而是制度性中介:普通法体系+国际金融+内地深度互联三重属性,使其成为内地科技企业出海合规摩擦最低的路径,但不应期望其成为产业落地承载地
- 机器人产业化瓶颈不在技术而在出海合规与ROI验证:全球人形机器人TOP5中4家到场(含深圳"具身智能八大金刚"),但绝大多数场景仍为脚本化demo;第一批ToB客户进入维保期后故障率、停机成本和运维响应能否支撑合理ROI目前无人回答;行业自称"效率提升40%、成本降低30%"但缺乏第三方独立验证的规模化落地数据
- 低空经济监管沙盒的本质是商业可行性前置筛选:香港首批38个项目中超20个已正规化运行,沙盒强迫申请者回答"谁来付钱、付多少、为何不选竞品";内地2025年企业注册量同比暴增142%与稳定盈利模式稀缺之间存在结构性落差,商业爆发预计在2027-2028年
- 企业级AI的真正成本不在模型而在集成:大模型能力已非差异化,集成部署能力、行业数据积累和本地化合规才是护城河;嵌入制造企业ERP/MES/质检系统需12-24个月定制开发,集成成本在销售话术中几乎隐形
- 三大赛道共同特征是"技术就位、商业化未闭环":2026年是产业化关键年,瓶颈统一指向客户教育、商业模式验证和系统集成能力;决策者应聚焦三个验证信号——第三方独立ROI数据、企业客户复购率、集成部署的实际周期与成本
OpenAI战略转向:关闭Sora"梭哈"机器人
- Sora团队从Day 1终极目标就是通用机器人,视频生成仅为商业化中间产物
- 2025年底视频生成与具身模型路线显著分化,Aditya Ramesh整合内部机器人团队更名为WorldSim
- 关停双重动因:IPO前战略聚焦(CFO称需"准备好成为上市公司")+ 为世界模型整合算力资源
- 发言人确认团队"将继续专注于世界模拟研究,以促成机器人的进化"
德塔智能与原生人形机器人基础模型(HFMs)
德塔智能(Delta Intelligence)孵化自北京通用人工智能研究院(BIGAI),2026年1月成立仅三个月即完成三轮超亿元融资,投资方包括高瓴创投及乐聚、智元、星海图等头部主机厂商。
- 技术定位:聚焦原生人形机器人基础模型(HFMs),构建“数采-基模-端侧”三位一体闭环全栈能力
- 原生基因:原生人形数据训练(统一决策中枢与运控系统)、原生类人大小脑架构(全身协同)、原生3D世界引擎(基于TongVerse平台)
- 关键突破:CoRL 2025最佳论文,力位混合控制统一框架,实现极限运动、长程任务与跨本体复用
| 能力维度 | 具体表现 |
|---|---|
| 极限运动控制 | 回旋踢、连续空翻、单手旋转等高难度动作 |
| 长程任务执行 | 导航+操作长序列任务,支持非结构化环境 |
| 跨本体复用 | 统一控制策略实现不同机器人平台能力迁移 |
- 核心团队:CEO马晓健(清华/UCLA/Google Robotics/NVIDIA)、联合创始人刘航欣(北大助理教授/F-TAC灵巧手)、首席科学家黄思远(DeepMind/Meta/CoRL最佳论文)
- 产业落地:联合发起“通智大脑联盟”,已在一汽红旗、南方电网等工业场景完成高价值任务交付,深度参与国内最大人形机器人数据训练中心建设
- 差异化优势:HFMs定位跨本体通用平台而非绑定单一硬件,乐聚、智元等主机厂商战略入股印证产业方认可
5.2 创业与产业
纯仿真Sim2Real路线与3D世界模型商业化进展
人工智能学家(20260416) | 量子位(20260417) | 甲子光年(20260420) | 量子位(20260420) | 第一新声(20260422) | 具身智能之心(20260427)
-
纯仿真Sim2Real跨越:全程零真机数据训练,60分钟完成200+次测试,首次成功率约98%,两次内近100%
-
3D世界模型核心架构:原生3D与强化学习底层一体化设计,摒弃2D压缩消除物理幻觉,训练效率达视频20倍
-
原生3D路线对比优势:克服像素生成无物理一致性、3D重建穿模等缺陷,直接保留物理分布统计量,避免真机翻车
-
V-4D-A与ManiDreams架构:视觉-4D-动作同步生成含物理边界的序列;首创不确定性感知规划,接口统一且后端可插拔
-
实时闭环与开源生态:RTX 4090闭环率达20Hz+实现零样本迁移;开源框架定位为物体操纵领域OMPL,获Nvidia官方转发
-
泛化能力与多维实测:未经挑拣测试对透明、反光等难抓物体成功率近100%,通过暗室、动态背景等压力测试
-
苏度vs主流路线对比:Zero-shot免示教、高保真仿真零真机、算力扩展成本低、天然含完整物理交互、实现能力级泛化
-
重构数据分工范式:仿真数据承担物理常识与泛化能力构建(广度),高成本真机数据仅适用于后期校正对齐(精度)
-
影身360数据采集系统:4-5个百元级RGB摄像头实现实时3D采集重建,颠覆激光扫描等高成本方案,彻底解决数据门槛
-
制鞋柔性智造落地:工业机器人实现毫米级涂胶,8小时产3000双全程无人工干预,应对材料与工序双重柔性挑战
-
降维打击工业战略:率先攻克制鞋最高复杂度柔性场景,技术成熟后向其他领域迁移,建立广泛工业应用壁垒
-
宁德时代多场景合作:联合开发电池生产与物流等多核心制造场景,构建行业首个多工位泛化机器人系统
-
全球生态与商业布局:国内外同步建设开发者中心目标复现LLM生态,估值突破20亿美元获宁德时代、阿里、腾讯等投资
-
苏度顶尖团队与资本:CTO顾问苏昊为ImageNet核心缔造者;获高瓴、IDG等顶级机构加持,估值突破20亿美元
-
影身智能团队与融资:创始人闵伟为清华博士、前阿里机器人负责人;联合创始人刘烨斌为清华教授;完成近亿元融资
-
范式洞察与竞争焦点:不确定性是物理预测基本属性,未来竞争焦点将从视觉逼真度转向谁能将不确定性真正传递给规划器
菲亚兰德:泳池机器人第一股的出海、AI Agent转型与财务结构分析
- IPO核心数据:2025年收入10.17亿元(+33.1%),净亏损1.20亿元,全球泳池热泵份额15.0%
- 99%收入来自海外,欧洲51.8%,大洋洲17.0%,北美15.6%(美国仅占9.8%)
- 品牌化转型里程碑:自有品牌收入首超ODM(51.3% vs 48.7%),分销商从308家激增至1039家
- 亏损本质是战略投入:销售费用从8244万元暴涨至2.16亿元(+162%),主因D2C渠道建设
- 产品矩阵分化:能源管理(热泵/水泵)占收入80.9%为现金牛;智能(清洁机器人)占9.5%
- 策略性降价换市场:清洁机器人毛利率骤降至2.0%,系推新品换取市场份额的战略选择
- 水处理板块高增长:占收入7.1%,同比+92.6%
- 核心技术壁垒:自研Full-Inverter及TurboSilence变频技术,热泵COP高达30(行业平均3-6)
- 庭院AI Agent架构:1主Agent+5子Agent,覆盖水系统、能源、机器人、氛围控制、保养
- IPO募资方向:庭院AI Agent研发、清洁/割草机器人升级、具身智能硬件平台
- 市场空间:全球智能庭院设备预计从2024年159亿美元增至2029年353亿美元(CAGR 17.3%)
- 股权结构:创始人夫妇合计持股94.87%,股权高度集中,上市前无外部融资
具身智能技术基座:世界模型、数据安全防线与VLA商业生态
量子位(20260330) | 雷峰网(20260330) | 机器人前瞻(20260330) | 机器之心(20260331) | 机器人前瞻(20260402) | 具身智能之心(20260401) | 新智元(20260407) | 钛媒体AGI(20260408) | 机器之心(20260419)
- 华为ADS World Engine:提出后训练范式,闭环仿真+强化学习替代数据堆叠,实现等效14倍预训练增益
- 四模块协同飞轮:难例挖掘→扩散生成→闭环仿真→强化学习后训练,切入碰撞下降45.5%
- 星海图Fast-WAM:全球首创快-慢双系统VLA模型,单步延迟仅190毫秒,重构底层实现4倍提速
- 星海图开源矩阵:G0首代SOTA、Plus开箱即用、垂类折叠、Tiny端侧,GOD数据集全球下载量超60万次
- 蚂蚁灵波开源:发布2.71TB LingBot-Depth-Dataset(300万对RGB-深度),模型全面超越工业级RGB-D相机
- FlyTrap攻击漏洞:加州大学利用对抗图案物理欺骗无人机视觉,三款商用机攻击成功率超60%
- AI感知缺陷:依赖视觉面积估算距离存在根本性漏洞,PDP优化使新场景攻击泛化率达61.8%
- 数据核心瓶颈:现有采集缺触觉力觉与物理反馈,需满足多模态、高精度、强因果三个维度
世界模型技术路线对比
| 模型/方案 | 核心能力 | 关键数据 |
|---|---|---|
| GigaWorld-1 | AC-WM动作控制 | WorldArena全球第一,3D准确度近满分 |
| 华为World Engine | 后训练范式 | 等效14倍预训练增益,碰撞降45.5% |
| 星海图Fast-WAM | 快-慢双系统VLA | 单步延迟190ms,4倍提速 |
| 蚂蚁LingBot-Depth | 深度感知 | 300万对数据,超越工业级相机 |
数据体系与产业进展
- 极佳产品矩阵:GigaWorld(AC-WM)、DriveDreamer(驾驶)、GigaBrain(端到端VLA基模),核心代码已开源
- 星海图商业化:2025年轮式双臂机器人全球市占率第一,覆盖90%头部开发者,2026年目标万台级放量
- 灵猴机器人:完成数亿元B轮(红杉等入局),2025年订单破2亿、交付近2000台
- 数据三大痛点:多模态缺失(缺触觉力觉)、精度漂移(柔性手套形变)、因果链断裂(仅记录动作序列)
极智嘉:仓储场景具身智能的商业化闭环验证
极智嘉核心财务与增长指标
| 指标 | 数值 | 信号意义 |
|---|---|---|
| 营收 | 31.71亿元 | ToB机器人头部规模 |
| 经调整利润 | 4382万元(首次转正) | 行业盈利拐点 |
| 经营现金流 | 8566万元(转正) | 盈利质量高 |
| 海外收入 | 23.87亿元(占比75.3%) | 全球化飞轮成型 |
| AI订阅订单增速 | >90% | 模式升级核心指标 |
| 新签订单 | 41.37亿元(同比+31.7%) | 增长动能持续 |
- 盈利跨越:成港股ToB机器人首家盈利企业,高规模增长期实现利润与现金流双转正
- 全球化飞轮:75.3%海外收入依托成熟渠道,实现技术迭代落地至全球的正反馈循环
- AI驱动升级:依托RMS调度、WES预测与IOP数据平台,辅助仓储决策并提升运营效率
- 模式跃迁:从一次性硬件交付升级为持续订阅调优的AI服务,打开高附加值长收空间
具身智能产业化路径
- 垂直场景落地:成立北京具身智能子公司,发布全球首个仓储Geek+ Brain基座模型
- 数据飞轮优势:将十年物流海量数据与行业Know-how转化为具身系统一线作业的进化燃料
| 产品 | 进展 | 价值定位 |
|---|---|---|
| 机械臂无人拣选站 | 获核心客户规模化复购 | 整合移动、操作、决策的全流程无人仓能力 |
| 轮式人形机器人Gino1 | 计划2026年量产商用 | 从“卖设备”跨越至“卖新型生产力” |
终局竞争壁垒
- 系统能力制胜:核心门槛非单点硬件,而是整合AI、具身智能与场景理解的大规模系统能力
- 服务门槛重塑:竞争核心转向将数据、调度、预测和决策沉淀为可持续优化的长期服务能力
人形机器人技术路线与产业落地的战略框架
- "四横三纵"技术路线体系:四横为肢体、小脑、大脑、知识赋能四个能力层级;三纵为电动型、电液型、仿生驱动型三条驱动路线并行探索,均未收敛
| 驱动路线 | 优势 | 局限 |
|---|---|---|
| 电动型 | 技术成熟,工业应用基础好 | 纯刚性材料无法满足家庭"本质安全" |
| 电液型 | 动力输出与负载能力强 | 适用于重载场景 |
| 仿生驱动型 | 模仿肌肉骨骼,实现本质安全 | 仍在起步阶段 |
- 落地核心是双臂类人技能作业:工业场景98%以上作业需使用工具,双臂是模拟人类使用工具关键;三大待解问题:技能传递、熟能生巧、举一反三
- 智能末端研发难度不亚于本体肢体:需具备丰富感知、高灵活性与高可靠性
- 自动驾驶架构迁移至人形机器人不可行:前者是平面非接触式,后者是多维多接触式,复杂度不在一个数量级
- 产业落地三阶段梯次推进:公共服务(当前,有限规模)→ 工业应用(约10%细分领域)→ 家庭养老(万亿产值主战场,终极目标)
- "技术母体"战略价值重于短期商业价值:核心意义在于带动AI、新材料、量子计算、脑机接口、高端制造等全链条技术突破
- 规模化落地需20年以上技术沉淀:认同李飞飞观点,20年后再谈规模化落地
- 中美两极格局已形成:中国在部分领域"并跑"甚至"领跑",但对英伟达软硬协同闭源生态依赖度极高
首形科技:情绪计算切入具身交互仿生机器人
- 首形科技融资动态:成立不到两年完成6轮融资,A1轮获华控基金、京东领投,顺为资本、亦庄国投跟投
- 技术路线核心:自研情绪基座模型CharacterMind,实现多模态情绪感知与多通道输出(语音/表情/肢体)
- 硬件突破:Science Robotics发表嘴唇运动学习研究,四大产品系列覆盖不同应用场景
- 创始人背景:胡宇航,1997年生,哥伦比亚大学博士,4篇顶刊论文+194万抖音粉丝
- 产业趋势:具身智能从运动控制转向情感表达,蚂蚁/京东/雷军/国资同台押注
融资结构概览
| 投资方 | 角色 | 背景 |
|---|---|---|
| 华控基金 | 联合领投 | 硬科技投资机构 |
| 京东 | 联合领投 | 宿迁云邦持股2.4155% |
| 顺为资本 | 跟投 | 雷军旗下基金 |
| 亦庄国投/南山战新投 | 跟投 | 地方国资 |
| 蚂蚁集团/智元机器人 | 前轮投资 | 互联网+机器人独角兽 |
华为天才少年扎堆投身具身智能创业
- 人才规模:华为“天才少年”计划(2019年启动,最高年薪201万)至少8位入选者离职投身具身智能创业,集中在AI感知与决策领域
- 智元机器人(稚晖君):估值超150亿元,第10000台人形机器人量产下线,为公开报道量产规模最高的机器人公司
- 它石智航(丁文超):半年融资超2.4亿美元;诺因智能(李银川):半年三轮融资估值超20亿元
- 竞争终局:具身智能核心在“大脑”(具身大模型),恰是天才少年们在华为昇腾、诺亚方舟、车BU等部门积累的核心能力
| 人物 | 入选年份 | 华为部门 | 创业公司 | 角色 |
|---|---|---|---|---|
| 稚晖君 | 2020 | 昇腾/计算产品线 | 智元机器人 | 联合创始人/CTO |
| 李银川 | 2020 | 诺亚方舟实验室 | 诺因智能 | 创始人 |
| 丁文超 | 2020 | 车BU | 它石智航 | 首席科学家 |
| 黄青虬 | 2020 | 车BU | 墨奇智能 | 联合创始人/CTO |
| Yeo Hui Shyong | 2021 | 终端BG/2012实验室 | 数字华夏 | H LAB研究员 |
| 周顺波 | 2021 | 华为云 | 欧拉万象 | 创始人 |
| 周凯文 | 2022 | 诺亚方舟实验室 | 诺因智能 | 合伙人 |
| 陈源培 | 2024 | 未入职 | 灵初智能 | 联合创始人 |
Feeling AI:世界模型三层架构与"活人感"命题
甲子光年(20260402) | AI科技评论(20260402) | 钛媒体AGI(20260403) | 极市平台(20260403)
- Feeling AI三层架构:逻辑层(记忆+规划)、动态层(行为生成)、表现层(3D渲染),动态层被视为行业最被低估拼图
- MemBrain基准领先:LoCoMo 93.25%、LongMemEval 84.6%、Knowme-Bench Level III超SOTA 300%+;CodeBrain Terminal-Bench 2.0达72.9%
- IKGT算法突破:CPU 300FPS响应,连续40分钟无漂移,状态重置与纠偏率100%
- 商业化进展:两轮超亿元融资,目标2026年下半年完成第一阶段Scaling并开放API
世界模型技术路线分化
| 路线 | 代表 | 特点 |
|---|---|---|
| 端到端训练 | 魔芯科技 | 去中间表示,数据越多效果越好 |
| 中间表示 | 李飞飞World Labs | 先建全景图/3D高斯再下游任务 |
| 快慢双分支 | 北交大SF-RSSM | 残差快分支+GRU慢分支解耦 |
| 全模态统一 | 智象未来 | 单网络理解生成文本/图像/视频/3D |
关键数据与商业化动态
- 魔芯KOKONI-World:1-2B参数端侧NPU实时运行,影视生成<0.1元/秒,华为联想联合投资数亿元
- 智象未来:ARR达数千万美元,B轮即将Close,1+1+3架构(底座+平台+三Agent)
- Sora退场教训:无生态承接、推理成本高、与垂直需求脱节,通用视频生成商业化失败
- 世界模型五级分类:静态复刻→视频→交互→物理因果→轮回(完美因果链条)
- SF-RSSM三大基准领先:CARLA(6种极端天气)、DMC连续控制、Atari 100k全面超SOTA
ViVa:生成式价值模型破解VLA强化学习奖励瓶颈
ViVa 是全球首个基于视频生成底座的机器人价值评估模型,以“推演未来”替代“静态打分”,从生成式建模视角重构 VLA 强化学习中的奖励信号获取。
核心范式转换
- 生成式价值评估:将价值评估从判别式回归重构为生成式建模,通过推演物理变化过程感知任务进度
- 物理先验载体:视频生成模型的真正价值不仅是仿真器,更是从互联网海量视频中提炼普遍物理规律的载体
- 破解奖励稀疏:长程操控的瓶颈在于奖励稀疏导致的搜索空间爆炸,生成式价值模型提供高一致性稠密奖励循环
技术架构
- 底座选择:基于 Wan2.2 预训练视频生成模型,注入时序先验弥补传统判别模型的时空建模缺陷
- 流匹配机制:通过条件流匹配在潜空间同时预测标量价值与未来本体感知状态(Proprioception)
- 多模态潜空间构建:
| 模块 | 输入内容 | 功能角色 |
|---|---|---|
| 条件帧 | 多视角观测 + 本体状态 | 为流匹配去噪提供环境与状态约束 |
| 目标帧 | 标量价值 + 未来本体状态 | 同步产出任务进度与动力变化轨迹 |
- 隐式对齐:在潜空间实现视觉观测与本体状态对齐,有效抑制视觉幻觉
性能验证与泛化
- 纸箱组装任务:成功率 73%,较传统 VLM 价值模型绝对提升 15 个百分点,有效吞吐量 14 次/小时
- 物理敏感度:对轻微偏移或扣合不紧等物理异常,ViVa 价值急剧下降,传统 VLM 几乎无感知
- 跨域泛化:对未见物体(如叠裤子),依靠物理先验理解关键节点的价值跃迁
- 框架集成:已集成于 RECAP 强化学习框架,论文、代码、项目主页均全面开源
德塔智能:HFMs技术架构与团队细节
- HFMs原生人形基础模型:北京通用人工智能研究院(BIGAI)孵化,用真实人形数据训练,非简单迁移
- 大脑-小脑分工架构:决策与运控解耦但协同,支持边想边动实时能力
- 世界引擎(World Engine):内置空间环境与动态关系感知,支持复杂动态场景长时间稳定运动
| 能力维度 | 具体表现 |
|---|---|
| 高难度运动 | 回旋踢、连续空翻、单手旋转 |
| 空间理解 | 原生3D空间理解,支持导航与操作长程任务 |
| 力位混合控制 | loco-manipulation统一框架,打通“会动”到“能干活” |
- 核心团队:CEO马晓健(清华→UCLA→Google Robotics→NVIDIA),首席科学家黄思远(清华→UCLA→DeepMind→Meta FAIR)
- 三轮超亿元融资:投资方包括高瓴创投、乐聚、智元、星海图,体现产业链协同布局
群核科技:空间智能第一股与物理世界数字底座
- 财务表现:群核科技(00068.HK)首日暴涨171.65%,2025年营收8.20亿元,经调整净利润转正达5712.7万元,毛利率82.2%
- 数据壁垒:15年积累超5亿个3D场景、4.8亿个3D模型,每面墙有厚度、每束光正确反射,构成空间智能领域稀缺的结构化三维数据资产
- 模型底座:SpatialLM(空间语言模型,HuggingFace榜单前三)+ SpatialGen(空间生成模型,生成时空一致的多视角图像)
- 核心洞察:空间智能的核心瓶颈是数据而非算法,群核在业务过程中"不经意间"完成了最难的冷启动,比纯技术驱动更具壁垒
视频生成 vs 空间智能路线对比
| 维度 | 视频生成路线(Sora/Genie) | 空间智能路线(World Labs/群核) |
|---|---|---|
| 核心能力 | 生成逼真动态画面 | 重建物理正确的三维结构 |
| 物理理解 | 仅学习像素概率分布,无空间认知 | 包含几何、材质、物理参数的结构化数据 |
| 可查询性 | 无法回答物体距离、尺寸等空间问题 | 可精确输出长宽高等空间信息及3D网格 |
- 具身智能前提:机器人执行任务前需理解"那是门、门上有把手"等空间语义,物理正确性是空间智能的生死线
- 与World Labs分野:World Labs Marble偏重可视化虚拟世界生成,群核SpatialGen更侧重现实世界的重建与模拟,追求物理信息精准性
- 能力闭环:空间重建→空间生成→空间编辑→空间理解,通过API/SDK对外输出,覆盖具身智能训练、影视制作、电商棚拍等场景
越疆:从协作臂到具身智能的"臂先于形"路径
- 全球最大协作机器人出货量:2025年出货量跃居全球第一,累计部署超10万台,服务80+家世界500强,覆盖15大行业200+细分场景;2025年收入同比+31.7%,六轴协作机器人增速44.7%「具身智能之心」
- "臂先于形"技术路线:从协作臂积累的精度、稳定性、场景理解出发,先打磨双臂协同再延伸至全身移动操作,区别于行业主流"从人形外观向上堆砌"思路
- "一脑多体"架构:同一智能系统控制协作臂、双足人形、轮式人形、多足机器狗,形态即能力,研发投入可跨形态复用「具身智能之心」
- 关键技术指标:安全皮肤全球唯一规模化量产(人机零距离运行)、IP68整机密封、焊接精度±0.3mm、精密装配0.2μm重复定位精度(比亚迪电子产线验证)
- 场景落地验证:工业端覆盖汽车零部件新能源产线全自主作业;商业端深圳电影院人形机器人单日14小时完成1000+杯爆米花全自主运营;IDC预测2030年中国具身智能用户支出770亿美元(CAGR 94%)「具身智能之心」
Zeno AI(芝诺机器人):CMU系全身协同端到端与第三人称视频学习路线
- 公司概况:Zeno AI(芝诺机器人)成立于2025年6月,定位通用全栈物理智能(Full-stack Physical AI),文章发布时尚未披露融资。
- 双节点布局:杭州总部依托中国制造供应链加速产品落地;悉尼研发中心对接CMU/英伟达等国际顶尖学术资源与人才。
- 团队背景:核心成员均为95后,来自CMU、悉尼大学、浙大、UIUC等顶尖高校。
- 创始人履历:首席科学家William Zhi获悉尼大学CS博士及杰出论文奖,曾任CMU RI博后,师从英伟达首席科学家Fabio Ramos。
- 产业学术网络:William Zhi博后合作导师为时任CMU RI院长Matthew Johnson-Roberson,曾在英伟达西雅图机器人实验室与Dieter Fox等合作。
- CMU溢出效应:CMU RI已催生Skild AI、Field AI、Genesis AI、Aurora等明星具身智能公司,Zeno AI是该学术溢出的最新案例。
- 三大技术壁垒:全身协同端到端、第三人称视频学习、部署自省三大路线协同,构建差异化技术壁垒。
全身协同端到端架构
- 打破割裂范式:以统一模型取代传统感知-移动-操作分模块串联,代表具身智能从模块化走向统一的演进趋势。
- 核心目标:统一协调底盘位姿调整与上肢精细操作,全面提升复杂任务中的全身协调性、动作连贯性与动态稳定性。
第三人称视频学习路线
- 预训练阶段:基于海量第三人称人类视频提取行为先验、物理直觉与任务结构。
- 后训练阶段:利用少量高质量机器人示范进行高效技能获取与泛化。
- 突破数据瓶颈:将近乎无限的人类视频转化为大规模预训练数据源,大幅降低对昂贵机器人真机示范的依赖。
自省与持续进化机制
- 主动识别边界:机器人在执行中主动识别能力边界,在不确定时启动自省并向人类请求帮助。
- 持续策略修正:利用真实物理环境的部署反馈持续修正策略,实现系统长期可靠的自主进化与提升。
微分智飞:飞行机器人赛道的学术创业样本
- 融资速度与规模:2024年创立至2026年3月,一年半完成6轮融资累计超5亿元,A1轮数亿元由华控基金领投
- 融资时间线:种子轮(2024.11)→天使轮(2025.4)→天使+轮(2025.5,数千万)→Pre-A轮(2025.7,近亿)→Pre-A+轮(2025.9,近亿)→A1轮(2026.3,数亿)
- 资本阵容:横跨产业资本(联想/上汽/百度)、政府基金(深创投/华控)、媒体资本(央视基金),老股东A1轮认购超半数
- 核心技术:无GPS环境下飞行机器人自主导航,覆盖矿业、电力、应急救援等刚需场景,技术难度构成竞争壁垒
- 四大技术支柱:自主导航、智能大脑、高效小脑、群体智能;团队硕博士比例达80%,来自浙大/中科院/港科大
- 产品矩阵:P300系列面向行业应用(自主探索测绘与智能巡检),非凸-α面向科研教育(全栈软硬件+集群协同)
- 创始人背景:高飞,浙大90后长聘副教授/博导,空中机器人领域深耕10余年,发表论文80余篇,本科浙大、博士港科大
恩和科技 SAION AI:Physical AI 在生物制造的落地范式
恩和科技发布全球首个面向生物制造的 Physical AI 平台 SAION AI,核心论点:AI 进入物理世界的瓶颈不在算法,而在于缺乏标准化的物理执行环境和端到端数据闭环。
基础设施构建
- 选择最难路径:2019 年起不做特定菌株专用线,坚持模块化通用平台,兼容不同行业需求
- 攻克 DNA 合成:成功率从不到 10% 磨到 90% 以上,耗时约两年完成技术攻坚
- 自动化通量提升:质粒构建从人工两周几十个,提升到自动化单轮 1000+ 个
- 检测速度飞跃:样品检测压缩至每样 6-8 秒,单次发酵罐采集 21 万个数据点
端到端数据闭环
- 全链路贯通:实现从 0.5 升孔板到 30 吨发酵罐的连续性数据,打通实验室到工厂的黑箱
- 千万级结构化数据:超千万条“AI Ready”数据,包含失败案例、参数敏感性、放大隐性规律
- 数据积累正循环:类比特斯拉,在交付商业价值的同时无感收集闭环数据,而非额外烧钱标注
BPL 编排层与架构
- 三层架构设计:认知层(300+ 科研工具/4000 万篇文献)→ 编排层(BPL 协议)→ 执行层(自动化铸造厂)
- 协议一致性优势:BPL 协议一致性达 99.4%,而自然语言仅 43%,类比半导体 EDA
- 核心价值定位:BPL 将科学意图翻译为机器可精确执行的指令,是行业最稀缺的环节
商业验证与成果
- 标杆客户群体:新和成、巴斯夫、雅诗兰黛等头部企业,累计交付 23 个项目
- 商业化产品管线:15 个商业化产品管线,实验室年通量从几百提升至上百万个菌株
- 玉米黄质案例:转化效率提升 60%+,每代菌株迭代周期压缩至一个季度内
关键洞察
- **“先建环境,再长智能”**是产业 AI 的正确顺序,先搭建标准化执行环境和数据闭环
- 生物制造与半导体制造逻辑高度同构(Foundry 模式),编排层(BPL)是 Physical AI 的关键缺失环节
- 真正的数据壁垒不在数量而在端到端结构,包含失败案例和放大规律的连续性数据比海量公开文献更有价值
家庭机器人创业:破壳、未来不远与赫宇的技术路线与落地策略
十字路口Crossing(20260416) | 智能涌现(20260427) | 机器人前瞻(20260427) | DeepTech深科技(20260427)
- 核心团队与融资:创始人许华哲为清华助理教授(UC Berkeley博士/斯坦福博士后),2025年2月离职创办破壳机器人;同年3月获数千万美元天使轮,云启领投,顺为+小米战投(暗示接入小米生态)、百度风投等跟投
- 战略定位与商业模式:定位C端家庭管家(对标高端双语陪练阿姨),排除高危烹饪场景,收敛至10类通用家务;提供租赁+买断+订阅模式,当前月租三四千,目标两年内实现长序列家务
- 场景选择与数据护城河:家庭任务极度随机且需重建秩序,是训练通用具身模型最佳土壤;80%场景需人机互动,Corner Case及活物互动数据仅能靠真实家庭获取,形成终极护城河
- 产品验证与形态:F2机器人已入300个真实家庭(带娃+轻家务)测试,日均用数小时,免维护运行1-2个月;采用轮式+二指夹爪方案,保障室内场景极高性价比与安全性
- 核心指标与战略节奏:核心指标为续费率50%与转介绍率30%;硬件迭代极慢,先发优势难追;创始人潜行三年自研产品再融资,目标上千台机器人分布式强化学习共享大脑
- 端到端世界模型:完全放弃VLA路线,自研32B参数具身世界模型,构建视频-动作输入输出范式;产品定义随AI能力动态调整,拒绝纯仿真路线
- UAG并联预训练架构:先对极低成本的动作预训练,再与视觉基础模型联合训练(提升效率超5倍),最大限度保留基础模型泛化能力
- 多源三层数据与强化学习:含外骨骼、UMI硬手套、第一人称及失败样本采集;打破仅微调惯例将RL贯穿全流程,利用失败数据理解任务边界,解决多任务灾难性遗忘
- 全栈自研成本控制:自研关节剔除工业冗余参数,单关节成本从8000元降至1000元(降87.5%);掌握电流环全部底层参数确保消费级机械臂不抖动
- 物理与隐私安全:物理安全以柔顺控制与触觉传感器为第一环,内置能力边界主动避险;隐私五维度保障含工作亮灯提醒与人脸打码机制
2026年具身智能行业全景洞察:市场、资本、技术与竞争格局
-
市场规模与增长:中国具身智能市场已达9,150亿元,2026年剑指万亿;全球人形机器人及物理AI市场预计2034年达2,613亿美元,年均增速50.6%
-
融资进入爆发期:2025年融资超600笔、334.73亿元(同比4倍),人形机器人赛道独占36%融资额;2026年Q1融资额已超去年全年一半,资金结构前移至早期中期项目
-
数据瓶颈是最大制约:行业数据积累量不到百万小时目标的5%,实验室95%成功率在真实场景可能跌至60%
-
三层技术架构成主流:"大脑-小脑-肢体"三层结构,VLA模型是串联认知决策、运动控制与执行器的关键技术
-
三条数据路径各有优劣:
路径 优势 劣势 遥操作 精度高 成本高 无本体采集 泛化性强 映射难 仿真合成 规模大 Sim2Real Gap显著 -
中美竞争格局呈结构分化:
维度 中国 美国 供应链 手部零部件25家 仅7家 量产落地 全球出货前六全为中国企业 — 2026产量 预计增长94% — 创新路线 场景密度优先 基础模型+软件定义 -
价格战已打响:宇树R1起售价2.99万元,松延Bumi降至万元以下;替代年成本10万元工人需机器人售价控制在10-15万元
-
非人形机器人商业化被低估:第二梯队非人形企业已在巡检/仓储/酒店实现千台级部署跑通商业闭环,人形与非人形是"轿车与卡车"关系而非替代
-
硬件标准化是降本关键:核心部件即插即用后,整机成本有望2028年前下探至10万元以内,进入"PC时代"
国家电网68亿具身智能设备采购:史上最大规模商用落地
| 人形带电作业机器人 | 500台 | 25亿 | ~500万 | 配网带电作业、特高压项目 | | 双臂巡检机器人 | 3000台 | 18亿 | ~60万 | 变电站设备操作、故障处理 |
-
配套投入与资金占比:配套10亿元(含研发8亿、人才2亿),68亿采购仅占国网全年智能化投资800亿的8.75%。
-
采购与落地节奏:分批推进,Q1试点→Q3规模化铺开→Q4补充采购。2026年重点区域渗透率30%,2027年智能体普及率超80%,2030年全面自主化运维。
-
涉及厂商与准入要求:包含云深处、宇树、智元、优必选、傅利叶、深谋科技等,要求与“光明电力大模型”深度适配并支持本地化部署。
-
预期与实战效益:巡检效率提升5倍,故障处理时间缩短60%,安全事故率降低80%,高危暴露风险减少90%以上;单台设备年省人工50-80万元。
-
行业壁垒与商业洞察:带电作业具极高技术壁垒,先发企业优势明显。500万高单价由高危刚需支撑,标志人形机器人从通用演示走向垂直行业深度落地。
-
竞争格局演进:竞争从硬件本体上升为“模型-设备-场景”系统级整合,“大模型+具身智能”成电网标配。
-
云深处行业地位:四足机器人电力行业市占率稳居首位;2020年率先与南网启动试点,为全球首家实现全自主巡检变电站的企业;业务覆盖34省、全球50国。
-
云深处协同巡检方案:山猫M20(轮足)负责“面”上快速普查(移动2m/s、翻越80cm障碍),绝影X30(四足)负责“点”上深度诊断。解决行业“快与精不可兼得”矛盾。
-
云深处全链路与实战数据:构建感知-决策-执行全链路,支持IP67防护及45度楼梯通行。实战数据优异:
云深处机器人实战核心指标
| 核心指标 | 实测数据 |
|---|---|
| 单台现场总巡检时长 | 8.5小时 |
| 平均无故障工作时间 | >1000小时 |
| 常规及极端环境识别率 | >95%(宁夏戈壁达96.5%) |
| 海外地下隧道省人工 | 480小时/条/年 |
- 标志性落地案例:深谋科技“伏安”作为业界首个中高压变电站定制人形机器人,已中标国网河北电力项目即将交付。
自然意志:清华学者丁宁创办通用物理智能公司,天使轮估值40亿
-
公司概况:「自然意志」由清华大学电子工程系助理教授丁宁创立,聚焦通用物理智能方向,天使轮估值达40亿人民币,投资方含IDG资本、峰瑞资本、真格基金等
-
创始人学术背景:谷歌学术引用超7000次,GitHub开源成果超25000星标,Nature Machine Intelligence 2023年度最高引论文作者(引用超1000次);博士师从郑海涛、刘知远教授,博士后合作导师周伯文教授
-
核心算法贡献:Implicit PRM、PRIME(密集奖励强化学习)、TTRL(测试时强化学习)、Ultra系列对齐方案;OpenBMB核心贡献者,获百度奖学金、Stanford全球前2%科学家荣誉
-
技术路线定位:区别于单一具身智能应用,强调通用性与物理世界交互能力的底层抽象,投资人评价其"infra做得好",技术底座和系统工程能力是核心壁垒
-
赛道竞争背景:同期清华系「零次方机器人」获超亿元融资,魔法原子百亿募资;40亿天使轮估值在学术界创业者中属顶级水平,反映资本对学术积累与工程能力的双重认可「雷峰网」
傅利叶:具身智能康养的场景定义与系统级交付
- 智能康复港解决方案:融合下肢外骨骼、上肢康复机器人、数字OT系统,覆盖神经/骨科/疼痛多类型康复全流程;多模态数据(位姿、力反馈、生物力学)跨设备实时整合,支持脑电、近红外、超声波等数据协同
- 人形机器人与脑机接口融合:GR-2(2024年交付超百台)→GR-3(2025,Care-bot社交陪伴+辅助陪护)→2026年引入脑机接口,非侵入式脑电信号实现意图解码→设备驱动→感知反馈闭环
- 规模化落地验证:覆盖全球40+国家、2000+机构,国内300余个科室;上海高行社区康复中心累计服务超4600名患者,脑卒中患者两个月内从卧床恢复自主进食与辅助行走
- 市场驱动力:60岁以上人口3.23亿(占23%),每10万人仅3.57名康复治疗师,供需缺口催生康复机器人市场年复合增长率超30%;银发经济2035年规模预测30万亿元
- 开源生态:正式开源高质量数据集,视频clip累计超百万条,为全球最大规模全尺寸双足大人形全身数据集之一
- 商业化路径洞察:核心壁垒不在单机性能而在系统级交付(智能康复港=物联网数据平台+多设备协同+标准化方案);康复范式正经历三重跃迁——被动功能补偿→主动意念驱动→情感化陪伴
5.3 新产品形态与巨头战略生态
车企入局与供应链重塑
机器人前瞻(20260402) | 财联社AI daily(20260331) | 雷峰网(20260402) | "财联社AI daily"(20260429)
- 车企加速入局与生态构建:长安汽车成立4.5亿元机器人公司,发布169cm/40自由度人形机器人“小安”,计划2028年量产;优必选前副总裁谭欢出任首席架构师。
- 特斯拉极致降本路线:复用FSD视觉神经网络、Dojo超算与汽车产线,大幅压低Optimus迁移成本,单台六颗摄像头视觉硬件成本约900美元,占总成本5%-15%。
- 供应链跨界融合转型:LG Innotek与波士顿动力合作开发视觉传感模块,预计2027-2028年量产并集成至下一代Atlas机器人。
- 图达通非车载场景放量:将激光雷达重塑为“三维摄像头”,1550nm产品成本降至500美元以下;非车载赛道毛利优于车载,已获DeepWay深向等订单。
- 车载与非车载出货预期:车载激光雷达2024年出货约300万台,预计2025年翻倍至500-600万台;同时加速向商用车、机器人、智慧交通等场景扩张。
- LG电子绑定英伟达转型:2022年成立机器人中心,CLOi服务机器人已落地酒店/零售;与英伟达启动全面战略合作,覆盖机器人、AI数据中心与移动设备。
- 英伟达生态向终端渗透:与LG合作标志其从云端延伸至消费级终端,依托Isaac平台提供感知导航工具链,结合Omniverse支持机器人仿真训练。
- 芯片短缺拉长产品周期:LG预警反映下游对英伟达GPU产能持续担忧,数据中心GPU与边缘计算芯片短缺,直接波及机器人等终端产品落地进度。
- 消费电子AI平台化合作:LG放弃自研芯片选择绑定英伟达,反映韩国电子巨头在AI时代更倾向于平台生态合作而非高成本的垂直整合。
纯视觉与多传感器融合路线对比
| 维度 | 纯视觉路线(特斯拉) | 多传感器融合路线 |
|---|---|---|
| 核心传感器 | 摄像头 | 摄像头+激光雷达 |
| 成本优势 | 极强,整机目标低于2万美元 | 较弱,传感器成本占比高 |
| 技术壁垒 | 依赖算法积累 | 硬件成熟度更高 |
| 产业化进度 | Optimus已小批量验证 | Atlas等在集成测试阶段 |
宇树科技 IPO:毛利率高于苹果的硬件异类
- IPO 商业验证:2025年营收17.08亿元,扣非净利润6亿元(同比+674%),人形机器人年销超5500台(全球第一)
- 极致成本控制:前三季度综合毛利率约63%(行业均值35%-47%),核心零部件全栈自研,外购部件仅占14%-18%
- 降价扩张规模:人形机器人均价从59.34万元降至16.76万元,实现“用性价比换规模,用规模换数据”的飞轮
- 渐进产品跃迁:走“四足养人形”路线,前三季度四足机器人售出17946台,关键零部件直接平移至人形产线
- 战略重心转向“大脑”:IPO募资约40亿,其中20亿投向机器人模型研发,标志着长期胜负手从本体工程转向智能模型
- 需求仍处早期:74%人形机器人用于科研/教育,50%-70%用于企业导览,真正“进厂替代人”的大规模落地尚未发生
- 行业估值锚点:作为A股“人形机器人第一股”确立估值基准,超20家机器人企业已明确上市计划,激活正向资本循环
- 资本偏好大脑派:国内8家百亿估值独角兽多数押注模型优先,宇树投后估值约127亿,长期竞争格局仍存变数
魔法原子:分布式群控的极限验证与产品化跃迁
魔法原子在苏超开幕式完成全球已知最大规模户外群控表演:200台四足+90台人形机器人,在雨天草坪+4万人通信干扰+全国直播零容错条件下实现零失误。
极限场景的四重叠加挑战
| 挑战维度 | 具体条件 | 核心难点 |
|---|---|---|
| 通信环境 | 4万+观众及多网络并发 | 高密度无线拥塞,300台设备丢包延迟放大 |
| 地面条件 | 天然草坪+持续降雨 | 湿滑软硬不均,高动态动作落地稳定性差 |
| 异构协同 | 四足MagicDog+双足MagicBot Z1 | 两套运动学模型与指令流需统一时间轴对齐 |
| 容错约束 | 全国实时直播 | 零重试机会,任何失误被镜头放大 |
关键技术体系
- 分布式群控架构:去中心化调度消除单点故障,异构指令流隔离处理并统一时间轴对齐,在高密度无线环境下稳定调度近300台异构机器人
- 全栈自研闭环:关节模组最大扭矩525N·m,防滑足垫配合力反馈实时调整落脚策略,大小脑协同实现环境理解与毫秒级运动控制
从定制到产品化的跃迁
- 部署效率飞跃:春晚部署约30天→苏超仅7天,源于架构向分布式高容错演进及接口标准化,标志群控方案从能力展示向可快速部署产品转化
- 场景迁移路径:抗干扰通信、异构协同、快速部署能力可迁移至应急响应、工业协同、安保巡逻等真实场景
- “1+2+N”战略:将群控能力从赛事演艺向文旅景区、商业体、夜间经济延伸,验证商业化扩展潜力
关键洞察:具身智能从实验室走向真实世界的核心瓶颈不是单项指标突破,而是多不利条件叠加下的系统稳定性;全栈自研是快速调参的前提,在不可控环境中构成决定性优势
5.4 硬件产品与生态战略
星源智BotPack B系列:端侧算力背包的跨本体通用化
- 公司定位:智源研究院唯一孵化的具身大脑公司,成立不到一年即实现商业化落地,定位跨本体、跨场景复用的通用端侧算力平台
| 型号 | SoC | 算力 | 内存 | 带宽 |
|---|---|---|---|---|
| B5 | Jetson Thor T5000 | 2070 TFLOPS | 128GB LPDDR5X | 273 GB/s |
| B4 | Jetson Thor T4000 | 1200 TFLOPS | 64GB LPDDR5X | 273 GB/s |
- 工程亮点:整机不足2.5kg(326×196×105mm),复用机器人本体电源无需独立电池;空气动力学风道设计长时间满载不降频;无损快拆机构即插即用
- 通信与感知集成:10G万兆以太网+多千兆网口承接多路传感器;内置5G/Wi-Fi 7/BT 5.4支持高速遥操作与数据回传;UWB(6频段)+双频GNSS(L1/L5)+6轴IMU
- 商业化进展:T5算力平台已大批量用于智元精灵G2,BotPack B系列适配宇树G1等四足/人形机器人;与北京亦庄签约三年不低于五亿元订单;亮相德国汉诺威工业博览会
- 行业背景:IDC《2026年具身智能机器人十大技术趋势》指出端侧算力需求从家用十T级跃升至商用/人形机器人的百T至千T级
星海图 A1Z:桌面级机械臂产品定位与开发者生态
-
产品定位:星海图A1Z第三代桌面级机械臂,早鸟价9999元,重复定位精度±0.1mm,整机仅5kg,即开即用
-
市场三层断层:
层级 价格区间 核心问题 科研/工业级 3-8万 资源壁垒高,个人开发者难承担 中端折中方案 1-3万 成本与性能难兼顾,多数未能量产 低价开源方案 数百-数千元 精度差、易损坏,长期成本反升 -
中端困境:"万元臂"口号喊两年多数未交付,开源方案反复维修致成本攀升,中端陷入"做好成本压不住、做差不伦不类"死循环
-
软件层:完整SDK开放运动控制、轨迹规划及传感器数据接口,开发者可直接聚焦算法与应用层
-
硬件层:标准快换接口(USB/UART)支持吸盘、夹爪、摄像头、激光器等多模块扩展,内置主动风冷保障长时间稳定运行
-
共创生态策略:限量100个早鸟名额面向个人开发者,核心逻辑为任务展示→硬件响应→社区经验闭环
-
关键洞察:具身智能行业瓶颈已从算法转向硬件可及性,算法迭代速度远超硬件普及速度,生态建设比产品本身更具决定性
追觅扫地机:双目感知+强化学习的具身智能前哨站
追觅扫地机累计全球出货突破1100万台,2026Q1全球营收同比增长100%,获欧睿国际"全球高端扫地机器人销量第一"认证,在30+国家及地区市占第一(18个国家市占率超40%)。核心技术路线为超广角双目+主动光散斑+3D感知,引入强化学习替代规则驱动决策,实现"感知→理解→决策→执行"连续闭环。
感知系统对比
| 维度 | 传统方案(单目/激光) | 追觅双目方案 |
|---|---|---|
| 深度获取 | 间接推断(点云/图像猜距) | 双RGB摄像头+主动光直接获取 |
| 弱光/反光 | 不稳定 | 主动光散斑提供稳定特征点 |
| 避障逻辑 | 统一绕开 | 区分障碍物与可清洁颗粒 |
| 感知精度 | 轮廓识别 | 毫米级空间深度+物体属性判断 |
感知关键指标
- 280+类物体识别,最小感知高度低至3mm
- 5mm内低矮障碍物100%避障,动态环境0.3秒完成判断
- 导航效率提升约50%,感知超越避障进入清洁决策环节
决策架构升级
- 传统方案:全局规划+局部避障,环境变化时中断重算导致"犹豫"
- 追觅方案:强化学习驱动实时决策,持续输出下一步动作,边走边算
- 仿真训练:基于英伟达平台构建成千上万种家庭环境,4000台虚拟机器人24小时运行,单阶段生成数十万级数据
仿生机械臂与机械足
- 仿生机械臂(全球首创):识别墙边/桌腿时拖布和边刷主动外扩补足边角
- 仿生机械足:识别门槛后判断可通过性并抬升越障
关键洞察
- 竞争维度转移:吸力、覆盖率等单点指标趋同,转向系统能力比拼
- 硬件换信息:追觅选择更"重"的双目+主动光路线,用硬件成本换取更稳定的感知输入
- 通用机器人前哨站:扫地机被视为AI最早落地的机器人产品,闭环能力建立后应用边界将远超清洁场景
智驾→具身智能:人才大迁移与创业浪潮
雷峰网(20260408) | 量子位(20260331) | AI科技评论(20260330) | 智能涌现(20260330) | AI科技评论(20260409) | 雷峰网(20260410) | 钛媒体AGI(20260410) | 智东西(20260416) | 机器人前瞻(20260416) | 机器人前瞻(20260408) | AI科技评论(20260426)
| 无界动力 | 夏中谱+张玉峰 | 理想端到端负责人+地平线智驾一号位 | 世界模型+多模态 | 红杉、高瓴押注 | | 它石智航 | 陈亦伦+李震宇 | 华为自动驾驶CTO+百度智驾总裁 | 工业+通用机器人 | Pre-A轮4.5亿美元创中国纪录 | | 原力灵机 | 唐文斌 | 旷视联合创始人 | 物流场景机器人 | 与阶跃星辰联合发布DM0 | | 吴夏青(筹) | 吴夏青 | DeepMap创始人/英伟达VP | 机器人数据 | DeepMap曾被30亿美元收购 | | 众擎机器人 | 李力耘 | 前小鹏智驾一号位 | 具身大脑+机器人 | SE01自然步态,PM01前空翻 |
资本热度与版图:从温吞到沸腾
- 融资规模爆发:2026年Q1披露210起融资超300亿元,单笔10亿+达14起(2025全年仅6起)。
- 头部抢投白热化:它石智航成立不到半年累计融资2.42亿美元;昆仑行注册10天估值超10亿美元。
- 智驾人才大迁徙:两年内超20位车企/智驾骨干转投具身智能,理想系超10位核心研发流出。
- 理想系创版图:成最大人才输出方,斜跃智能获理想直投,该系累计融资超20亿元。
技术迁移与路线汇合核心逻辑
- 技术栈高度复用:智驾与具身在感知(同类传感器)、决策(VLA成共同语言)、执行层高度复用。
- 数据工程同源:高精地图“将物理世界结构化”的能力,与机器人数据采集处理本质同源。
- 迭代效率定胜负:具身智能核心竞争力不是短暂领先,而是快速发现问题、修正问题的闭环效率。
- 大脑派与本体派汇合:前小鹏智驾一号位李力耘加入众擎,主导智驾全链路AI化能力平移至具身大脑。
关键技术方法论与落地碰撞
- 三大可落地体系:VLA模型完整迁移、数据飞轮闭环(采集→训练→OTA→更多数据)、工程量产能力。
- 场景降维破局:原力灵机将机器人定位“学徒工”放进容错场景,让真实失败驱动模型进化破解数据死锁。
- 具身原生训练:反对“先VLM再微调VLA”常规路径,主张Day 1接触物理世界,采用互联网+智驾+具身数据混合训练。
- 量产思维平移:理想系共性优势为量产与系统工程能力,众擎已有年产10万台产线规划,T800进入量产阶段。
宇树IPO财务全景:59.83%毛利率背后的盈利模型
- 宇树盈利模型:2025年前三季度营收11.67亿元、净利润1.05亿元,综合毛利率59.83%超越苹果硬件,自由现金流约4亿元
- 产品销量与ASP:人形机器人售出3551台(ASP 16.76万元),四足机器人17946台(ASP 2.72万元),产销率分别达95.59%和84.96%
- 研发与IPO:IPO募资42亿元,其中20.22亿投向机器人模型研发,战略重心从运动能力转向大脑智能化
- 费用控制:销售费用率仅6.51%、管理费用率2.78%(剔除股份支付),三费合计16.02%,完全靠内生现金扩张
- 成本壁垒:几乎全部自研核心零部件,四足机器人学习率约30%(高于制造业典型15%-25%),ASP连降但降本更快
- 开发者生态占位:G1成为高校和个人开发者最广泛使用的本体平台,以低价高出货量构建事实标准
- 生态策略本质:不追求性能顶尖,通过可获取性、可预测性和用户基数建立生态,未来机域社区免费提供本体降低门槛
零次方机器人:清华00后团队的商业化验证样本
- 清华00后团队商业化样本:零次方(Zerith)成立半年完成三轮融资,团队超百人,吸引百度、字节等巨头人才加入
- 资本合作逻辑:获超亿元融资(润泽集团领投),融资直接锁定机器人领域订单战略合作,采取前沿研发与量产并行的双螺旋结构
- 量产与落地规模:实现单月量产百台、订单额破亿元,在全国20余个地标场所(合肥新桥机场、深圳万象城OLE超市等)部署
- 高价值场景聚焦:主攻空间整理与空间清洁两大场景,客户需求明确、付费意愿强,短期内可获得可量化回报
- 产品与模型架构:部署E系列、C系列机器人;自研ZERITH-V0具身操作基础模型及类脑双流异步执行架构ZERITH-V2
- 客户核心诉求:不再为“概念”买单,单一任务成功率逼近100%才是商业替代人工的及格线,看重复杂背景抓取、多任务连贯及24小时不间断稳定作业
- 数据闭环壁垒:真实商业场景持续运行积累的数据驱动模型迭代,构成新入局者难以短期复制的护城河
维他动力:从自动驾驶到家庭机器人的服务链路视角
- 技术跃迁逻辑:余轶南认为自动驾驶是两自由度机器人,具身智能是自然延伸,赛道竞争实际不激烈,可渗透千行百业
- 端到端服务链路:机器人价值在于打通完整流程(如洗衣全流程:收取-分类-洗涤-晾晒-收纳),而非完成单一动作
- 落地与瓶颈:家庭机器人预计2-3年落地,构型以双足人形为主;核心瓶颈为预训练数据几乎为零和硬件成本
清洁家电跨界具身智能与物流无人车兼并整合
- 清洁家电独角兽跨界具身智能:将具身智能业务独立为子公司,已获数亿元融资;产品路线为扫地机器人持续迭代进化(非人形/轮足路线),预计1年内发布产品「AI科技评论」
- 物流无人车赛道进入兼并阶段:某头部物流科技集团投入超10年、2万台规模的无人车业务整体剥离,注入前互联网大厂自动驾驶团队创办的公司,采取"双品牌运营"格局「AI科技评论」
- 原集团CTO酝酿创业:物流无人车正从混战走向兼并整合「AI科技评论」
- 跨界动因:清洁家电公司进军具身智能与该领域竞争对手"围剿"压力有关,扫地机器人迭代路线技术路径更务实、商业化路径更短
千诀科技:解耦式类脑路线对标"机器人安卓"
-
定位:做跨本体通用具身智能系统,不造本体只做大脑,已适配7大品类、30+子品牌机器人;2026年初完成Pre-A++扩展轮融资,累计数亿元;团队源自清华自动化系脑与认知科学研究所
-
核心论点:VLA端到端是"数据怪兽":端到端是乘法关系的紧耦合系统,样本效率最差,数据匮乏的具身领域是致命短板;适配不同形态机器人需推倒重来,跨本体泛化困难
-
解耦式类脑路线的结构性优势:
维度 端到端VLA 千诀解耦式类脑 数据需求 乘法关系(全功能联合数据) 加法关系(各功能区独立数据) 样本效率 数据无穷多时上限最高,但及格线数据量极大 数据匮乏阶段能率先跑通飞轮 跨本体泛化 推倒重来 按需装配大脑模块 数学本质 序列生成问题 因果推理问题 -
场景洞察:家庭场景比工业更容易落地——容错率高("垃圾没捡起来就再捡一次"),工业要求节拍+精度双达标;定位半服务半家庭方向
-
适配收敛拐点:摸完约20款后从第20到第30款非常快,国内主流机器人已基本覆盖;数据壁垒在于30+品牌数据拼出完整行业地图
-
长期目标:脉冲神经网络实现神经元级因果推理,从理论上消除AI幻觉,突破Transformer仅做相关性推理的局限
地瓜机器人:机器人芯片独角兽的标准化路线
-
融资加速:B2轮1.5亿美元,20天内两轮共2.7亿美元,累计超3.7亿美元,投资方含滴滴、高瓴、淡马锡、五源等
-
产品矩阵与算力覆盖:
| 系列 | 定位 | 代表型号 | 算力(TOPS) | 状态 |
|---|---|---|---|---|
| X系列 | 消费级机器人 | 旭日3/5/7 | 中低算力 | 3/5量产,7年底发布 |
| S系列 | 具身智能/人形 | S600 | 560 | 头部客户合作中 |
| RDK | 开发者套件 | X5/S100 | 10~100 | 已发布 |
-
规模化增长:芯片出货量年增180%,客户数年增200%,覆盖400余家机器人企业、超10万名开发者
-
战略定位:只做芯片不做方案,只瞄准通用需求,一次研发多场景适配;软硬协同覆盖全链路
-
核心壁垒:地平线基因(芯片+算法+机器人人才)+ 可复用BPU架构;CEO认为芯片定义能力比设计更稀缺
5.5 垂直场景具身智能应用
高德 ABot:地图数据驱动的可微分物理引擎世界模型
- ABot-3DGS数字孪生工厂:基于高德厘米级空间数据+真实轨迹,3DGS构建可编程孪生空间,场景覆盖率99%
- ABot-PhysWorld物理思维引擎:14B参数DiT主干,引入Proposer+Scorer双组件物理判别机制,通过Diffusion-DPO强化物理合规行为
- 每帧包含质量、接触力场、惯性张量的可微分物理状态快照,从根源消除物体穿透、无接触抓取等低级错误
导航基座ABot-N0
- 采用流强化学习框架,将导航从多任务拼接重构为统一模型驱动,覆盖五大任务类型
- 联合浙大提出SocialNav模型入选CVPR Oral,SocNav闭环导航成功率88.3%,较此前最优提升超40个百分点
- 合规性从30%区间升至85%+,断层式领先
操作基座ABot-M0
- 构建最大开源异构数据集UniACT:9500+小时、600万+条轨迹、20+种具身形态
- 以动作流形学习(AML)替代扩散式生成,推理步骤更少、动作更连贯
- Libero-Plus基准成功率达80.5%,较业界标杆Pi0提升近30%
ABot-Claw三大技术支柱
| 技术支柱 | 核心机制 | 解决的问题 |
|---|---|---|
| Map as Memory | 全局坐标系+四层拓扑记忆 | 终结"一机一图",实现跨设备知识零成本继承 |
| 集中式动态调度 | 云端L3/L4规划+边缘L1/L2实时响应 | 长程任务连续性,断网仍可运行 |
| 闭环反思纠错 | Self-Reflector评估+失败修复 | 自我诊断与纠错 |
核心壁垒与战略定位
- 业界领先的POI数据库和路网语义信息,数据自带语义锚点,使机器人"知其然亦知其所以然"
- 地图能力(空间理解、实时更新、POI语义)恰好是具身智能最稀缺的基础设施能力
- "数据-模型"飞轮:3DGS造数据→PhysWorld学物理→真实执行反馈修正,持续自增强
- ABot-World开源定位为具身智能行业底层操作系统平台,类比Linux之于云计算
导盲场景验证:四足机器人「高德途途」完成亦庄马拉松视障导盲,全球首款开放环境全自主具身机器人,不依赖预设路线或人工遥控
越疆:协作机器人全球第一,10万台部署验证的具身智能务实路径
- 规模化领先:越疆协作机器人2025年出货量跃居全球第一,全球累计部署超10万台,服务80余家世界500强,覆盖15大行业、200+细分场景「具身智能之心」
- 财务高增长:2025年收入同比增长31.7%,六轴协作机器人同比增速44.7%,远超行业近30%年复合增速;知识产权申请总量1497项
- 差异化技术路线:提出"从上肢能力向下扎根"路径,先在工业场景打磨双臂协同,再延伸至全身移动操作;"一脑多体"架构同一智能系统控制协作臂、双足人形、轮式人形、多足机器狗
- 核心产品能力:安全皮肤全球唯一规模化量产实现人机零距离运行;IP68整机密封;CR30H大负载系列30kg/1800mm臂展;焊接精度±0.3mm合格率近100%;精密装配0.2μm重复定位精度「具身智能之心」
- 商业落地双轮验证:工业端覆盖汽车涂胶/打磨/检测/装配等关键工序,主导科技部动力电池多机器人柔性制造专项;商业端深圳电影院人形机器人单日14小时完成超1000杯爆米花全自主运营
- 产业判断:具身智能沿"工业→商业→家庭"演进,价值标准不在于"多像人"而在于"多能解决问题";IDC预测2030年中国具身智能用户支出770亿美元(CAGR 94%)
影身智能:原生3D数据训练世界模型与柔性智造落地
- 原生3D训练范式:全球首家完全依赖原生3D数据训练世界模型,认为2D数据是对物理世界的降维压缩,无法根本消除"物理幻觉"。
- 世界模型三路线对比:
| 路线 | 代表 | 数据源 | 核心缺陷 |
|---|---|---|---|
| 像素生成派 | Google Genie | 2D视频帧 | 黑箱预测,无物理一致性 |
| 3D重建派 | Marble | 2D逆向重建 | 动态中闪烁、穿模 |
| 原生3D派 | 影身智能 | 原生3D数据 | 采集门槛已破解 |
- V-4D-A架构与产品体系:实现视觉-4D-动作完整闭环,同步生成三维几何表征、预测视频及动作序列,打通从采集到落地全链路。
| 产品 | 定位 | 关键特性 |
|---|---|---|
| 影身360 | 实时3D数据采集 | 4-5个百元RGB摄像头替代专业设备,数据成本降至可忽略 |
| S1 | 原生3D动态世界模型 | 冗余远低于视频,训练效率较2D视频提升20倍 |
| 柔性生产机器人 | 工业本体 | 搭载3D世界模型实现自主精细操作 |
- 柔性智造落地指标:深耕材料与工序"双柔性"的制鞋场景,机器人实现毫米级涂胶,8小时产3000双,款式频繁切换全程无需人工干预。
- "先难后易"战略:柔性智造对精细度要求最高,攻克后可向其他领域降维迁移;制鞋涂胶涉职业病风险,社会刚需驱动明确。
- 核心商业洞察:百元摄像头破解数据成本是具身智能规模化关键支点;掌控数据、模型与本体垂直整合策略,有效避免纯算法公司落地困境。
- 融资与团队:2024年6月成立于杭州,种子轮至Pre-A轮共四轮融资累计近亿元,投资方含恒生电子、松禾资本、深高投等。
- 团队背景:创始人闵伟为清华工学博士、前阿里本地生活机器人负责人,具20年行业经验;团队汇聚清华学者及阿里、吉利、美团等产业人士。
星动纪元:世界模型五次迭代+物流PMF验证的具身智能新独角兽
-
行业首发HiRT分频VLA架构:2024年9月首创latent向量连接70亿参数世界模型与4000万参数执行模型的分频VLA架构,Physical Intelligence、Figure、Google、NVIDIA此后相继跟进该路线,星动纪元具先发优势。
-
世界模型五次迭代路线(与斯坦福Chelsea Finn团队合作):
| 时间 | 模型 | 核心突破 |
|---|---|---|
| 2024.11 | PAD | 全球首个内嵌世界模型的机器人基础底座 |
| 2024.12 | VPP | 世界模型作为策略主干,同时预测画面与控制动作 |
| 2025.01 | UP-VLA | 语言推理与视觉预测同时辅助决策 |
| 2025.10 | Ctrl-World | 世界模型作为数据仿真器,减少真机数据依赖 |
| 2026.01 | VLAW | 世界模型与VLA协同进化,规避动力学过度乐观假设 |
-
五层数据飞轮闭环:构建真机作业→真机→世界模型生成→EgoCentric人类行为→互联网视频五层数据闭环,真机作业数据实时回流迭代,边际成本趋近于零;是拥有灵巧手数据最多的企业。
-
全栈自研硬件体系:硬件自研率超95%,覆盖核心电机、驱动器、减速器到整机;灵巧手首创关节全直驱方案,已在物流分拣、工业精密操作等场景长期验证;人形机器人星动L7可完成物流作业、舞剑、360°旋转跳等高动态任务。
-
权威竞技成绩:2025年2月获Worldarena具身任务全球第一;2025年4月在Benjie's Olympics剥橘子、开锁、翻袜子三项全获全球第一,超越Physical Intelligence纪录。
-
行业首个PMF验证与规模化:与中国邮政、顺丰深度合作批量进驻10多个物流中心,2026Q2开启千台级批量交付(增速300%);部分恶劣环境下作业效率已超人类85%(达70%基准),实现24小时不间断运营。
-
全球化客户矩阵:合作方包括吉利、雷诺、海尔、联想、三星等,全球市值TOP10科技公司中9家为其客户;海外业务占比高达50%。
具身智能产业落地全景:从"GPT时刻"到"iPhone时刻"的路径预判
-
2026年是从"叙事驱动"转向"基本面驱动"的关键节点:行业焦点从"会不会动"变为"脑子好不好用",物流仓储与工业制造被视为最先规模化落地的两大B端场景「钛媒体AGI」
-
物流仓储场景核心数据:2026年中国智能仓储设备市场突破1800亿元,全球场内物流机器人市场2030年达3441亿元(CAGR 19.5%);超1000万装卸工存量市场驱动需求,但机器人ROI需4-5年回正,远超物流企业1年期望;单台硬件成本从小批量约30万元降至百台规模十几万元「钛媒体AGI」
-
场景迁移三阶段路径:第一阶段→仓储物流(结构化环境、任务明确、数据可复用);第二阶段→商超零售(物品类型与物流高度重叠);第三阶段→家庭服务(非结构化、开放环境、终极目标)。物流场景的战略价值不仅是商业入口,更是数据飞轮的启动器「钛媒体AGI」
| 阵营 | 代表企业 | 核心能力 |
|---|---|---|
| 大脑算法公司 | 千诀科技 | 软件赋能,2026H1接入设备超10万台 |
| 软硬一体全栈 | 智元机器人、星动纪元 | 端到端整合 |
| 硬件本体公司 | 宇树科技 | 运动控制与硬件制造 |
-
时间线预判:2026年末至2027年中迎来GPT-3级别技术突破;2028年技术路线初步收敛(VLA vs 世界模型);再经3-5年产品打磨,2031-2033年才可能迎来"iPhone时刻"商业爆发。"GPT时刻"是技术突破(能否做到),"iPhone时刻"是商业模式变革(能否盈利且不可替代),两者可能相隔5年以上「钛媒体AGI」
-
市场规模预测:摩根士丹利预计2050年人形机器人市场达5万亿美元、部署10亿台;中国2030年市场4000亿元,2035年破万亿;2026年中国人形机器人出货量预计6.25-10万台,但物流场景所有玩家合计出货量"将将破千"「钛媒体AGI」
具身智能企业估值全景:从数据公司到人形机器人
-
2026年4月估值全景更新:60家具身智能企业明确分化,第一梯队门槛升至100亿,50亿以下占比超60%,行业处早期筛选期,资本加速向已验证商业化路径企业集中。
-
估值分化极端加速:优必选~500亿元领跑,头部500亿与尾部5亿差距达100倍,自然意志等学术团队天使轮即获40亿超早期估值,顶级科研人才争夺激烈。
-
百亿以上估值企业明细:
| 企业 | 城市 | 核心业务 | 最新估值 |
|---|---|---|---|
| 优必选 | 深圳 | 人形机器人、AI技术、OS框架 | ~500亿元 |
| 群核科技 | 杭州 | 仿真训练平台、空间大模型 | 443亿港币 |
| 宇树科技 | 杭州 | 四足/人形机器人 | ~420亿元 |
| 银河通用 | 北京 | 具身大模型机器人 | 30亿美元 |
| 星海图 | 北京 | 基础模型、人形机器人 | 200亿元 |
| 千寻智能 | 北京 | 大模型、力控人形机器人 | 200亿元 |
| 智元机器人 | 上海 | 通用人形/四足、基座模型 | 150亿元 |
| 越疆机器人 | 深圳 | 人形/四足/六足仿生机器人 | 150亿元 |
| 非夕科技 | 上海 | 自适应机器人 | 130亿元 |
| 帕西尼感知 | - | 超级数据工厂,全模态感知实采 | 100亿元 |
| 乐聚机器人 | - | OpenLET 全身运控数据集 | 100亿元 |
| 苏度科技 | 上海 | 底层基础模型、3D世界模型 | 20亿美元 |
- 数据基建成新核心赛道:高质量数据被视为具身智能瓶颈资源,光轮智能(三层架构)、灵初智能(采集成本降至1/10)等数据层公司估值快速攀升。
- 五大技术路线明确分化:人形本体(优必选/宇树/智元)、具身大模型(银河通用/星海图)、灵巧手/触觉感知(帕西尼)、仿真与数据基建(群核/光轮)、商用特种场景(普渡/擎朗)。
- 城市集群马太效应:三城占全国90%+。深圳14家“八大金刚”;杭州“六小龙+四小狗”;北京以具身大模型公司为主(大脑路线);上海兼顾本体与基础模型。
- 数据技术演进趋势:Human-Centric范式成主流,采集设备自研化与工厂化量产普及,服务模式正从单一卖数据升级为全链路平台。
朗毅开源 Marathongo:全球首个人形机器人马拉松全栈导航系统
朗毅机器人开源 Marathongo,全球首个面向人形机器人的马拉松全栈导航系统,覆盖定位、感知、规划、控制、避障全链路。开源地址:https://github.com/landitbot/marathongo.git
- 市占率领先:朗毅导航系统在头部人形机器人厂商中占据约80%市占率,国内数十家厂商已采用
- 实战验证:2025年世界首届人形机器人运动会实现开幕式唯一全自主跑步,1500米比赛团队第三名
- 导航零失误:纯视觉自主导航方案完成100米、400米、1500米竞赛全程零失误
- 技术架构核心:GNSS+IMU+LiDAR多源融合定位,实现数十公里级室外全局定位稳定一致
- 感知与避障:视觉+激光双感知障碍检测,轻量化边缘部署,支持静态/动态障碍识别
人形机器人专属技术难题攻克
| 难题 | 技术挑战 |
|---|---|
| 双足运动晃动 | 传感器数据剧烈震荡 |
| 多自由度关节 | 非线性极强的控制难度 |
| 算力受限 | 定位/感知/规划/控制间高效分配 |
| 长距离奔跑 | 实时决策压力大 |
- 极限赛道验证:2026北京亦庄半程马拉松,21.0975公里全程融合10余种地形(平地/坡道/弯道/狭窄路段)
- 复杂弯道处理:赛道包含22个弯道(12左转+10右转),含接近90度弯道,为导航系统最严苛考验
- 生态卡位策略:80%市占率基础上开源,加速行业对朗毅技术栈依赖,形成事实标准,类比谷歌开源安卓逻辑
5.6 评测基准与评估范式
Benjie's Olympics:中国具身企业首登灵巧操作之巅
量子位(20260410) | AI科技评论(20260410) | 机器之心(20260410) | 具身智能之心(20260410) | Z Finance(20260410) | 机器人前瞻(20260410)
- 赛事定位与门槛:Benjie's Olympics由前Google专家发起,被《科学美国人》评为“物理智能终极压力测试”,全自主、零干预、真实物理环境,PI唯一主动参赛且使用闭源模型的赛事
- 三冠对比数据:
| 任务 | 难度 | 星动纪元 | PI (π*0.6) | 领先幅度 |
|---|---|---|---|---|
| 剥橘子 | 金牌 | 1分47秒(纯手) | 2分46秒(用工具) | 速度快35% |
| 开锁 | 金牌 | 49秒 | 66秒 | 速度快25% |
| 翻袜子 | 银牌 | 1分04秒(120样本) | 1分33秒(176样本) | 速度快30%,样本少32% |
- 纯手操作质变:剥橘子任务中,PI依赖削皮刀,星动纪元实现无工具纯手剥,标志VLA从“借助工具”到“类人灵巧操控”的跨越
- 三大技术突破:预训练知识迁移降低数据需求(120样本超越176样本)、自适应视觉注意力在晃动下识别毫米级目标、异步高频推理突破串行规划瓶颈
- 分频VLA架构:全球首发HiRT快慢分层架构(70亿参数世界模型+4000万执行模型),早于PI、Figure、谷歌、英伟达
- 世界模型融合:开源VPP框架(视频数据用于具身控制),与Stanford合作Ctrl-World(成功率提升44.7%),VLAW实现策略与世界模型双向闭环
- 全栈自研实力:95%核心部件自研,全球仅四家掌握全尺寸人形+五指灵巧手控制(星动纪元、Figure、特斯拉、英伟达)
- 关键里程碑:XBOT成首个登长城人形机器人,ERA-42已在物流、制造、商业服务落地,部分场景效率达人类水平70%
PRM-as-a-Judge:从二元成功率到过程级密集评测
中科院自动化所、北大、智源研究院联合提出 PRM-as-a-Judge 框架,将机器人操作评测从终局二元成功率转向基于轨迹视频的连续进度信号评估,实现过程级细粒度审计。
进度势能 Φ:为每个视觉状态分配 [0,1] 区间的任务条件化进度势能,将二元标签轨迹转化为连续进度曲线,保证时间加性与分段不变性
密集评测两大约束性质:
| 性质 | 含义 | 保证方式 |
|---|---|---|
| Macro-consistency | 评测结果不随轨迹分段方式漂移 | 势能差值结构自动保证 |
| Micro-resolution | 识别细粒度、任务相关的状态变化 | 需专门诊断基准检验 |
OPD 三层指标体系:Outcome 层(MC 里程碑覆盖率 + MP 最高进度值)、Process 层(PPL 推进效率)、Diagnosis 层(CRA 累计回退 + STR 停滞比),将执行过程重写为结构化、可诊断的行为信号
RoboPulse 基准(1800 个成对样本、1622 条轨迹、816 个任务):验证评估器的细粒度进度分辨能力,PRM judge 总体准确率达 0.83
模型性能对比:PRM judge 在 Small-hop 区间准确率达 0.80,显著优于 Gemini(0.54)和 GPT-5.2(0.47)
策略审计关键发现:相同"失败"标签可能对应 5% 到 99% 进度的截然不同物理执行;pi0 的 MC@75 为 40 而 OpenVLA-OFT 仅 6,传统成功率下不可区分;DP 高效低回退但 MC@100 仅 44,揭示"成功质量与总体可靠性是两个独立维度"
Failure fingerprint:不同策略家族呈现稳定失效指纹——OpenVLA-OFT 呈晚期回退模式(CRA=26.3),ACT 呈早期停滞模式(STR=65.4),为策略改进提供靶向方向
核心洞察:二元成功率是长程任务的信息瓶颈,许多策略并非"一开始就不会"而是集中失效于末段;评测应从终点裁决走向过程审计,成为理解机器人行为的基础设施
匿名模型登顶双榜:统一架构验证信号
- 匿名模型 MotuBrain 登顶双榜:以 WorldArena EWM Score 63.77 及 RoboTwin 2.0 随机环境均分 96.1 成绩,同时拿下两项国际基准第一
- WorldArena 运动预测能力全面领先:在 Motion Quality、Flow Score、Motion Smoothness 三个核心运动相关维度均居首位
- RoboTwin 2.0 展现系统级泛化能力:平均 96.0(第二名 92.3),50%任务成功率达 100%,90%任务超 90%
- 统一架构路线获验证:采用 World Action Model 范式,将"预测世界"与"驱动行动"统一建模,与 NVIDIA DreamZero 同类
- 匿名参赛折射大厂试探策略:本月新注册 X 账号无公司署名,类似阿里"欢乐马"先匿名后认领模式
- 具身智能转向工程问题:竞争焦点从单点能力转向统一架构,商业化窗口正在打开
具身行业四大气泡与拐点三标准
- 评分气泡:评测体系碎片化,不同机构维度差异大,部分整机厂商自建榜单;预设任务只考核复刻动作,不验证自主推理与环境泛化能力
- 技能气泡:舞台演示侧重运动控制(具身"小脑"),实际作业需要末端操作(具身"大脑"),后者要求多模态感知、亚毫米级定位和长程推理
- 样品与商业气泡:实验室演示经多次调试与剪辑优化,无法反映连续运行失败率;意向订单与确定性订单未区分,规模化工业应用仍在初期
- 拐点三标准:大脑模型自主推理能力突破 + 真实场景持续稳定运行 + 跑通 ROI 闭环,三者缺一不可
- 竞争范式迁移:资本最高估值企业(银河通用、星海图、自变量机器人)均以模型能力为首要壁垒,"AI 第一性、硬件第二性"成为核心共识
- 因果推理瓶颈:大模型在符号世界优异,但机器人停留在相关性学习,无法理解因果关系;数据分布偏移下性能急剧下降
- 因果推理三大挑战:时序因果发现(从连续数据识别因果方向)、非稳态因果学习(物理环境变化下提取稳定因果)、跨场景因果迁移(泛化到新任务)
- 原识之智:UCSD 助理教授黄碧薇创立,聚焦因果推理+具身智能;推出 Causal-Copilot 集成 20 余种因果算法,英诺基金领投、顺为跟投
5.7 企业治理与团队组织
融资狂潮与估值跃迁:头部格局与数据透视
机器人前瞻(20260331) | 量子位(20260402) | AI科技评论(20260406) | 具身智能之心(20260409) | 机器人前瞻(20260409) | 钛媒体AGI(20260410) | 具身智能之心(20260413) | 机器之心(20260415) | 机器人前瞻(20260415) | 钛媒体AGI(20260415) | 机器人前瞻(20260415) | 智东西(20260416) | 机器人前瞻(20260416) | 具身智能之心(20260416) | DeepTech深科技(20260416) | 机器人前瞻(20260417) | 机器人前瞻(20260417) | 量子位(20260417) | 具身智能之心(20260418) | 智能涌现(20260419) | 机器人前瞻(20260423)
| 年份 | 融资事件 | 融资总额 | 单笔10亿+ | 同比增长 |
|---|---|---|---|---|
| 2024年 | 103起 | 93.55亿元 | 1起(宇树科技) | - |
| 2025年 | 325起 | 398.32亿元 | 6起 | 事件+216%,金额+326% |
| 2026年Q1 | 210起 | 超300亿元 | 14起 | 单季已逼近2025全年 |
- 头部门槛跃升:灵心巧手、星海图跻身第一梯队;普渡成第15家百亿独角兽,获龙岗金控等领投近10亿融资。
- 顶配资本下注:千寻智能30天融资近20亿估值破百亿;自变量获四大厂投资,众擎2亿美元B轮由国资与立讯联合领投。
- 创纪录单轮融资:它石智航4.55亿美元Pre-A轮创国内最高纪录,发布原生具身大模型AWE 3.0,资本集体押注全栈大脑。
- 普渡全球领跑:商用服务机器人全球市占率23%居首,出货超12万台覆盖80余国,2025年营收同比翻倍且EBITDA接近转正。
- 一脑多形产品矩阵:含专用、类人形(D7)、人形(D9)及四足(D5),全栈自研核心软硬件及关节模组,持有专利超1800件。
- 创始团队与研发布局:普渡机器人由雷锋网创始人张涛创立,以深圳为总部,成都与香港协同研发。
- 地域与赛道特征:百亿企业聚集深京沪杭侧重各异;大脑/小脑占11家且人形占多数,上游零部件企业开始进入百亿序列。
- 模型与零部件双突破:极佳视界估值破百亿双榜夺冠;源升智能一年五轮,Apex Hand达21自由度与0.1mm误差。
- 开源与商业化提速:RoboParty开源获1.4K星刷新年龄下限;加速进化新签订单增超800%,预计2025年底实现月度现金流回正。
- 智驾人才系统性外流:理想沈亚楠、陈伟,蔚来肖中阳,小米刘方,华为周顺波等高管密集出走创立机器人公司。
- 能力迁移与窗口焦虑:环境感知等智驾核心能力可平移,大厂晋升收窄叠加焦虑,致使35%获融资企业为2025年成立。
- 核心悖论与行业乱象:融资越热人才离心力越强,如千寻智能技术负责人解浚源在融资期间离职;资本催生仅凭PPT融资乱象。
千挂科技:明星自动驾驶创业公司的系统性崩塌
- 融资与破产轨迹:天使轮估值8亿→Pre-A轮20亿,累计融资近4亿(IDG/顺丰/百度风投等),2024年10月破产清算
- 股权治理致命伤:IDG口头承诺CEO陶吉35%股份未做工商变更,丁飞代持大股东股份拥有一票否决权
- CEO出局始末:2022年底陶吉发起投票3:1:1要求丁飞退出管理,但IDG/顺丰支持丁飞,陶吉无股份无投票权被挤出
- 地域拆分引发割裂:2022年底广深设立后,两地技术路线/代码测试各自为政,从技术竞争演变为立场之争
- 扁平化管理异化:100名工程师直接向联创汇报,基层员工可凭代码审核权阻碍高阶工程师关键提交
- 核心教训:股权必须第一天落在纸面上;扁平化不是无层级而是减少不必要层级;核心团队未形成共识前拆分地域等于制造派系对立
达闼陨落:前车之鉴与行业反思
达闼兴衰与资本困局
- 估值峰值与终局:223亿元峰值,历经7轮融资,2024年初资金链断裂垮垮
- 股权致命伤:穿透67个股东中企业股东57个,国资LP居多,接盘断裂致资本循环崩溃
- 创始人出走:黄晓庆赴港重新创业,公司实质性瓦解
- 战略摇摆:幻想按流量收费而非卖硬件;2017年受阻后造保密手机填收入;2021年巅峰期PMO同时跑12个项目均承诺量产
- IPO连锁崩塌:2019年纽交所被实体清单阻断→获243亩土地十多亿优惠迁上海→赴港IPO因商业化进度不达标被暂缓
- 管理困局:UT斯达康式关系型管理+夫妻店CFO主导内部政治+层层汇报致决策瘫痪
技术判断未错死于资本结构
- 技术超前5年:云端大脑、智能关节、人形终局判断及关节千元以下,2024年获满堂彩
- 商业模式错配:通信背景创始人将中国移动运营商思维嫁接机器人行业失败
- 管理一言堂:技术路线独断,谢铮(优必选Walker台柱子)2022年加入发现无法改变路线,离职创办源络科技
三代创业者分野
- 代际跃迁:60后关系驱动型(黄晓庆等)→75后传统控制型(擎朗李通)→85后算法护城河型(王兴兴等)
- 模式升级:从单纯卖设备向软硬件一体化及算力服务演进
2026具身赛道历史重演风险
- 行业底层逻辑未变:达闼的融资驱动、产品线扩张、创始人独断及国资LP主导模式正在重演
| 达闼覆灭路径 | 2026赛道重演现状 |
|---|---|
| 融资驱动盲目扩张 | 多公司密集融资、产品线快速铺开 |
| 政府关系高度依赖 | 各地争抢落地名额,国资LP主导投资 |
| 创始人强势一言堂 | 核心技术路线由创始人完全独断 |
| 股权高度极度分散 | 多轮融资后股东穿透结构极其复杂 |
商业化确定性的终极门槛
- LP尽调逻辑:"下一个LP"与"上一个LP"诉求一致,只看真实订单、营收与确定性
- 星海图判断:核心衡量标准不是"量产1万台",而是谁能把0到1的"1"做好
- 核心指标:连续作业24小时、客户能算清ROI,商业化确定性是跨越周期的终极门槛
5.8 商业化落地与产品形态
AI原生商用清洁机器人:硬件作为Agent的"动作空间"
- 双自由度乘法模型:普渡提出"硬件自由度 × AI自由度"乘法关系,非加法,任一维度受限则整体能力被压制
- 硬件自由度:盘刷独立升降调压、外扩贴边突破盲区、前扫后洗作为AI可调度单元
- AI自由度:污渍分类+动态变量感知、毫秒级策略生成、持续学习进化
- AI Magic Cleaning闭环:感知→决策→执行→反馈→学习五阶段动态闭环,非线性流程
- 市场壁垒:全球23%商用服务机器人份额(弗若斯特沙利文2023),清洁营收占比超70%
- 范式转变:竞争从水箱续航参数转向场景理解+自主决策+持续进化的系统能力,硬件成为AI的"动作空间"
自然意志:清华系具身大脑新锐,天使轮40亿估值
- 公司概况:清华大学电子工程系助理教授丁宁创立「自然意志」,聚焦具身大脑方向,天使轮获IDG资本、峰瑞资本、真格基金投资,估值达40亿人民币,天使轮即达此估值在AI领域属罕见
| 阶段 | 院校/机构 | 关键信息 |
|---|---|---|
| 博士 | 清华大学计算机系 | 师从郑海涛、刘知远教授 |
| 博士后 | 清华大学电子工程系 | 合作导师周伯文教授 |
| 现职 | 清华大学电子工程系 | 助理教授、博导(2025年5月入职) |
- 学术履历:谷歌学术引用超7000次,GitHub开源成果超25000星标,Nature Machine Intelligence 2023年度最高引论文作者,获百度奖学金、Stanford全球前2%科学家荣誉
- 核心技术积累:大模型高效学习(Nature MI封面文章,引用超1000次)、OpenBMB核心贡献者、Ultra系列对齐方案(Implicit PRM、PRIME、TTRL等),顶会发表于ICLR、NeurIPS、ICML、ACL
- 赛道定位:具身大脑区别于具身整机,聚焦机器人"大脑"层面的智能决策与控制,反映赛道从整机集成向核心智能模块分化的趋势
首形科技:情绪计算驱动的仿生机器人融资与技术突破
- 首形科技完成数亿元A1轮融资,华控基金联合某互联网大厂领投,顺为资本(雷军)、亦庄国投等跟投;2024年6月成立至今已完成6轮融资,投资方涵盖蚂蚁集团、智元机器人及多支国资基金
- 核心产品为具身情感交互仿生机器人,自研多模态情绪感知引擎CharacterMind,将情绪转化为语音、面部表情、眼神交流和肢体动作多通道输出
- 仿生面部硬件突破:2026年1月在Science Robotics发表嘴唇运动学习研究,使机器人面部可覆盖多种未训练语言;产品矩阵涵盖Origin系列、精灵系列、机甲系列、摹生系列
- 创始人胡宇航1997年生,2025年获哥伦比亚大学博士学位,已在Science Robotics、Nature Machine Intelligence等顶刊发表论文;抖音账号"U航"粉丝194.5万,具备学术IP+公众IP双轮驱动效应
- 融资用于情绪基座模型迭代与全球市场拓展,将"情绪表达"而非"运动控制"作为核心能力,切入消费级情感交互市场
融资结构概览
| 投资方 | 角色 | 背景 |
|---|---|---|
| 华控基金 | 联合领投 | 硬科技投资机构 |
| 京东(疑似) | 联合领投 | 宿迁云邦持股2.4155% |
| 顺为资本 | 跟投 | 雷军旗下基金 |
| 蚂蚁集团/智元机器人 | 前轮投资 | 互联网大厂+机器人独角兽 |
- 首形科技完成数亿元A1轮融资:华控基金与某大厂领投,京东(宿迁云邦持股2.4155%)、顺为资本、亦庄国投等跟投
- 成立不到两年完成6轮融资:投资方涵盖蚂蚁集团、智元机器人及多支国资基金(亦庄国投/南山战新投)
- 创始人胡宇航(1997年生):哥大博士,发表Science Robotics、Nature Machine Intelligence等4篇顶刊
- 自研CharacterMind引擎:多模态情绪感知,将情绪转化为语音语调、面部表情、眼神、肢体动作
- 仿生面部技术突破:2026年1月Science Robotics发表嘴唇运动学习研究,可覆盖未训练语言
- 四大产品矩阵:Origin、精灵、机甲、摹生系列,融资用于情绪基座模型迭代与全球拓展
餐饮自动化:场景驱动的规模化部署与护城河构建
- 享刻智能融资进展:完成1.5亿元A轮融资(九号公司领投),累计融资近3亿元,LAVA厨房机器人已在海外启动百台级规模交付
- 享刻创始人与技术底座:陈震为连续创业者,天使投资人为王田苗教授;拥有60余项机械臂专利及180余项移动专利(九号加持),结合清华仿生灵巧手与18TB VLA大模型
- 享刻三阶段场景演进:第一阶段高温油炸已在海外百台级交付;第二阶段中餐翻炒、饮品研发推进中;第三阶段启动酒店等“千店改造计划”
- 享刻差异化路径:LAVA参数由炸炉边界(0.9米/5kg负载)反推;北美等海外用工短缺且市场庞大,海外收入已占约30%;采用大功率供电突破220℃实现“锅气”
- 人形机器人Nico:全球首个餐饮跨场景服务人形机器人,具备从后厨到前厅12类全链路服务能力
- 享刻核心洞察:通用能力需“从细分场景长出来”,先沉淀核心场景底层能力再向外扩展;餐饮诉求为消除人为波动,保证连锁门店出品一致
- 美膳狮团队背景:创始人郭庆为原美团S-team成员,联合创始人杨建成为前去哪儿网产品总监、前香格里拉集团CTO
- 美膳狮落地规模:智能炒菜机器人已落地超7000家门店,服务超2000个品牌,覆盖快餐、正餐、团餐三大场景
- 美膳狮商业化场景:快餐代表嘉和一品、米村拌饭;正餐代表金鼎轩、农耕记、小菜园;团餐代表京东旗下七鲜小厨
- 美膳狮核心技术指标:智能投料误差低于1%,自研AI菜谱生成系统包含近百万道中餐数字菜谱,全面覆盖八大菜系及非遗菜品
- 美膳狮差异化定价策略:产品单价介于7600元至110800元,面向不同规模与业态的餐饮商户进行分层定价
- 美膳狮竞争护城河:硬件易模仿,规模化部署积累的海量菜品数据与运营经验构成实质壁垒,菜谱库规模是长期胜负手
Somnia Lab:"关系型"具身智能与情感陪伴赛道
Somnia Lab 完成近千万美元天使轮融资,定位"具身交互界面"(Embodied Interface),从"建立关系"而非"替代劳动"切入具身智能,计划近期启动 Pre-A 轮。
- 轻量化全人形结构约 20kg:结合仿生材料与新一代运动控制算法,触感与动作接近真实人类体验
- 生成式情感交互模型:实现连续、非脚本化互动,从"执行指令"转向"理解与回应"
- 核心商业判断:消费级爆发力来自情感连接而非功能效率,关系建立后用户迁移成本远高于工具型产品
- 商业闭环逻辑:高频使用→情感沉淀→持续付费,延伸至 AI 订阅、内容与人格生态
产品路线三阶段
| 阶段 | 场景定位 | 核心能力 | 商业目标 |
|---|---|---|---|
| 第一阶段 | 卧室情绪锚点 | 晨间唤醒、睡前舒缓、深夜情绪安抚 | 高频情绪交互,建立信任绑定 |
| 第二阶段 | 全屋情感管家 | 跨空间情绪记忆延续,主动环境调节 | 从卧室扩展至客厅、书房 |
| 第三阶段 | 家庭AGI中枢 | Home Space Memory 预测式服务 | 自然语言统一交互,替代所有设备操作 |
- 高频打低频路径:卧室私密场景天然适合建立信任,再向全屋扩展,本质是"高频打低频"的战略选择
- 争夺下一代计算平台:交互界面演进为键盘鼠标→触屏App→语音助手→具身存在本身,机器人成为家庭智能系统统一入口
- 终局目标:构建万亿美元级具身情感生态,所有硬件、服务、内容都依附于这一接口层
欧拉万象(Ola Dimensions):华为天才少年周顺波的"开发者先行+数据飞轮"家庭机器人路线
- 华为"天才少年"周顺波2026年3月离职创立欧拉万象,聚焦家庭具身智能机器人,成立即获五源资本与高瓴创投数千万元种子轮融资
- 硬件形态与定位:首发"移动底盘+双机械臂",面向开发者/创客群体,配套工具链支持用户数据采集与技能学习部署
- "开发者先行+数据飞轮"战略:以开发者产品为起点积累家庭场景操作数据,用户教机器人技能的过程即为数据积累过程
- 战略判断:明确避开"开箱即用"全能型路线,选择"不那么聪明、但能快速学习和养成"的定位,首款产品是路径而非终点
- 团队背景:周顺波为华为云物理智能创新Lab首任负责人,主导CloudRobo研发,获IEEE RAL Honorary Mention Best Paper Award;联合创始人张靖曾任亚马逊AWS产品经理
微亿智造:冲刺港股"工业具身智能第一股"
- 市场份额领先:微亿智造2024年占中国具身智能工业机器人市场31%份额,居行业第一,2025年3月向港交所递交招股书
- 营收高速增长:2023-2025年营收从4.34亿元增至7.96亿元,年复合增长率35.4%;毛利率从42.4%提升至48.4%
- 核心产品爆发:EIIR具身智能机器人收入年复合增长99.3%,占比从26.3%飙升至57.0%,成为绝对增长引擎
- 盈利能力承压:2025年净利润仅0.05亿元,研发费用高达2.36亿元(占总收益29.6%),高研发投入制约短期盈利
- 知识产权壁垒:累计拥有超800项自主知识产权,AI视觉质检已在汽车等产线规模化部署
产品线收入结构(2023 vs 2025)
| 产品线 | 2023年收入 | 2025年收入 | 年复合增长 | 2025年占比 |
|---|---|---|---|---|
| EIIR具身智能机器人 | 1.14亿元 | 4.53亿元 | 99.3% | 57.0% |
| AI赋能智能化产品 | 2.03亿元 | 2.09亿元 | 1.5% | 26.3% |
| 模组类产品 | 0.96亿元 | 1.27亿元 | 15.0% | 16.0% |
从智能住宅到家庭机器人:沈亚楠的"空间→具身"演进路径
- 创始人背景:前理想汽车联合创始人兼总裁沈亚楠于2026年4月创立赫宇机器人,隶属于其2022年成立的智能住宅品牌「栖息地」体系
- 资本支撑:栖息地累计完成6.53亿元融资(Pre-A轮理想汽车领投、石头科技跟投),为赫宇提供资金与场景基础
- 空间→具身战略:栖息地L32智能住宅的AI Agent架构(管理空气/水/电/光四大系统)将升级为“具备物理形态的具身智能体”,共享同一套AI推理+居住行为融合框架
- 智能住宅是家庭机器人前置条件:栖息地提供家庭场景理解能力,机器人无需从零构建环境认知;模块化生产理念可直接迁移
- 汽车产业经验降维迁移:沈亚楠职业轨迹横跨联想供应链、理想汽车全链条管理、栖息地模块化生产,制造与品控经验可迁移至机器人领域
中科智云:物理AI赋能重型装备的工业具身智能落地路径
- 落地路径:不造人形机器人,赋予塔吊、行车等重型装备"感知-决策-执行"能力,直击物料转运共性痛点
- 核心数据:4台塔吊操作人员从12人降至1人,恶劣天气效率反升10%;港口堆取料机无人化效率提升15%
- SIM2REAL架构:搭建1:15微型设备高保真建模钢绳柔性连接、吊臂形变等物理现象,解决危险工况数据稀缺问题
- 隐私保护:培训设备采集非生产数据 + 激光雷达替代摄像头生成点云,规避视频信息采集
- "安全壳"机制:在强化学习控制算法外层包裹安全约束框架,实时监控指令防止"幻觉毛刺",感知低于阈值自主停机
- 多传感器融合:激光雷达、惯导、深度摄像头协同应对户外复杂环境,保障全流程自主化安全
- 由难到易通用化:先攻最复杂的露天塔吊场景,技术子集向下兼容行车等简单场景,实现跨场景通用
| 维度 | 传统方案 | 物理AI路径 |
|---|---|---|
| 场景策略 | 场景专属定制 | 先攻最复杂塔吊,子集向下兼容 |
| 人机关系 | 区域隔离禁止混行 | 开放环境人机混合自主作业 |
| 安全机制 | 硬编码规则防护 | "安全壳"约束不确定性输出 |
| 落地方式 | 新建全自动工厂 | 赋能现有装备提升生产力 |
轮式构型率先跑通工业场景:四大厂商落地数据与商业逻辑
- 轮式构型率先规模化落地:工业场景80%以上核心刚需(物料流转、柔性上下料、厂区巡检)由轮式机器人覆盖,场景适配优先于形态炫技
| 厂商 | 机型/路线 | 核心落地场景 | 关键数据 |
|---|---|---|---|
| 智元 | 精灵G2/远征A2-W | 3C精密制造(龙旗科技)、上汽通用、富临精工 | 单道工序节拍18秒,效率提升>20%,整线成功率>99.9% |
| 千寻智能 | 小墨(轮式) | 宁德时代中州基地 | 全球首条人形机器人规模化PACK产线,电池接插件插接 |
| 银河通用 | Galbot S1(轮式重载) | 宁德时代、博世、延锋国际 | 重载搬运,与延锋达成全流程具身智能改造 |
| 优艾智合 | 巡霄(轮式人形) | 半导体晶圆厂、电力巡检 | 80台集群部署,日均1.6万次搬运,对接精度<2mm |
- 头部厂商"大脑"技术路线分化:千寻(端到端VLA零样本泛化)、银河通用(大小脑一体化)、智元(快慢双系统+动作思维链)、优艾智合("一脑多态"MAIC控制系统,统一智能内核驱动差异化机器形态)
- 工业场景核心壁垒:数据飞轮(可标注、可量化的闭环数据环境)+ 行业Know-How(半导体制程洁净规范、汽车质量标准、电池安全规范)双重锁定,先行者优势随时间非线性放大
- 关键洞察:构型选择是商业化的第一性决策,轮式率先跑通非技术妥协而是精准响应工业需求;"一脑多态"比"一机多用"更具战略价值,本质在构建工业机器人操作系统层
6. 具身数据采集、部署基建与工程底座
6.1 数据采集与基建
具身智能数据采集范式与编译基建
智能涌现(20260330) | 具身智能之心(20260402) | AI科技评论(20260403) | DeepTech深科技(20260408) | 机器人前瞻(20260414) | 机器之心(20260415) | 具身智能之心(20260415) | 新智元(20260416) | 机器之心(20260416) | AI科技评论(20260416) | 量子位(20260416) | 机器人前瞻(20260416) | 具身智能之心(20260416) | Z Potentials(20260417) | 机器之心(20260417) | AI科技评论(20260417) | 甲子光年(20260417) | 具身智能之心(20260419) | 具身智能之心(20260420) | AI科技评论(20260422) | APPSO(20260426) | 硅星人Pro(20260427)
- 编译≠标注:标注是劳动密集型壁垒在人力管理,编译是技术驱动壁垒在管线算法与系统工程
| 数据类型 | 核心价值 | 适用阶段 |
|---|---|---|
| 互联网视频 | 广义语义与任务先验 | 大规模预训练 |
| 第一人称数据 | 时序交互与跨本体迁移 | 语义预训练+操作先验 |
| 遥操作示教 | 高质量动作示教 | 精细动作学习 |
| 仿真合成 | 扩展任务覆盖与扰动 | 边界场景补充 |
| 真机回流 | 最终校准与闭环 | 部署验证 |
层级架构与管线技术
- VTLA架构:视觉-触觉-语言-动作主干,触觉引入实现多模态毫秒级对齐
- 全链路处理:原生提取10余种模态(含形变场、六维力),云算力自动化标注与工程化闭环
| 层级 | 数据类型 | 核心角色 |
|---|---|---|
| 顶层 | 真机遥操 | 贴近部署验证(价值高但难以单独支撑规模化) |
| 中层 | 仿真数据 | 放大与扩展(可并行、可系统化展开任务分布) |
| 底层 | 互联网视频/人类第一视角 | 语义覆盖与交互先验(不依赖特定本体,分布最广) |
前沿数据编译管线 | 异构底座 | 多模态数据时空对齐 | 视觉30Hz与关节控制500Hz频率异步统一 | | 技能编译 | 连续轨迹切分为可训练样本 | 提取任务语义/动作边界/成功失败结果/接触事件 | | 语义检索 | 多维可查询数据索引 | 类SQL指令精准调取特定场景数据 | | 弹性交付 | 标准化数据产品封装 | S3云原生专线+物理阵列,应对数百TB级交付 |
采集硬件体系与同构部署
- 触觉价值:提供多维物理反馈,弥补视觉遮挡,实现精细力度控制与跨材质泛化
- 同构部署:系列硬件与特定机器人原生同构,采集与真机同源,模型无缝部署降低成本
| 产品 | 形态 | 核心能力与参数 | 同步精度 |
|---|---|---|---|
| MEgo Gripper | 480g轻量化夹爪 | 1mm轨迹重建、多维触觉、200°鱼眼、Wi-Fi 6 | 亚毫秒级 |
| MEgo View | 头戴式终端 | 300°全景+腕部特写双视角、1080P 60fps、电池快换 | 亚毫秒级+硬件触发 |
卡车-无人机协同配送:优先级时序约束下的三阶段启发式算法
- 校史性突破:深圳大学人工智能学院首次以第一作者/通讯作者和第一完成单位身份在 IEEE TRO(机器人学领域国际顶级期刊)发表论文,实现建校43年来里程碑式突破「CVer」
- 问题定义:研究带优先级时序约束的多卡车多无人机协同包裹配送任务分配,目标是在满足所有时序约束下最小化最晚服务时间
- 三阶段启发式算法:
阶段 算法 核心功能 第一阶段 扩展最小边际成本算法 生成满足时序约束的纯卡车路径 第二阶段 拆分算法+无人机续航检查 生成卡车-无人机混合路径 第三阶段 变邻域下降算法 仅对纯卡车路径扰动优化解质量 - 性能验证:相较于自适应大邻域搜索(ALNS)方法性能提升 7.2%,在解质量和计算效率上均占优
- 学术贡献:首次在卡车-无人机协同配送问题中系统性整合优先级时序约束,填补该领域研究空白
6.2 开源工具与平台
World Labs Spark 2.0:3D高斯溅射Web渲染引擎与空间智能技术栈
李飞飞创立的 World Labs 开源发布 Spark 2.0,基于 Three.js + WebGL2 的 3D 高斯溅射(3DGS)Web 渲染引擎,支持超 1 亿 splats 的流式渲染,兼容桌面/iOS/Android/VR 全平台,4000 万 splats 场景可在浏览器中完全交互。
核心技术栈:融合连续型 LoD、渐进式流式加载、GPU 虚拟内存三项技术,解决超大规模 3DGS 在 Web 端的性能瓶颈。
- 连续型 LoD 系统:摒弃离散型 LoD 的跳变伪影,构建层级化 LoD Gaussian Splat Tree,精准筛选当前视口最优 splats 子集
- LoD 树生成算法对比:
| 算法 | 特点 | 适用场景 |
|---|---|---|
| Tiny-LoD | 快速轻量 | Web 端实时生成(默认) |
| Bhatt-LoD | 高精度 | CLI 离线处理 |
- 无训练依赖:两种算法均无需参考图像,直接处理 3DGS 数据,同时兼容第三方算法如 NanoGS
- .RAD 文件格式:全新 Radiance Fields 格式,兼具压缩存储与随机访问能力,专为网络传输优化
- 渐进式流式加载:先以 64K splats 粗糙版本即时呈现,再根据用户视角动态优先加载可见区域数据块
- 空间邻近性优先:三维空间递归划分,每个数据块按“从大到小”顺序填充对应区域 splats
- GPU 虚拟内存管理:预分配固定内存池(1600 万 splats 容量),以 64K splats 为页单位构建页表映射,满载时 LRU 淘汰最低优先级内存页
- 多对象共享内存池:维护数据块↔内存页双向映射,多个 RAD 文件可共享同一 GPU 内存池,实现跨对象加载优化
- 3DGS 技术定位:用数百万半透明椭球体(splats)色彩融合呈现超写实细节,区别于传统纹理映射三角形
- 技术选型考量:选择 WebGL2 而非 WebGPU,因前者是目前唯一在几乎所有设备上稳定运行的 3D Web API
- 核心洞察:Spark 2.0 将操作系统级虚拟内存思想引入 Web 3D 渲染,实现从“全量加载”到“按需调度”的范式转换
开源生态与出海模式
- 矽递科技Reachy Mini引爆开发者生态:Hugging Face品牌,28cm/1.5kg,售价299美元起,5天销售额破100万美元,登CES展台
- 硬件平台化定位:矽递科技作为英伟达Jetson精英伙伴,提供主控、电机关节及开源套件,支持外接多类主控板
- 低可达性门槛是分水岭:开放性、扩展性和开发者生态比绝对低价更重要,双版本(无主控/无线版)并行
- Extend Robotics差异化出海:不做硬件本体,以VR遥操系统+3D场景压缩算法(压缩至1/100,延迟50ms)为中间件
- 客户结构清晰:35个付费订阅客户覆盖汽车(Paccar、Ford)、航空航天(Airbus)、核能等领域,近三年收入同比增长100%
- 订阅服务即数据来源:遥操过程自动采集边缘案例(卡住、光照突变等),数据带真实物理约束,形成“客户付费为其采数据”的正向循环
- 无人城配出海四战场:中东(资本驱动快速落地)、美国(通道基本关闭)、欧洲(深水区合规难)、东南亚(人力成本低)
- 中东为最成功战场:新石器获超6亿美金D轮融资,半年完成首张牌照到数百台车部署,计划2026年交付1万台
- 出海逻辑转变:从“卷低价复制国内”转向“找路权+绑伙伴+本地合规”,中东版需定制传感器、底盘和算法以适配高温环境
开源与出海商业模式对比
| 模式 | 核心做法 | 关键数据 | 优势 |
|---|---|---|---|
| 开源硬件平台 | 低门槛开发者套件+品牌联名 | 5天销售额破100万美元 | 开放性、扩展性强 |
| VR遥操中间件 | 软件订阅+数据闭环 | 35个付费客户,收入年增100% | 客户付费为其采数据 |
| 交钥匙服务 | 硬件选型+产线调试+合规认证 | 单项目100-200万元 | 客户18个月盈亏平衡 |
| 无人配送出海 | 找路权+本地合规+资本绑定 | 中东半年完成牌照到部署 | 绕开低价竞争 |
6.3 具身系统框架与平台基建
具身智能操作系统级框架与平台
AI科技评论(20260401) | 具身智能之心(20260407) | 具身智能之心(20260413) | AI科技评论(20260422) | 前沿在线(20260424) | 雷峰网(20260427)
| 任务特征 | 离散、确定、单轮 | 连续、动态、带噪声 | | 反馈机制 | 即时、确定 | 延迟、误差、状态变化 |
- 零代码平台是规模化关键基础设施:将感知、控制等能力从定制开发转为标准化调用,使机器人从项目制走向产品化
- 赵立晨离职成立拉格朗日具身技术:前华为最年轻天才少年(北航本硕、ACM-ICPC双金),2026年3月创业专攻物理世界Agentic OS
Agentic OS架构与真机部署实践
- Agentic OS核心定位:类比PC之Windows的物理世界软件中枢,专注硬件与上层应用间的中间件生态,不替代底层VLA
- 中山大学HCP实验室开源PhyAgentOS:四层模块化架构(感知、决策、规划、执行),将真机部署周期从数天压缩至数小时
- 六层Markdown协议取代VLA黑盒:涵盖任务DAG、场景图、抽象工作流、物理约束、历史经验与硬件参数
- 云端-边缘协同与闭环执行:云端LLM生成意图,边缘求解器转化轨迹;支持“观察-判断-动作-再观察”持续交互
- Genie Studio Agent全链路零代码:智元机器人发布覆盖模型到部署的平台,将数周调试压缩至小时级,编排仅需半小时
- 核心能力:支持感知控制节点拖拽编排、三维场景重建预演碰撞风险、真机强化学习闭环优化及集群数据可视化主动预警
- PipOS端云架构获电信创新奖:验证团队工程实力,AI智家宝项目将于2026年下半年大规模量产
工业场景落地验证
| 验证场景 | 核心挑战 | 关键指标 |
|---|---|---|
| 半导体Tray盘上下料 | ±10cm偏差容忍、高合规要求 | 成功率>99.999%,掉盘率<0.001%,MTBF>168h,配置变更10分钟生效 |
| 汽车安全带卷收器上料 | 高反金属感知难、定位误差<1mm | 成功率>99.9%,单次节拍<13秒 |
| 半导体晶圆搬运 | 高精度位姿要求、复杂路径导航 | 十余关键节点整合,稳定连续执行 |
| PhyAgentOS已支持平台 | 真机部署验证 | AgileX PIPER、Dobot Nova 2、Unitree Go2、Franka Research 3 |
LingBot-Map:流式3D重建的GCA注意力机制与近恒定内存长视频重建
核心机制:GCA(几何上下文注意力) GCA 借鉴 SLAM 思想,将空间规律内化到 Transformer 因果注意力中,用数据驱动替代手工几何约束,同时维护三类空间记忆:
| 记忆类型 | 核心功能 | 机制与特性 |
|---|---|---|
| 锚点 | 锁定坐标系原点防漂移 | 固定全局坐标和尺度,万帧后仍保持空间基准 |
| 位姿参考窗口 | 捕捉局部几何细节 | 限定 64 帧,保留最近帧密集高维特征 |
| 轨迹记忆 | 压缩历史路径 | 历史帧极致压缩为 6 个 Token + 时间戳 |
- 严格因果约束:仅依赖历史帧推理当前帧,无后处理、无未来帧依赖,所有能力端到端学习
- “有选择地遗忘”更优:64 帧窗口在精度和效率上双赢,证明核心是信息筛选质量而非保存量
性能与工程对比
| 指标 | GCA(64帧窗口) | 全历史帧缓存 |
|---|---|---|
| 推理速度 | 19.95 FPS | 3.12 FPS |
| 显存占用 | 13.28 GB | 36.06 GB |
| 序列扩展鲁棒性 | 320→3840帧,ATE 6.42→7.11 | 对比CUT3R:ATE 18.16→32.47 |
- 3D 点云重建 ETH3D F1 得分 98.98,比次优 Wint3R 高 22.7 个百分点
- 渐进式训练:视图从 24 帧线性递增至 320 帧,两阶段策略——先建基本几何先验,再引入 GCA 扩展视角并加 relative pose loss
- 推理优化:借鉴 LLM 的分页 KV 缓存 + FlashInfer 稀疏注意力,相比 PyTorch 基线提速近一倍
技术生态定位:补齐蚂蚁灵波“感知-建模-模拟-控制”全链路最后一块拼图,与 LingBot-Depth(深度感知)、LingBot-World(世界模型)、LingBot-VLA(通用大脑)构成全栈开源路径,支持机器人长时间自主导航与巡检。
原力灵机「具身原生」范式:三维技术支柱与开源产品矩阵
- 具身原生(Embodied Native):区别于「在机器人上运行大模型」的简单叠加思路,要求智能的形成机制本身与物理交互不可分割,是范式升维而非技术改良「前沿在线」
- 三大技术支柱:数据原生(从物理世界采集构建数据,非依赖互联网文本)、训练原生(训练过程与物理约束对齐)、架构原生(模型架构为物理交互场景设计),三者深度融合构成技术底座「前沿在线」
- 全栈基础设施七层支撑:数据层→训练层→推理层→模型层→硬件层→评测层→应用层,基础设施完善程度直接决定算法迭代速度,迭代效率而非模型参数规模是核心竞争壁垒「前沿在线」
| 产品 | 定位 | 核心价值 |
|---|---|---|
| DM0 | 具身原生大模型 | 基础模型能力底座 |
| Dexbotic 2.0 | 具身原生框架 | 升级版开发与部署框架 |
| DFOL | 量产工作流 | 从研发到量产的工程化闭环 |
- 三款产品均走开源开放路线,目标推动底层技术突破、与行业生态共建全球智能协同创新体系「前沿在线」
- 创始人背景:唐文斌为旷视科技联合创始人,2024年创立原力灵机专注具身智能赛道
6.4 VLA开源工具与工程底座
FluxVLA Engine:首个VLA全链路工程底座
逐际动力开源 FluxVLA Engine,定位为首个打通数据-训练-仿真-真机部署全链路的标准化 VLA 工程底座。
行业瓶颈转移
- 算法已非瓶颈:Robochallenge 平均成功率从 28.33% 升至 62.00%,部分单项达 100%
- 真机落地受阻:Physical Intelligence 等已收敛模型,聚焦打螺丝、装配等具体场景迭代
- 核心痛点:缺乏标准底座,单点创新难复用,开发者大量时间消耗在环境配置与格式转换
VLA 落地关键瓶颈
| 瓶颈维度 | 具体表现 | 核心影响 |
|---|---|---|
| 数据层 | 格式乱序,来回转换 | 实验效率低 |
| 模型层 | 网络结构与接口不统一 | 模块不可互换 |
| 评测层 | 标准不统一,各自为战 | 无法公平对比 |
| 部署层 | 代码环境相互隔离 | 算法验证断裂 |
架构设计与生态
- 设计哲学:不发明模型而是构建流水线,单一配置文件管理全流程
- 积木式架构:视觉编码器、Tokenizer、VLM、Action Head、部署 Runner 均可独立替换
- 模型支持:VLM/VLA 覆盖 Qwen、LLaMA、DreamZero 等主流基座
- 学习策略:Policy 学习支持 Flow Matching、Diffusion Transformer
- 仿真接入:兼容 Isaac Sim、LIBERO 等主流仿真框架
- 硬件适配:支持 UR 单臂、ALOHA 双臂、TRON 2 多形态机器人本体
真机部署优化
- 推理加速 + RTC:Real-Time Chunking 解决高频推理下动作不连续、硬件抖动问题
- 轨迹连续性:通过轨迹连续性优化弥合训练表现与真机表现的差距
关键洞察
- 竞争本质:VLA 领域核心瓶颈已从“算法天花板”转向“工程地板”
- 标准话语权:基础设施的竞争本质是标准制定权的竞争——谁定义了数据格式、模块接口、评测标准,谁就掌握生态话语权
StarVLA:统一VLM与世界模型的开源研发平台
- 双向模块化设计:Backbone 与动作头独立可替换,支持 Qwen 系列、InternVL、Cosmos 等无缝切换,内置四种主流动作解码器
- Backbone 跨范式兼容:从 Qwen3-VL-4B 替换为 Cosmos-Predict2-2B,LIBERO 平均分稳定在 95.2% 以上,证明 VLM 与世界模型在统一框架下高度可互换
- LIBERO 基准性能:130 项任务中 OFT 成功率 96.6%、GR00T 96.5%,仅需 30K 步收敛,数据效率提升 6 倍以上
- 跨基准联合训练:单模型联合训练 LIBERO、SimplerEnv、RoboCasa-GR1、RoboTwin 2.0 四个基准,RoboCasa-GR1 成功率从 48.9% 提升至 57.3%
- 多目标协同训练:交替执行 VLA 动作前向与 VLM 语言建模前向,通过 loss_scale 动态平衡,在 WidowX 与 Google Robot 上带来 4%~10% 成功率增益,有效缓解主干网络灾难性遗忘
- 分布式训练效率:256 卡多节点并行效率稳定在 79%~80%,8×A100 单节点 GPU 利用率达 92%
- Sim2Real 零修改部署:Server-Client 解耦评测架构,模型侧仅暴露 predict_action() 接口,真实机器人部署仅需将控制器替换为 Client
四种动作解码范式对比
| 解码范式 | 核心机制 | 适用场景 |
|---|---|---|
| 离散 token 自回归 | 依托大模型逐段输出动作指令 | 通用操控任务 |
| 轻量并行回归 | 简单网络直接输出连续动作 | 速度与稳定性兼顾 |
| 流匹配去噪 | 迭代去噪生成精细动作轨迹 | 高精度灵巧操控 |
| 双系统推理 | 快慢双系统结合推理与反应 | 复杂多步规划任务 |
核心洞察:VLM 与世界模型并非对立范式,而是同一框架下辅助损失的不同选择;Backbone-动作头解耦的乐高式架构将成为机器人基础模型的标准范式。
6.5 数据采集硬件、模态与感知设备
多模态遥操与穿戴式数据采集系统
AI科技评论(20260330) | 机器之心(20260413) | 机器之心(20260418) | DeepTech深科技(20260419) | 具身智能之心(20260420)
低成本数采与感知突破
| 模块 | 核心优势 | 关键数据/规格 |
|---|---|---|
| CoinFT传感器 | 软件补偿硬件精度不足 | 成本10美元,误差0.15-0.58N,重2g |
| ChiroSync套件 | 真人真机双驱动采集 | 成本低于6万元(降幅超90%),集成视觉触觉听觉 |
| 双路径数采架构 | 兼顾数据质量与规模 | 遥操保真度99%,UMI路径保规模,类人示范采集 |
| 五层神经网络 | 电容映射为六维力/力矩 | 降低高精传感器成本,填补力觉规模化采集空白 |
- 第一视角范式:以人为中心的采集解耦本体,数据独立于硬件实现跨构型适配,打破头部团队千万级实验室垄断。
- VTLA四模态架构:在VLA基础上原生加入力触觉,统一编码多视角RGB-D、语言、关节状态与力数据端到端输出。
- 实测验证:VTLA在汽车产线连续1000次装配成功率达99.4%(较纯视觉模型提升19.4%),工业泛化率从25%提升。
高自由度全模态数据商品化
| 维度 | 帕西尼采集规格/数据 | 多源数采参数 |
|---|---|---|
| 感知模态 | 15种触觉感知,82 DOF | RGB/深度(iPhone)、六维力/力矩(CoinFT 360Hz) |
| 硬件指标 | 30个六维模组,3015个触觉点 | 姿态数据(IMU 10-60Hz),42g手套集成 |
| 同步与效率 | 同步延迟<5ms,效率为传统3-6倍 | 遥操噪声<1%,五大超级工厂支撑百亿级产出 |
- 全模态闭环系统(PMEC):结合穿戴设备、空间视觉矩阵与神经织网,同步采集全维度数据并对刚柔、反光物体多维度随机化。
- 跨本体迁移:体感重定向技术将数据解耦为通用运动表征,兼容开源框架,触觉操作与VLA策略平均成功率验证超80%。
- 数据商品化:推出百亿级全模态具身数据云商城,获A级质量认证,100+ SKU覆盖15大领域,交付周期压缩至分钟级。
- 核心洞察:高质量实采触觉数据成泛化稀缺资源,商品化标志数据向标准化工业资源转变,跨本体迁移是平台商业模式前提。
仿生触觉感知与新型传感器件
- 柔性纤维传感器:传统三明治结构解构为纤维化三层,折叠半径<0.1mm,任意揉搓不损性能,材料成本不到1美元,厚度仅1mm「量子位」
- 四层传感皮肤架构:导电层(分辨材质)→反射层(单向镜面)→荧光层(标记变形)→支撑层(硅胶充气调节),灵感源自鸽子视觉「Nature Sensors」
- 多光谱分层策略:紫外线追踪变形滑动,近红外捕捉纹理,中红外测量温度,突破传统视触觉传感器仅限可见光瓶颈
- 十维极致感知:同时感知力、温度、纹理、滑动、材质等10种信息,灵敏度超人类,温度精度0.25°C,纹理识别率98%
- 多维精度指标:力觉0.06N/位置0.4mm,非接触0-15cm,振动0-60Hz/碰撞检测94%,盲文与材质识别达100%和95%
- DOVE触觉大模型:85亿参数,将多模态触觉信号转化为自然语言推理,用于判断物体异同及医疗病灶、垃圾与瑕疵检测
- 触觉系行业痛点:毫秒级触觉反馈与动态力控制闭环是人形机器人最薄弱环节,马斯克判断其为Optimus最大难题「量子位」
- 应用场景矩阵:灵巧手动态握力与气流感知,人机交互碰撞与拍肩回应,医疗无感透气心电图,脑机接口假肢感知重建「量子位」
- 系统集成生态:数十家人形机器人企业已集成至NVIDIA Isaac Sim与MuJoCo仿真平台「量子位」
- 耐久性与局限:8万次反复接触信号稳定;当前尺寸偏大仅适于手掌,团队正推进小型化以适配指尖「Nature Sensors」
- 融资与商业化:2025年9月连获数千万元融资(华创、复星、天鹰),前小米生态链CTO创办,已孵化无界智航,布局医疗与汽车「量子位」
高频动作捕捉
- 技术突破:厦大+上科大提出 FlashCap,首个基于频闪LED与事件相机的 1000Hz 人体动作捕捉系统,已被 CVPR 2026 接收
- 核心机制:在骨骼节点佩戴微型LED,以 4000Hz 闪烁并利用独特亮暗配比作为身份编码,事件相机异步捕获明暗变化并解析出原生 1000Hz 2D姿态
- 动静融合架构:配套 ResPose 模型,RGB分支提供全局结构锚点,Event分支用混合SNN-CNN编码器截取微秒级运动残差
- 精度对比:MPJPE 较传统插值方案降低约 40%,精准动作计时误差压缩至 4.8ms(传统RGB方案 >50ms)
- 成本优势:传统工业级高速相机单台超4.5万美元(事件相机的9倍),且须强光环境;本方案为低成本穿戴式
- 开源资源:发布 FlashMotion 数据集,包含 715万帧标注数据(240个序列、20名受试者、11类快速动作)
| 模态 | 说明 |
|---|---|
| 事件流 | 异步微秒级明暗变化 |
| RGB | 全局结构锚点 |
| LiDAR | 空间点云信息 |
| IMU | 惯性传感器数据 |
7. 评测基准与具身数据生态
7.1 具身感知与3D/多模态表征
触觉感知与多模态融合表征
量子位(20260404) | 具身智能之心(20260405) | PaperWeekly(20260406) | 机器之心(20260401) | 极市平台(20260408) | 新智元(20260414)
|---------|-------------------|------------------------------------------| | 早期 | VT Dataset | 受控抓取扩展至野外无约束场景 | | 语义桥接 | PhysiCLEAR | 支持开放式触觉常识推理 | | 终极形态 | Touch100k | 超10万触觉-视觉-语言三模态对齐样本 | | 扩展融合 | ObjectFolder | 引入撞击音频与动作序列 | | 一阶多模态 | EgoTouch | 超200万帧,涵盖300+任务与1000+物品 |
- EgoTouch同步采集:同步一阶双腕视角视频、双掌全分辨率压力及42个关节位姿。
- TouchAnything模型:基于DINOv2与跨视角交叉注意力,三视角联合输入显著优于单视角。
- 触觉推理与泛化:仅凭一阶视频即可预测触觉分布,在未见物体上泛化性能持续提升。
- 多视角增益量化:三视角较单视角Contact_IoU提升15.4%、Volumetric_IoU提升14.2%。
Hand2World交互范式
| 评估指标 | 基线最优 | Hand2World | 性能变化 |
|---|---|---|---|
| FVD | 908 | 218 | 降幅 76% |
| DINO语义相似度 | 0.80 | 0.88 | +0.08 |
| 相机轨迹误差 | 0.12 | 0.07 | 降低 42% |
- Hand2World新范式:凭手势生成一阶视频并触发物体物理响应,支持闭环持续交互。
- 3D替代2D:用MANO恢复3D手部mesh投影渲染,彻底消除遮挡导致的分布偏移。
- 运动解耦机制:Plücker射线逐像素编码相机运动,移除后FVD从218飙升至815。
- 闭环自回归生成:将双向扩散模型蒸馏为因果生成器,单卡A100推理达8.9 FPS。
硬件生态与核心挑战
- 四类核心硬件:可穿戴系统、手持传感器、机器皮肤、夹爪集成传感器。
- 四大发展瓶颈:数据碎片化、模态时空不对齐、软硬件集成壁垒、评估基准缺失。
深度原生融合:VLM的三维感知突破
- 核心突破:SpatialPoint 框架首次将结构化深度信息作为 VLM 核心输入,实现端到端的相机坐标系 3D 点预测
- 感知精度对比:实点深度预测误差 17.2mm,较纯 RGB 模型的 574.8mm 降低 30 倍以上
- 定位性能:虚点方向正确率达 50.71%(现有方法仅 8.04%),5cm 内定位准确率 33.47%
| 对比维度 | SpatialPoint | 传统纯 RGB 模型 |
|---|---|---|
| 实点深度误差 | 17.2mm | 574.8mm |
| 虚点方向正确率 | 50.71% | 8.04% |
| 5cm内定位准确率 | 33.47% | - |
技术架构要点
- 深度专用编码:单通道深度图转 3 通道复用 RGB 主干,生成空间对齐的深度 token
- 两阶段训练:先 10 倍学习率适配深度模态,再全模型联合微调实现三模态协同
- 统一因果推理:深度 token 与 RGB、语言 token 组成统一因果序列,推理中相互引导
- 结构化 3D 输出:语言建模头直接生成 (u,v,Z) 格式坐标(像素坐标+毫米级深度)
解决的核心问题
- RGB 度量缺失:单目 RGB 缺乏显式几何信息,跨场景泛化能力差
- 输出执行断层:传统 VLM 输出 2D 框需复杂后处理才能转为机器人执行指令
- 实虚点割裂:现有模型无法统一预测表面附着点与自由空间点
零样本泛化能力:基于 Qwen3-VL,无需微调即可泛化到真实机器人的抓取、放置、导航任务,统一接口完成三种操作
影石 AirSim360:全景仿真平台与空间智能技术栈闭环
- DiT360架构创新:Diffusion Transformer混合训练,海量2D图补充稀缺全景数据
- DiT360几何一致性:引入旋转一致性和畸变感知约束,解决首尾相连几何问题
- 硬件在环仿真:AirSim360直接接入真实飞控板,虚拟环境零成本试错
- 纯视觉路线对标FSD:Data Scaling Law逻辑,数据足够大时纯视觉覆盖绝大部分场景
- 极端场景兜底方案:透明玻璃/纯白墙面等纯视觉失效时,配ToF传感器做动态权重补充
蚂蚁灵波LingBot-Map
- 单RGB摄像头20FPS流式3D重建:连续万帧精度几乎不衰减,获SLAM泰斗Andrew Davison公开点赞
- Oxford Spires轨迹误差6.42米:第二名18.16米,精度甚至超过离线和传统优化方法
- ETH3D重建F1达98.98:较第二名77.28提升超21个百分点;内存增长压缩约80倍
GCA几何上下文注意力机制
| 记忆层级 | 功能 | 实现 |
|---|---|---|
| 锚点 | 锁死坐标系和尺度 | 前几帧全程不遗忘 |
| 位姿参考窗口 | 密集几何细节 | 最近数十帧完整信息 |
| 轨迹记忆 | 压缩历史路径 | 每帧仅6个摘要Token |
- 万帧视频Token消耗:标准因果注意力约500万,GCA仅约7万,效率提升约70倍
- 长序列精度稳定:320帧→3840帧,ATE仅从6.42升至7.11
- 两阶段训练:第一阶段29个混合数据集训练基础模型,第二阶段GCA将视图24→320逐步拉长
开源生态
- 影石开源战略:全景赛道体量有限(市占率66%),“不开源就只有自己玩”,目标让学界业界反哺应用场景
- 蚂蚁灵波三个月开源五款模型:Depth/Map/World/VLA/VA,全部Apache 2.0协议
- LingBot-Depth透明储物盒抓握率50%:已通过奥比中光深度视觉实验室认证
- 影石终局产品定位:完全自主的跟拍摄影师,自主看懂空间、避障、构图、电影感运镜
SpaceDrive:统一3D空间接口让VLM真正理解自动驾驶场景
奔驰联合图宾根大学提出 SpaceDrive(CVPR 2026),核心贡献是统一 3D positional encoding 接口,让视觉、文本和规划输出共享同一套空间表示域,解决 VLM 将三维坐标当作离散数字 token 逐位生成的根本缺陷。
空间表征缺陷
- 数字 token 无空间语义:"3.82"被视作离散符号"3"."8""2",而非"前右侧 3.82 米"
- 离散生成不适合连续坐标:轨迹是连续几何量,语言模型输出本质是分类任务
- 空间接口错误时语义能力无法转化为驾驶能力:基线模型闭环成功率低于 10%
三端协同 3D PE 架构
- 视觉侧:冻结深度估计器预测绝对深度,将 patch 中心投影至 3D 空间,经 3D sine-cosine PE 编码
- 文本侧:扫描坐标表达并用同一 PE encoder 转为空间 token
- 输出侧:从语言解码切换为 PE decoder 直接回归连续坐标
- 引入可学习归一化系数 α:避免 PE 注入打乱预训练 VLM 的 token norm 分布
实验结果
| 指标 | SpaceDrive | 基线方法 |
|---|---|---|
| nuScenes 开环 L2 误差 | 0.32m | 0.50m |
| Bench2Drive 闭环成功率 | 55.11% | <10% |
核心洞察
- 空间是一等公民,非语义附属;仅单侧注入空间编码无效,视觉与文本必须同域交互
- 接口设计比模型规模更关键:LoRA rank 16(10.09M 参数)已达最优
- 无需显式 dense BEV features,通过统一空间接口即可实现强驾驶性能
理想汽车 StreamingClaw:流式视频理解与具身 Agent 统一框架
理想汽车发布 StreamingClaw,将流式视频理解与具身智能统一在同一 Agent 架构下,与 OpenClaw 完全兼容。核心突破是增量计算替代离线处理——将环境细微变化视为增量信号推理,避免重复计算历史画面,实现毫秒级感知-决策-执行闭环。
架构设计与技术原理
- 增量推理机制:视频流拆分为细粒度片段,动态滑动窗口控制上下文,流式 KV-Cache 剪枝避免延迟堆积
- 自规划调度:动态解析用户指令,自主规划任务路径,按需调用层级化记忆或触发主动交互
多代理协同机制
- StreamingReasoning(主代理):实时感知与规划核心,处理流式多模态推理
- StreamingMemory(从代理):以视觉为核心的多模态向量存储,层级记忆演化支持长效检索
- StreamingProactivity(从代理):面向未来事件预测与主动交互
对比传统方案优势
| 维度 | 传统视频Agent | StreamingClaw |
|---|---|---|
| 处理模式 | 离线文件,重复计算全画面 | 增量计算,仅处理变化信号 |
| 长时程追踪 | 频繁遗忘,决策割裂 | 层级记忆演化,持续追踪 |
| 交互模式 | 被动响应 | 主动风险感知与预警 |
| 延迟特性 | 随时长累积 | 毫秒级闭环,无延迟堆积 |
主动交互与局限
- 主动风险感知:自主检测环境风险(驾驶员哈欠、玩手机等),支持免训练适配与训练适配两种路径
- 当前局限:以视觉+文本为核心输入,对音频、精细时序对齐及跨模态联合推理支持有限
- 关键洞察:流式推理使具身 AI 从“看完再想”转向“边看边想边做”,主-从协同为多形态硬件提供统一框架
VEGA-3D:生成式先验释放3D空间认知
- 核心发现:视频生成模型内部蕴含强3D空间先验,Wan2.1多视角一致性达97%,远超传统判别式模型「极市平台」
- 技术架构:冻结视频扩散模型提取中间去噪层特征,Token级自适应门控融合语义与空间先验
- 下游提升:ScanRefer定位Acc@0.5提升至56.2,LIBERO长视野任务成功率97.3%
- 范式意义:生成能力即空间理解证明,无需额外3D标注即可释放物理先验,为具身智能提供低成本空间感知基础设施
帕西尼:霍尔效应触觉传感器→全栈具身智能生态
- 公司概况:2021年成立,2025年完成4轮融资,2026年3月B轮超10亿元,跻身具身智能百亿俱乐部,成为全球具身感知领域估值最高企业「钛媒体AGI」
- 技术路线选择:在实验室试遍霍尔、视触觉、电容、压阻等所有路线后,确认霍尔效应在快速响应、成本可控、高一致性三维度综合最优;通过自研复合封装技术和磁-力学融合算法解决磁场干扰难题
- 全链路技术栈:自研专用霍尔芯片(信噪比/线性度/温漂优化)→传感器结构设计→磁学力学解算与补偿算法→高速信号处理系统
- 价格颠覆:触觉传感器定价199元,将行业价格从1000-5000元区间击穿至十分之一,迫使视触觉传感器从5000元降至2000元
- 数据工厂模式:5个超级数据工厂(天津、宿迁、自贡、武汉、赣州)全部采用第四代PMEC设备,年产100亿条触觉数据,以数据规模和质量构建竞争壁垒
- 全栈生态布局:传感器→灵巧手→人形本体→数采设备→数据集→具身大脑(OmniVTLA模型),传感器投入公司一半以上研发资源,数据采集设备与算法定位长期最重要的"经验基础设施"「钛媒体AGI」
- 产业资本股东:比亚迪、京东、上汽、北汽、TCL、商汤等全产业链企业;比亚迪花一年做完整技术验证后投资
7.2 评测基准、数据集与具身Agent框架
前沿框架与社区进展
具身智能之心(20260401) | 甲子光年(20260401) | 具身智能之心(20260403) | 机器人前瞻(20260403) | 智东西(20260403)
- Gen-1 模型性能突破:Generalist AI 发布具身基础模型 GEN-1,任务平均成功率从 64% 提升至 99%,执行速度达上代 3 倍,仅需 1 小时机器人数据即可适配新任务
- Gen-1 核心指标跨越:折叠纸盒耗时从 34 秒压缩至 12 秒,连续折叠 86 件 T 恤无需干预,预训练数据达 50 万小时(非机器人数据,源自可穿戴设备)
- Gen-1 三维精通标准:首次提出可靠性(99% 成功率)、速度(比 SOTA 快 3 倍)、即兴智能(意外情境自主恢复)三维量化标准,跨越商业可行性临界点
- GEN-0 与 GEN-1 对比:预训练数据从 27 万增至 50 万小时;扫地机器人维护成功率从 50% 升至 99%;手机装盒成功率从 62% 升至 99%
- 真机评测取代仿真:EAIDC 2026 首次系统性搭建真机评测体系,上百条机械臂同时运行,所有任务在真实物理环境中完成闭环
- 评测核心挑战数据:环套柱子任务成功率从 20-30% 提升至 60-70%;拼写单词任务从极低提升至 40-50%;产学研割裂导致三方协同不足
- 混合数据新范式:智象未来与诺亦腾首创"真实采集+生成式扩展"混合范式,通过生成式模型将种子数据百倍放大,预计年内产出数万小时训练数据
- 李飞飞数据三层金字塔:顶层(真实机器人数据,精度高成本陡)、中层(仿真合成数据,规模大真实性存疑)、底层(网络数据,易获取差距大)
- 前沿开源框架进展:RoboClaw 统一数据采集与任务执行闭环;Evo-RL 开源真机 offline RL 流程;Fast-WAM 系统性解耦世界动作模型能力来源
具身多模态数据集与物理仿真评测基准全景
- PhysInOne 视觉物理数据集:含200万段多视角视频与15.3万个动态3D场景,覆盖71种基础现象与3284种复合活动。
- 物理仿真引擎协同:横跨力学、光学、流体、磁学四领域,通过多引擎协作确保动力学严格遵循物理定律。
- 物理仿真引擎分工:UE5 Chaos负责刚体/碰撞/破碎/磁光;Taichi负责弹塑性(MPM);Doriflow负责流体与颗粒(SPH)。
- 3D交互资产库:含2231个多形态物体、623种物理材质及528个室内外场景,标注密度、摩擦等关键物理参数。
- 四层级标注体系:几何(实例/3D框/深度)→运动(6-DoF/速度/冲量)→物理属性(质量/弹性)→文本(场景/事件描述)。
- 多视角采集规格:12固定半球视角+1动态相机,1120×1120@30FPS,帧级精准对齐输出RGB/深度/位姿等多模态数据。
- PMF物理评估指标:基于傅里叶运动特征衡量视频生成合理性,填补FID/FVD等传统指标无法度量物理合理性的空白。
- 现有模型核心瓶颈:SVD等模型在PhysInOne微调后物理合理性改善,但跨视角泛化仍是当前视频生成的主要瓶颈。
- 具身多模态数据集:涵盖VLA决策、协作交互与触视言对齐等五大主流数据集,规模跨度从4.3万组至1万小时不等。
- 具身数据集核心参数:Vlaser-6M(600万样本支撑VLA)、RH20T(40TB含高保真触觉)、10KhRealOmni(1万小时无本体数据)。
- 具身数据集特性对比:HoloAssist(指导者-执行者协作)、TVL(触-视-言对齐)、10KhRealOmni(覆盖10大家庭场景与30项技能)。
- 触觉采集与标注:RH20T提供200Hz指尖触觉,TVL结合DIGIT传感器与GPT-4V实现触-视-言自动化描述与对齐。
- 物理数据生成洞察:物理感知AI的瓶颈在于缺乏高质量标注,多引擎协同仿真与无本体设计是规模化生成的必然路径。
- 具身智能演进洞察:多模态数据成熟度差异显著,触觉等物理信号的引入标志着具身智能正向多模态物理感知演进。
华为天才少年具身智能创业图谱:8位入选者投身机器人赛道
- 人才迁徙现象:华为“天才少年”计划(2019年启动,最高年薪201万)已有至少8位入选者投身具身智能创业,核心能力聚焦具身大模型与AI感知决策
| 人物 | 入选年份 | 华为部门 | 创业公司 | 角色 |
|---|---|---|---|---|
| 稚晖君 | 2020 | 昇腾 | 智元机器人 | 联合创始人/CTO |
| 李银川 | 2020 | 诺亚方舟实验室 | 诺因智能 | 创始人 |
| 丁文超 | 2020 | 车BU | 它石智航 | 首席科学家 |
| 黄青虬 | 2020 | 车BU | 墨奇智能 | CTO |
| 周顺波 | 2021 | 华为云 | 欧拉万象 | 创始人 |
| 周凯文 | 2022 | 诺亚方舟实验室 | 诺因智能 | 合伙人 |
- 头部项目进展:智元机器人估值超150亿元,第10000台人形机器人量产下线;它石智航半年融资超2.4亿美元;诺因智能半年三轮融资估值超20亿元
- 欧拉万象(Ola Dimensions):周顺波2026年3月创立,聚焦家庭具身智能机器人,获五源资本与高瓴创投数千万元种子轮融资
- 产品形态与定位:首款产品采用“移动底盘+双机械臂”形态,面向开发者与创客,配套工具链支持数据采集与技能学习
- 数据飞轮战略:以开发者生态为起点积累家庭场景操作数据,明确现阶段不做“开箱即用”,选择“能快速学习和养成”的定位
- 团队核心履历:周顺波曾任华为云物理智能创新Lab首任负责人,主导具身平台CloudRobo研发;联合创始人张靖曾任亚马逊AWS产品经理、华为创新云服务产品总监
7.3 具身大规模开源与多模态数据集
产业级大规模具身数据集开源实践
京东发布“女娲”计划(EgoLive数据集与JoyAI-RA1.0模型,成功率73.5%优于NVIDIA等),智元同步开源AGIBOT-WORLD-2026真实数据集,两者均确立“数据与工程管线优先”的具身智能竞争核心。
- 具身数据集开源对比: | 维度 | 京东女娲(EgoLive) | 智元(AGIBOT) | | 数据规模 | 首期1680h,650K样例 | 覆盖具身全域研究 | | 采集环境 | 真实产业场景(物流/零售/工业) | 100%真实环境(商业/家居/安防) | | 硬件及传感 | 自研JoyEgoCam(4K60帧高清) | 灵巧手+6类多模态传感(含力觉/触觉) | | 标注及特色 | 三步自动化标注(几何优化/手势定位) | 经DaaS流水线清洗,错误修正轨迹全保留 |
- 数据与规模壁垒:京东具身数据缺口达百倍,优先质量,依托3600+库房与20万+药房构建千万级小时数据基座
- 三层数据金字塔:千万小时级无标注互联网视频预训练(底层)→百万小时级真实人类实操高精度标注(中层)→本体强绑定遥操数据落地(顶层)
- 合成与仿真闭环:京东Real2Sim2Real反向渲染撬动大规模合成数据;智元提供数字孪生仿真,并突破全身控制与超视距遥操作
- 跨本体与人机对齐:京东UnifyTips单模型兼容多种执行器(灵巧手/夹爪)解决映射难题;智元实现精细物理交互记录与复杂动作统一协同
- 全链路基建与交易:京东自研千卡平台实现极速训练,数据湖标注准确率95%,上线robotdata.jdcloud.com定向开放具身数据
BeTTER基准揭示:顶尖VLA模型95%+成功率是
- 北大、清华与BeingBeyond联合发布BeTTER基准:通过因果干预框架将推理失败与执行失败分离,揭示SOTA VLA模型在标准基准上95%+的成功率仅是“模仿幻觉”
BeTTER基准四大干预维度
| 干预类型 | 测试目标 | 典型操作 |
|---|---|---|
| 空间布局偏移 | 空间泛化能力 | 改变物体位置与相对关系 |
| 动作原语重组 | 零样本组合能力 | 训练A→B、A→C,测试B→C |
| 对抗性物体扰动 | 语义grounding | 视觉相似、语义不同物体替换 |
| 时序外推 | 因果状态追踪 | 改变初始状态、拉长任务流程 |
- 指令理解依赖伪相关:GR00T-N1.6空间指令准确率100%,但语义指令骤降至5%,将颜色与动作强行绑定
- 子目标组合泛化失效:训练A→B、A→C表现优异,测试B→C新组合时所有模型成功率暴跌40%~52%
- 因果状态追踪崩塌:模型将表面视觉信号当作任务进度依据,而非追踪任务完成状态
- 细粒度辨别能力丧失:脱离固定空间布局后干扰物抓取率高达20%~30%
根因:VLM→VLA转化中的三重系统性退化
| 退化因素 | 具体表现 |
|---|---|
| 容量压缩 | 8B→2B满足端侧算力,语义与时序能力跳水 |
| 训练不对称 | 传感器运动特征挤占表征空间,高级推理无法恢复 |
| 感知近视约束 | 多块高分辨率图压缩为224×224,丢失细粒度信息 |
- 真实机器人(SO101平台)验证:物体位置轻微偏移即导致机器人伸向记忆坐标,证实为架构问题而非仿真假象
- 评测范式需从固定场景转向分布外测试:消融实验表明保留语义表征的模型在分布外场景显著优于纯动作训练模型
7.4 具身多模态数据集全景与生态
具身多模态数据集全景与生态基建
AI早餐汇(20260330) | 量子位(20260331) | 具身智能之心(20260401) | 前沿在线(20260408) | AI早餐汇(20260408) | 具身智能之心(20260410) | 极市平台(20260410)
| DROID | 7.6万 | 86 | 564场景跨3大洲 | Franka+移动 | | RT-1 | 13万 | 多样 | 真实环境 | 13种平台 | | LIBERO | 1693段 | 40 | 仿真环境 | Franka | | LingBot | 298万对 | 多样 | 虚实融合 | 视觉感知 |
- RoboMIND:多本体真实世界操作数据集,支撑跨体态VLA模型训练评测
- OmniVTA:构建视触觉世界模型实现主动预测闭环控制,填补模态缺失提升精细操作
- WIYH:第一人称视角降本,含3D手腕轨迹(误差5-8mm)、深度等视觉语言多维标注
- LIBERO基准:设计空间、物体、目标、长程四个正交测试维度,为标准可控评估基准
- LingBot-Depth:蚂蚁灵波开源2.71TB、300万对RGB-D数据集,在iBims等三项基准实现SOTA
- 虚实融合策略:覆盖住宅、医院、电梯等场景,解决透明、反光、低纹理表面感知失效瓶颈
| 数据子集 | 规模 | 来源 |
|---|---|---|
| RobbyReal | 140万对 | 真实室内场景RGB-D采集 |
| RobbyVla | 58万对 | VLA任务真实数据 |
| RobbySim | ~100万对 | 双相机视角合成渲染 |
| RobbySimVal | 3.8万对 | 仿真验证集 |
- 数据采集路径:分化为遥操作(DROID用Quest 2)、多体态整合、仿真生成与虚实融合四大路径
- 数据格式阵营:RLDS格式(Google系结构完整)与LeRobot格式(HuggingFace系低门槛),兼容性是关键瓶颈
- 行业数据金字塔:底层互联网视频 → 中层人类行为数据(需解决人机差异) → 顶层真实遥操与回流数据
- 鸡与蛋困境:机器人未成熟则难部署,需构建“采集→优化→部署→回流”闭环飞轮获取不可替代数据
- 智驾数据飞轮验证:卓驭构建数万卡集群(算力超10 EFLOPS),流式管线与异步RL框架提速11倍以上
- 跨领域核心共识:自动驾驶与具身智能均指向“数据算法优先、硬件成本可控”,堆叠传感器的边际收益已递减
8. 前沿技术突破与评测基准
8.1 赛事与评测
具身智能真机赛事与评测体系全景
量子位(20260331) | 机器之心(20260401) | 机器人前瞻(20260401) | 具身智能之心(20260403) | 智能涌现(20260403) | 具身智能之心(20260403) | AI前线(20260405) | 智能相对论(20260401) | 具身智能之心(20260413) | 具身智能之心(20260417) | 机器之心(20260417) | PaperWeekly(20260417) | 机器人前瞻(20260420) | 具身智能之心(20260421) | 具身智能之心(20260424)
| 任务类型 | 评分特点 |
|---|---|
| 搬运/收纳/交互 | 完成即满分 |
| 长程堆叠/排序 | 提供中间过程分 |
- 核心洞察:纯VLA在长时序操作存局限,引入RL是提升系统鲁棒性的关键路径。
ATEC2026具身全能挑战
- 赛事定位:刘云辉院士任专委会主席,奖金超36万美元,核心考核系统在真实世界“活”多久。
- 形态开放与连续闭环:支持人形/四足等多形态,要求移动-感知-决策-操作完整链路考核。
- 跨域迁移双阶段机制:线上仿真+线下实景,决赛置于非结构化户外开放极限环境。
| 阶段 | 核心目标 | 关键机制 |
|---|---|---|
| 线上赛 | L0足式/桌面,L1拾取/越障 | 仿真环境初步筛选 |
| 预选赛 | 标准化真实场地 | 虚实迁移验证 |
| 决赛 | 开放户外极限挑战 | 非结构化环境 |
- 历史教训:实验室系统在随机变量下易失效,抗扰与时序协同是当前主要瓶颈。
EAIDC 2026真机全链路闭环
- 首个真机全链路赛事:20支队伍72小时内完成数据采集到真机部署闭环。
- 基建效率革命:百台机械臂与100+ PFLOPs算力,将6个月搭建流程压缩至3天。
- 实战短板暴露:B榜未见场景成绩显著退化,泛化不足与数据利用效率低为主因。
- 评价标准转移:从参数跑分转向真机交付效率与场景自适应表现。
底层技术与产业演进共识
- LARYBench隐式动作基准:美团发布,整合120万+视频片段、11种机器人平台、151种动作类别。
- 通用视觉模型碾压专用模型:V-JEPA 2、DINOv3在语义捕捉和物理还原上显著优于具身模型。
- 数据路线分化:星海图侧重人类第一视角视频,自变量聚焦可穿戴设备数据。
- 动作成关键模态:世界模型与VLA融合,视觉动作早阶段对齐,语言不再居中心地位。
- 天工Ultra半马完赛:21公里用时1小时15分,全自主零干预,速度达18-21.6km/h。
- 天工硬件与落地突破:400N·m高扭矩关节+液冷散热,已落地京东养车、电力高危作业等场景。
索尼Ace:首个击败职业选手的乒乓球机器人(Nature封面)
- 首登Nature封面的实战突破:2025年12月起击败前美公开赛亚军,26年3月连胜含WTT前25木原美悠在内的三位职业名将
- 精英与职业对决战绩:对10年+经验精英选手5胜3负(局分13:7);发球直接得分16分(对手仅8分)
- 感知延迟与精度领先:端到端延迟20.2ms(人类约230ms);感知流水线仅10.2ms(9台APS+FPGA),空间误差3毫米
- Sim-to-Real零样本迁移:SAC加特权critic设计,利用仿真真值训练策略,自主学会传感器融合与轨迹预测
- 核心壁垒处理旋转球:事件相机多角度追踪logo翻转(400-700Hz)算角速度;对比伯克利HITTER等仅能处理平球
- 定制8自由度机械臂:Scalmalloy合金3D打印+拓扑优化(3平移+2朝向+3速度向量);支持15种发球、扣杀、弧圈及削球
- 极致硬件动态响应:最大挥拍20m/s,电机1ms同步;配蝴蝶D05职业级套胶,克服过早击球与极限工况偏差等局限
- 北野宏明近20年坚守:AIBO之父在项目被砍后聚焦机械臂形态,以单一技能做到极致重返Nature封面
2026人形机器人半马:运动性能跨越人类纪录
APPSO(20260419) | 财联社AI daily(20260419) | 机器人前瞻(20260419) | 财联社AI daily(20260419) | 甲子光年(20260419) | APPSO(20260420) | 量子位(20260420) | CVer(20260420) | AI异类弗兰克(20260423)
- 冠军碾压人类纪录:荣耀“闪电”以50分26秒完赛,包揽前六,较首届缩短69%,比人类半马纪录快近7分钟。
- 赛事规模与机制升级:百余支队伍及26品牌参赛,较去年增近5倍;自主组占比约40%,赛道含10余种地形与近90°急弯。
- 核心硬件与运控参数突破:
| 维度 | 关键数据与表现 |
|---|---|
| 冠军体型参数 | 身高169cm / 重45kg,有效腿长达0.95米实现大步幅高步频 |
| 关节峰值扭矩 | 400牛·米(接近高性能电车水平,约家用轿车发动机2倍) |
| 硬件散热创新 | 液冷管道深入电机(换热流量>4L/min),连续奔跑电机仅31.5℃ |
- 算法与品控构筑绝对优势:六机同场竞技,冠亚季军结构与算法完全相同且性能偏差极小。
- 消费电子跨界降维:团队成立约一年,迁移电池、品控与供应链隐性资产,突破量产一致性瓶颈。
- 软硬件突破破除限制:运控与散热瓶颈解除,实现无时长限制持续工作,无惧设备过热宕机。
技术瓶颈转移与行业生态洞察
| 核心维度 | 当前行业发展现状 |
|---|---|
| 虚实部署鸿沟 | 在3D虚拟路线训练优化奔跑策略,核心难点在向真机部署的跨域转化 |
| 具身智能数据缺口 | 核心转向大模型数据(需千万小时级),当前缺口极大且难以复用 |
| 动态稳定性短板 | 高速运动下极易失衡倒地,跌倒恢复能力尚未成熟 |
- 赛事确立行业基准:顶尖完赛与中途宕机同场并存,直观反映行业处于爆发早期且成熟度高度不均衡。
- 生态竞争路线分化:大厂参赛竞速与低价铺量构建开发者平台并行,商业化与技术路线均未收敛。
8.2 脑机接口与前沿突破
脑机接口与具身智能前沿突破全景
人工智能学家(20260401) | DeepTech深科技(20260414) | 有新Newin(20260420) | 人工智能学家(20260424) | DeepTech深科技(20260428)
| 临床与商业化 | 临床阶段21人测试 | 获FDA批准开展RESONATE试验 | 研发阶段原定2025交付跳票 |
脑机接口与抑郁症治疗突破
- Motif DOT设备:直径9mm植入颅骨内硬脑膜上方,无线磁电供电且无电池
- 居家自疗模式:通过棒球帽状装置每次10-20分钟完成治疗,从深部手术压缩为微创居家
- RESONATE试验:10名受试者、8家机构参与,随访12个月验证难治性抑郁症安全性和疗效
- 市场差异化:突破ECT副作用大、TMS需频繁赴院、DBS需深部手术且未获批抑郁症的局限
- 临床需求缺口:美国约278万成年人患难治性抑郁症(占重抑郁治疗者30.9%),FDA尚无获批植入设备
- 公司未来规划:由莱斯大学Jacob Robinson于2022年创立,计划拓展双相、强迫症等并升级诊断平台
活体生物机器突破
- 神经机器人诞生:塔夫茨大学与怀斯研究所培育出首具自组织神经系统的异种机器人
- 自发生成网络:无需支架或基因改造,由爪蛙胚胎细胞自组装并自主延伸轴突树突形成功能网络
- 行为主动调控:PTZ药物实验证实其自组织网络能主动塑造并改变机器人运动轨迹
- 未知模块激活:基因分析发现视觉处理相关基因被意外激活,为研究神经元底层规则提供裸模型
具身智能五大技术基元
| 技术基元 | 代表进展 | 验证状态 |
|---|---|---|
| VLA模型 | π₀模型折叠50种未见衣物 | 真实家庭部署 |
| 世界动作模型 | 结合机器人自主读取压力表 | 实验室验证 |
| 通用机器人策略 | 跨场景通用操作能力 | 早期部署 |
| 自驱实验室 | AI驱动的自主科学实验 | 持续积累 |
| 脑机接口 | 多例植入与内心语言解码 | 临床验证 |
AI结构性汇聚趋势
- 飞轮协同机制:五项基元共享感知-决策-执行架构,物理交互数据反哺世界模型并涌现新能力
- 主战场转移:数字世界范式趋于成熟,物理世界的具身智能成为最大增量前沿
- 商业化现状:五大具身智能技术仍处于实验室或早期部署阶段,尚未形成规模化商业闭环
低成本遥操作方案的技术扩散
- 遥操作两条技术路线并行:关节同构映射(主从端结构相同,操作直觉强但要求硬件一致,典型如 SO-100)与 TCP 重定向(坐标系转换映射,不要求结构一致,以 Ringo 夹爪为代表)
- HumDex 遥操作系统突破:USC 团队基于惯性动作捕获 + 学习式手部重定向(轻量级 MLP 端到端映射),全身节点成本不足 200 美元,遥操作成功率达 91.7%
- 两阶段训练跨越具身鸿沟:第一阶段利用大规模人类演示数据预训练 ACT 策略,第二阶段以少量机器人遥操作数据微调,自主执行成功率从 57.5% 提升至 80%
- L1 轮式移动双臂机器人:VLAI Robotics 发布 L1,售价 2.88 万元,将“移动 + 双臂操作”融合机型价格拉入 3 万以内,单臂 8DOF、负载 6KG,全栈接口开放支持 VR 遥操作数据采集
8.3 核心零部件与机器人硬件融资
灵动佳芯触觉传感器融资:字节系资本押注
- 融资事件:苏州灵动佳芯完成近亿元A轮融资,锦秋基金(字节跳动旗下)领投,中芯聚源、瑞丞投资、润璋创投跟投,三轮融资累计达数亿元量级
| 轮次 | 时间 | 领投方 | 跟投方 |
|---|---|---|---|
| 天使轮 | 2023年 | 零一创投 | — |
| Pre-A轮 | 2025年3月 | 朝希资本、敦鸿资产 | 艾克斯光谷、零一创投 |
| A轮 | 2026年4月 | 锦秋基金等 | 中芯聚源、瑞丞投资、润璋创投 |
- 出货量增长:2025年智能压电传感模组出货超1000万只,预计2026年突破2000万只,清洁机器人从可选配置转向标配组件
- 核心技术路线:PVDF柔性触觉压电传感器全栈自研(材料+芯片+算法),支持压力、触觉、碰撞及超声检测四类感知任务
- 重点拓展方向:具身智能(机器人灵巧手/执行夹爪)与锂电池安全,已获近十家海外客户订单
- 团队背景:CEO骆剑锋曾主导苹果、三星、华为等头部企业项目商业化落地,拥有数十项相关专利
- 关键洞察:字节系资本入局信号意义大于财务意义,具身智能的触觉缺失正成为产业共识,全栈自研模式在传感器赛道壁垒较高
泉智博:机器人关节模组融资与产品演进
- 3年累计8轮融资破6亿元:2025年单年完成5轮(A2-A6),获深投控、北京机器人基金、锡创投等国资领投。
- 三大伺服关节产品矩阵覆盖全扭矩段:适配人形机器人、四足机器人、外骨骼等多元场景。
| 系列 | 类型 | 扭矩范围 | 典型应用 |
|---|---|---|---|
| PA | 行星伺服关节 | 2-400Nm | 髋关节、协作臂 |
| HA | 谐波伺服关节 | 中低扭矩 | 精密操作 |
| CA | 摆线伺服关节 | 中高扭矩 | 高负载场景 |
- 核心关节模组专攻高难度动作:P100-20-10专为人形机器人髋关节设计,支撑跳跃、快速转向与负重站立。
- 2025年关节模组年出货量突破10万台:自建产线具备百万台级年产能,自动化率达85%、产品良率超98%。
- 2026年4月无锡基地投产:单台生产周期缩短至90秒,一次性合格率达96%,关键部件符合汽车级精密标准。
- 深度绑定头部整机厂协同研发:为松延动力(春晚机器人全程参与五次彩排)、乐聚(首条万台级产线采用其PA模组)供货。
- 国资密集入场强化政策扶持:关节模组被纳入地方产业政策体系,资本加速向产业链核心瓶颈环节集中。
钕铁硼磁材:人形机器人量产的隐性天花板
- 钕铁硼是人形机器人关节电机的物理唯一解:每台需3.5-4kg高性能钕铁硼,为新能源车用量两倍;若年出货上亿台需扩产186倍,远超铜(3倍)、锂(14倍)等材料扩张需求「DeepTech深科技」
- 材料不可替代的三重硬约束:高能量密度(~400 kJ/m³,铁氧体低一个数量级)、高矫顽力(承受120°C+不退磁,钐钴价格/脆性不支撑量产)、一致性良率(非稀土电机同等功率大4倍),三者叠加后仅钕铁硼可满足
- 供应链瓶颈在分离精炼而非采矿:分离和精炼环节中国占约90%份额,西方重建面临四重障碍——资本成本差(中国2-3% vs 西方10-15%)、良率爬坡慢(前3年首次通过率仅70-80%)、人才稀缺(全球独立调参冶炼工程师仅数千人,培养10年+)、环保合规高
- 三次稀土价格冲击验证供给刚性:2010-2011氧化镨钕涨5倍、2021-2022涨375%、2025H2氧化镝涨57%,三次非中国产量响应均≈0,价格信号失效因建线周期远长于价格周期
- 国内磁材厂商提前卡位:金力永磁成立人形机器人磁组件事业部(CEO牵头)、宁波韵升向智元量产供货、中科三环被列为特斯拉Optimus二代供应商;六家头部磁材上市公司2026年毛坯总产能预计19万吨
- 定价权将向材料端攀升:稀缺度排序高性能钕铁硼>镝铁/铽铁合金>镨钕金属>磁铁组件,2028-2030年供应从"够用"转为"争夺产能",磁材节奏决定机器人量产节奏
地瓜机器人:20天两轮2.7亿美元,机器人芯片赛道加速成型
融资节奏与资方:20天内完成B1轮1.2亿与B2轮1.5亿美元,B轮累计达2.7亿美元,累计总额超3.7亿美元。
- 投资方阵容:新增Prosperity7、远景科技、云锋基金等;高瓴创投、滴滴、淡马锡等老股东全阵容跟投。
- 战略资源协同:引入零售巨头与供应链资源,为具身机器人在商业场景的规模化落地提供渠道支撑。
- 商业增长指标:2025年芯片出货量同比增长180%,客户数量增长200%,累计覆盖400+企业。
- 全球开发者生态:开发者数量突破10万(同比+100%),覆盖20+国家与地区,累计出货超500万片。
- 算力平台规划:提供5~560TOPS算力,覆盖100余种机器人形态,年底将推出三款旗舰新芯片。
- 一脑多形架构:以RDK S600硬件基座结合HoloMotion/HoloBrain大模型,实现同一算力与模型适配多形态机器人。
核心产品矩阵:
| 系列 | 定位 | 代表型号 | 算力与核心特点 | 状态 |
|---|---|---|---|---|
| X系列 | 消费级 | 旭日3/5/7 | 搭载国内最先进制程 | 量产/年底发 |
| S系列 | 具身智能 | S600 | 560 TOPS高算力 | 合作中 |
| RDK系列 | 开发者套件 | X5/S100 | 10~100 TOPS灵活算力 | 已发布 |
- 战略核心定位:坚持只做芯片不做方案,一次研发多场景适配,构建芯片+RDK+OS+算法完整链路。
- 生态加速体系:汇聚60+上下游伙伴,“地心引力”计划已服务500+创新团队,助力200+团队落地产品。
- 核心竞争壁垒:依托地平线BPU架构与人才基因,服务科沃斯、傅利叶、广汽等消费与具身头部客户。
交叉引用
- llm-frontier - 大模型前沿
- ai-research - AI学术研究
- ai-industry - AI行业与商业
- multimodal-aigc - 多模态与AIGC
- ai-products - AI产品与落地
- ai-safety - AI安全与治理