🦾 具身智能与机器人
人形机器人、自动驾驶、世界模型
收录数:1312 篇
目录
- 1. 人形机器人
- 2. 自动驾驶与出行
- 3. 世界模型与物理仿真
- 4. 具身数据与训练方法
- 5. 商业化与产业进展
- 6. 具身数据采集、部署基建与工程底座
- 7. 前沿技术突破与评测基准
- 8. 具身操作控制与跨体迁移
- 9. 跨界载具与前沿微纳硬件
- 10. 自动驾驶前沿技术与硬件底座
1. 人形机器人
1.1 量产与产业突破
量产进展与商业化战略布局
量子位(20260330) | 硅星人Pro(20260330) | 财联社AI daily(20260330) | 第一新声(20260330) | 雷峰网(20260330) | 机器人前瞻(20260330) | 财联社AI daily(20260331) | AI蓝媒汇(20260331) | 机器人前瞻(20260331) | AI科技评论(20260401) | 机器人前瞻(20260402) | 智能涌现(20260402) | 雷峰网(20260402) | 具身智能之心(20260401) | 机器人前瞻(20260402) | 暗涌Waves(20260403) | 具身智能之心(20260403) | 智东西(20260403) | AI科技评论(20260406) | 机器之心(20260407) | 具身智能之心(20260407) | AI科技评论(20260408) | 雷峰网(20260408) | 机器人前瞻(20260409) | 雷峰网(20260410) | 具身智能之心(20260410) | AI科技评论(20260411) | 雷峰网(20260413) | AI科技评论(20260413) | 机器人前瞻(20260413) | 机器之心(20260415) | 数据猿(20260416) | 前沿在线(20260417) | 机器人前瞻(20260417) | 财联社AI daily(20260417) | 新智元(20260417) | 机器人前瞻(20260417) | AI科技评论(20260417) | AI科技评论(20260418) | 具身智能之心(20260418) | 智能涌现(20260418) | 光锥智能(20260418) | 智能涌现(20260419) | 机器人前瞻(20260420) | 机器之心(20260420) | 具身智能之心(20260420) | 机器人前瞻(20260420) | 机器人前瞻(20260423) | AI科技评论(20260427) | 具身智能之心(20260427) | 具身智能之心(20260427) | 机器之心(20260428) | AI蓝媒汇(20260428) | 前沿在线(20260428) | 前沿在线(20260428) | CVer(20260429) | 机器人前瞻(20260429) | 钛媒体AGI(20260429) | "财联社AI daily"(20260429) | "财联社AI daily"(20260429) | 硅基观察Pro(20260429) | 阑夕(20260430) | 新智元(20260430) | 雷峰网(20260430) | 机器人前瞻(20260430) | 智东西(20260430) | APPSO(20260430) | 新智元(20260430) | 具身智能之心(20260501) | 机器之心(20260502) | CVer(20260502) | 新智元(20260504) | DeepTech深科技(20260505) | "Z Finance"(20260505) | AI科技评论(20260505) | 划重点KeyPoints(20260506) | AI科技评论(20260506) | 量子位(20260506) | 前沿在线(20260506) | AI科技评论(20260506) | 第一新声(20260507) | "财联社AI daily"(20260507) | 机器人前瞻(20260507) | 机器人前瞻(20260508) | 九章智驾(20260508) | 机器人前瞻(20260509) | ScienceAI(20260509) | DeepTech深科技(20260509) | "Z Potentials"(20260511) | 机器人前瞻(20260511) | 机器人前瞻(20260511) | DeepTech深科技(20260511) | 机器人前瞻(20260511) | 智能相对论(20260511) | 智东西(20260512) | DeepTech深科技(20260512) | 光锥智能(20260512) | 机器之心(20260512) | APPSO(20260512) | 新智元(20260512) | DeepTech深科技(20260513) | "Z Potentials"(20260514) | 第一新声(20260514) | 量子位(20260514) | AI科技评论(20260515) | "Z Finance"(20260515) | 机器人前瞻(20260515) | 暗涌Waves(20260515) | 具身智能之心(20260515) | AI大模型工场(20260515) | AI科技评论(20260515) | 智能相对论(20260515) | "财联社AI daily"(20260516) | 机器之心(20260516) | 第一新声(20260517) | 量子位(20260517) | 新智元(20260517) | AI科技评论(20260518) | "财联社AI daily"(20260518) | 机器之心(20260518) | 机器人前瞻(20260518) | 机器人前瞻(20260518) | 智能涌现(20260518) | 前沿在线(20260518) | DeepTech深科技(20260518) | 前沿在线(20260519) | 机器人前瞻(20260519) | 机器人前瞻(20260519) | 机器人前瞻(20260519) | 机器人前瞻(20260520) | AI科技评论(20260520) | 机器人前瞻(20260520) | 机器人前瞻(20260521) | DeepTech深科技(20260521) | 机器人前瞻(20260521) | 雷峰网(20260521) | 机器之心(20260522) | AI科技评论(20260522) | 甲子光年(20260522) | "财联社AI daily"(20260522) | 硅基观察Pro(20260522) | 甲子光年(20260523) | 钛媒体AGI(20260524) | AI科技评论(20260525) | AI科技评论(20260525) | 具身智能之心(20260525) | 机器人前瞻(20260525) | 机器人前瞻(20260525) | 甲子光年(20260525) | 前沿在线(20260525) | AI蓝媒汇(20260525) | 机器人前瞻(20260525) | 硅星人Pro(20260526) | 具身智能之心(20260526) | 光锥智能(20260526) | 奇绩创坛(20260526) | CVer(20260526) | AI科技评论(20260527) | 机器人前瞻(20260527) | 新智元(20260527) | 具身智能之心(20260528) | 机器人前瞻(20260528) | 光锥智能(20260528) | 机器人前瞻(20260528) | 有新Newin(20260528) | 机器人前瞻(20260529) | AI科技评论(20260529) | 智东西(20260529) | 钛媒体AGI(20260530) | 钛媒体AGI(20260530) | 机器人前瞻(20260601) | 甲子光年(20260601) | 量子位(20260601) | 新智元(20260601) | 机器之心(20260601) | 智东西(20260601) | DeepTech深科技(20260601) | 机器人前瞻(20260601) | "财联社AI daily"(20260601) | 机器人前瞻(20260601) | 甲子光年(20260602) | 机器人前瞻(20260603) | 硅基观察Pro(20260603) | 雷峰网(20260603) | AI科技评论(20260604) | 具身智能之心(20260604) | 雷峰网(20260605) | 机器之心(20260605) | 量子位(20260605) | 第一新声(20260605) | 新智元(20260605) | "Z Potentials"(20260607) | 机器人前瞻(20260607) | AI科技大本营(20260608) | 具身智能之心(20260608) | 量子位(20260608) | 具身智能之心(20260608) | AI前线(20260609) | DeepTech深科技(20260609) | 机器人前瞻(20260609) | InfoQ(20260610) | CVer(20260610) | "财联社AI daily"(20260610) | 机器人前瞻(20260610) | 硅基观察Pro(20260610) | "财联社AI daily"(20260611) | 机器人前瞻(20260611) | 新智元(20260611) | 机器人前瞻(20260611) | AI蓝媒汇(20260611) | AI科技评论(20260612) | AI科技评论(20260612) | 机器人前瞻(20260612) | 硅星人Pro(20260614) | CVer(20260614) | 具身智能之心(20260615) | 硅星人Pro(20260615) | 机器人前瞻(20260615) | 量子位(20260615) | 具身智能之心(20260615) | 机器人前瞻(20260615) | 机器人前瞻(20260616) | 机器之心(20260616) | AI早餐汇(20260617) | 具身智能之心(20260617) | "财联社AI daily"(20260617) | 机器人前瞻(20260617) | 机器人前瞻(20260617) | 量子位(20260617) | AI前线(20260618) | 钛媒体AGI(20260619) | DeepTech深科技(20260619) | AI早餐汇(20260330) | APPSO(20260426) | 量子位(20260502) | AI科技评论(20260602) | 具身智能之心(20260603) | 智能相对论(20260620) | 光锥智能(20260622) | DeepTech深科技(20260623) | 钛媒体AGI(20260623) | 具身智能之心(20260623) | 机器人前瞻(20260623) | 机器人前瞻(20260623) | 具身智能之心(20260624) | 机器人前瞻(20260624) | 具身智能之心(20260625) | 新智元(20260625) | 机器人前瞻(20260625) | 新智元(20260626) | 甲子光年(20260626) | 甲子光年(20260626) | 雷峰网(20260605) | AI科技评论(20260616) | 甲子光年(20260628) | 机器人前瞻(20260629) | AI大模型工场(20260629)
发展要素与架构:可靠性是根基、自主性是核心、成本是规模化前提;具身大脑三层架构:具身运控→基座模型→智能体OS。
模型与硬件演进:它石AWE以3D隐空间预判挑战VLA,DeepVLA实现端到端闭环;视触觉前融合将成功率从2%拉至68%,准直驱21自由度提效3倍。
策略与模式演进:数据丰富度重于量级,先透单场景再靠模型外溢;核心指标转向吞吐率,商业模式演进至物理Token与RaaS。
量产与新阶段:智元量产加速:5000台(24.12)→10000台(25.3)→15000台,间隔缩至3月;评价标准转向稳定干活与规模交付。
资本重组与材料:智元通过协议与要约取得上纬新材控制权,引入新材料解决轻量化/强度/成本需求,做厚底层能力实现消费端落地。
消费级落地演进:B端跑通价值验证后,将底层能力压缩至消费级;启元Q1全身力控可入背包,定位人形第一台设备,直击科研与极客场景。
消费级核心难题:个人机器人面临购买动机模糊、价格接受度低等痛点,若无开发者内容持续更新,产品极易吃灰。
前沿算法生态:BFM-2实现任意状态动态闭环,OmniHand补齐操作环节;软件生态含AIMA、Link-U OS与AGIBOT World数据集。
智元产品矩阵:覆盖B至C全矩阵:远征A3(接待)、灵犀X2(交互)、精灵G2(工业)、酷拓D1(巡检)、绝尘C5(清洁)、启元Q1(消费)。
云深处与落地:推行1大脑+X本体+N场景战略,覆盖45国冲刺全球第一;标准化产品包已交付地下管廊、北冰洋等极端场景。
六大行业应用:覆盖能源、物流、应急、安防、民生、科研;其中能源电力含超2万座变电站,无人值守需求呈海量增长。
物理世界 Agent 架构与落地挑战
量子位(20260613) | 钛媒体AGI(20260616) | AI异类弗兰克(20260616) | 机器之心(20260628) | 人工智能学家(20260629) | 具身智能之心(20260629)
-
动作生成范式:相比离散单步易累积误差,动作分块(ACT)一次预测序列,约10分钟示教即达80%-90%成功率
-
流匹配部署:π₀.₅完整感知-动作循环约274ms(80%耗时于流匹配迭代),3Hz边缘设备周期330ms几乎无余量
-
边缘云端取舍:边缘端延迟趋近零但需模型压缩;云端可跑大模型但每个动作需网络往返
-
自我改进闭环:流匹配无法直接用标准RL,RECAP融合示教纠错与自主练习,教会模型区分动作好坏,吞吐翻倍降失败率
-
VLA缺陷对策:感知理解分离,动态赋值安全层,结合空间记忆白盒化解决泛化差
-
四阶段训练:预训练理解世界,中训通用动作,后训适配本体,部署训适配环境
-
零样本泛化:可部署至未见过的厨房卧室等陌生环境,展现类人环境应变能力
-
模拟世界路径:学习物理规律生成可交互3D环境,混入合成数据使性能提升40%
-
世界模型案例:Google Genie 3凭文本生成3D环境;Waymo生成多传感器驾驶场景覆盖边缘案例
-
商业落地演进:接入百大品牌存量设备转包月;从高定制转为半天配置,依托3.6亿设备实现7×24h主动巡检
-
核心数据洞察:人类数据是灯塔,越仿生本体有效性越高,数据布局需前置于硬件成熟
-
采集硬件同构:双目立体相机+60FPS全局快门+600Hz IMU,硬件时钟同步,设备仅重100g避免动作变形
-
触觉数据同构:优先“有无”不追求分辨率,柔性电子皮肤手套实现人机同副手套采集与推理
-
数据质检标准:追求跨本体few-shot,但人手废动作、关节重建颤动、习惯动作均为有害噪音
-
全身数据生成:从Ego数据倒推全身动作摆脱动捕依赖,通过模型生成从源头控制质量
-
采集遮挡难题:遮挡为核心难题,需通过采集端SOP与模型端双重解决
-
人类数据价值:Meta Ego4D超3000小时视频;EgoMimic证实1小时人类手部数据价值大于1小时机器人数据
-
五阶段演进:灵巧操作→触觉模态→全身运控→眼动微表情→肌电数据
-
未来数据布局:眼动听觉等头部数据随颈部硬件成熟而变重要;肌电(EMG)随本体向腱驱动演进成关键模态
天津AI产业全景:机器人单点冠军集群冲刺IPO
产业规模与资本化
- 产业规模:2025年天津AI核心企业营收超770亿,机器人产业超260亿,占全国工业机器人7%份额
- 重大项目:2026世界智能产业博览会签约85个重点项目,总投资超340亿元
- 资本集群:深之蓝、阿童木、望圆科技、梅卡曼德等机器人企业正集体冲刺IPO
机器人单点冠军矩阵
| 企业 | 细分领域 | 核心优势与数据 |
|---|---|---|
| 深之蓝 | 水下机器人 | 助推器全球份额近60% |
| 朗誉 | 重载AGV | 创600吨世界纪录,200吨+市场占85% |
| 阿童木 | 并联机器人 | 国产替代领跑者,国内市占第一 |
| 望圆科技 | 泳池清洁 | 产销量全球领先,正冲刺IPO |
| 梅卡曼德 | 3D视觉 | 提供智能机器人“眼脑手”全栈方案 |
核心龙头商业模式
- 仙工智能(港股机器人大脑第一股):2025年营收4.42亿(CAGR 33.2%),核心SRC系列控制器毛利率近80%,带动整体毛利率达47.4%
- 云洲智能(无人艇第一股):拟募18.18亿冲刺科创板,2025营收2.44亿(CAGR 36.4%),军品贡献约44%营收;两者均处高增长伴随高亏损的硬科技早期阶段
前沿产业布局
- 脑机接口:2026年3月落地10亿元脑机接口产业集团,脑机谷完成4.6万平米基建
- 算力与信创:天津智算中心运行300P国产算力,聚集麒麟、飞腾等300余家信创企业
- 低空经济:一飞智控为全球工业级无人机领军品牌
非传统形态机器人的理论与前沿探索
- 机械智能涌现:康奈尔团队模块自发筛选低应力构型,控制转化为物理设计,10模块即进入超扩散状态
- 动态对称性理论:杜克陈博源提出动态各向同性评分(0-1),打破仿生限制,从第一性原理寻找最优构型
- 模块演化:受活性凝胶启发,200×20mm模块单电机驱动I/U形切换,内置魔术贴实现动态交联与断裂重组
- 形态最优解:模拟1500种形态发现腿数在16-22条达边际收益拐点,20腿综合得分0.91(远超足式<0.6)
- 强容错与泛化:Argus丢失1-3腿仍能调重心移动;零样本迁移至草地、泥地及12cm台阶,单侧负载4.5kg
- 极速Sim-to-Real:20腿参数完全对称,标定单腿即可复制全局,虚实迁移仅需不到一天
- 集群规模效应:650模块部署仅4%失效;接触动力学驱动构型筛选→相位自对齐→类流体断裂重聚涌现
动态对称性腿数量化规律
| 腿数区间 | 动态各向同性变化 | 特征 |
|---|---|---|
| 6-16腿 | 快速提升 | 误差降低,成功率提高 |
| 16-22腿 | 边际递减 | 性能提升放缓,逼近最优 |
| 22腿以上 | 平台期 | 冗余反而降低能效 |
集群与仿生机器人特征对比
| 特征 | 原版Smarticles | Cross-Link模块 | Argus机器人 |
|---|---|---|---|
| 构型 | I↔Z振荡 | I↔U切换 | 球形20条腿 |
| 核心机制 | 外部环约束 | 内部魔术贴交联 | 动态对称性 |
| 运动能力 | 约束下漂移 | 自由蠕动推挤 | 全向移动 |
| 负载/三维 | 不支持三维 | 瘦长形状支持 | 单侧挂载4.5kg |
| 同性得分 | 需集群涌现 | 需集群涌现 | 0.91 |
融资与团队
- 正行创新(Striding AI):2026年初成立,完成近亿美元天使轮系列融资
- 投资方矩阵:正大集团、华勤技术、九安医疗等上市企业及一线机构,形成产业资本闭环
- 联合创始人姚颂:深鉴科技创始人(2018年被赛灵思收购)、东方空间联合创始人(全球最大固体运载火箭纪录)
- 联合创始人于超:清华大学深圳国际研究生院助理教授,参与提出多智能体强化学习算法MAPPO
核心技术路线
- 隐空间世界动作模型:在隐空间学习物体运动规律与动作变化,借海量人类视频数据提升效率
- 百万小时级数据体系:依托合作伙伴门店、产线等真实场景采集数据
- 强化学习后训练:将成功、失败、人工接管数据用于模型迭代,部分测试已提升任务完成率
- 开源RLinf框架:具身智能训练框架,GitHub超3800星标,被多所高校及企业使用
产品与场景规划
| 维度 | 规划 |
|---|---|
| 机器人形态 | 轮臂机器人、人形机器人 |
| 目标场景 | 消费零售、工业制造 |
| 产业合作 | 正大集团(零售数据)、华勤技术(制造数据) |
| 发布计划 | 2026年下半年推出首批产品 |
- 数据-产品闭环:投资方兼具场景数据来源与首批落地客户双重身份,支撑数据采集到产品验证
新兴企业融资与商业化突破
"Z Finance"(20260624) | 机器之心(20260626) | 机器人前瞻(20260626) | 奇绩创坛(20260627) | AI科技评论(20260628) | 机器之心(20260629) | InfoQ(20260629) | 量子位(20260629) | 机器人前瞻(20260629)
行业与资本动态
- 融资与创始人背景:2026上半年行业融资超288起/460亿元;源策未来成立2个月数亿元种子轮,团队含UniAD作者与华为ADS核心开发
- 三层大脑架构:大脑长程规划,中脑输出跨本体全身运动轨迹(非关节角不绑型号),小脑实时位姿跟踪与平衡
算法演进与跨本体泛化
- 路线对比优势:相比VLA像素级预测极度耗算,隐空间模型与端到端多模态联合均成功突破算力泛化瓶颈
- 视觉与力觉融合:视觉判断位置,力觉微调异常克服重心动荡,H-GAR倒推解决误差累积(成功率94%)
- 跨本体泛化:全身运动表征及隐空间强化学习方案已突破全身数据断层,在宇树、智元等多类本体完成验证
数据闭环与开源生态
- 数据成本与壁垒:自变量最优配比将获取成本降至传统真机1/20(降幅95%),多维感知数据闭环持续自我强化
- 开源与采集设备:WALL-OSS实现预训练即部署,XRZero-G0跑通国内首个全身无本体采集闭环并规模化部署
- 工业数据飞轮:嵌入全球30多国超2000节点沉淀PB级数据,目标三年训练工业模型
硬件矩阵与核心算力
- 揽月01防爆版:获国内首张轮式人形机器人防爆认证,构筑极高产业准入门槛
- 算力平台投产:轮式K15搭载1200 TOPS国产算力平台,已实现批量投产
商业化场景落地
- 能源与工业产线:2026.4佛山试运营全球首个自主加油;无界与自变量方案已完成红旗产线、南网巡检、汽车零部件任务验证
- 家庭与家政服务:自变量双臂机器人入驻真实家庭,协同定价与纯人工持平;产业资本协同落地58到家、奇瑞/荣耀产线
- 「晓途」城市巡逻:上海西岸及天津海棠花节7×24小时自主巡逻,白天柔性取证夜间穿透盲区,全地形适配自主充电
- 集群调度降本:一人管控多机压缩人力,云端自动生成简报,数据回流持续优化形成正循环
1.2 技术与生态
具身智能技术演进与商业化生态
机器之心(20260330) | AI科技评论(20260330) | 数据猿(20260330) | 具身智能之心(20260401) | 前沿在线(20260404) | 智能相对论(20260401) | 钛媒体AGI(20260408) | 极市平台(20260408) | 雷峰网(20260410) | AI早餐汇(20260420) | 机器之心(20260422) | 量子位(20260422) | 具身智能之心(20260423) | AI科技评论(20260428) | 机器人前瞻(20260430) | AI科技评论(20260430) | 机器之心(20260507) | 量子位(20260507) | 具身智能之心(20260507) | "Z Potentials"(20260509) | 具身智能之心(20260509) | 机器人前瞻(20260509) | 甲子光年(20260509) | 机器之心(20260510) | 十字路口Crossing(20260510) | 具身智能之心(20260510) | 具身智能之心(20260511) | 硅星人Pro(20260511) | AI科技评论(20260511) | 具身智能之心(20260512) | "Z Potentials"(20260513) | 量子位(20260515) | 具身智能之心(20260514) | 具身智能之心(20260516) | APPSO(20260518) | 新智元(20260518) | 具身智能之心(20260521) | 量子位(20260525) | DeepTech深科技(20260525) | 智能涌现(20260526) | 雷峰网(20260527) | DeepTech深科技(20260529) | "Z Potentials"(20260601) | 量子位(20260601) | 机器之心(20260602) | DeepTech深科技(20260602) | 具身智能之心(20260602) | AI科技评论(20260602) | 具身智能之心(20260603) | 量子位(20260604) | 机器人前瞻(20260605) | AI科技评论(20260605) | AI科技评论(20260605) | 机器之心(20260607) | AI科技评论(20260608) | 量子位(20260608) | CVer(20260608) | 甲子光年(20260609) | AI前线(20260610) | AI科技评论(20260610) | 机器人前瞻(20260610) | 甲子光年(20260610) | AI科技评论(20260612) | 商汤科技SenseTime(20260615) | 新智元(20260615) | 智能涌现(20260614) | AI前线(20260615) | AI科技评论(20260616) | 量子位(20260616) | DeepTech深科技(20260616) | 具身智能之心(20260618) | 苍何(20260622) | 新智元(20260622) | 数据猿(20260623) | AI科技评论(20260623) | AI科技评论(20260624) | 智东西(20260624) | 甲子光年(20260625) | 量子位(20260625) | 机器人前瞻(20260625) | AIGC开放社区(20260626) | InfoQ(20260601) | 机器人前瞻(20260629)
技术与数据范式重构
- 能力分解范式:星源3B模型端到端规划,显式结构化调度+探索优先,未见场景94.0%超GPT-4o
- 三阶段训练管线:专家SFT+模拟器纠错+EIPO算法,仅6.4k任务泛化至4个未见基准
- 第一人称数据突破:纯人类视频预训练现Scaling Law,100万片段仅需1.2K条遥操微调部署
- 数据采集现状:千万小时级数据缺口,有效转化率仅50%;超15座数采场,售价500-1000元/h
- 触觉成核心变量:解决透明/软质物体视觉盲区,触觉传感器量产需精度0.2%、一致性1%
- 去人手崇拜:以物体3D状态轨迹替代人手姿态,实现跨本体/物体零样本泛化
标杆产品与性能动态
- 人形慧思开物:双模型(天鹕122B/397B+我悟)获全国首个双底层备案(基座+世界模型),补齐全链路测评空白
- 双引擎协同机制:天鹕低时延开源逻辑规划,我悟构建物理数字孪生,支持百万次虚拟预演
- 商业化与生态:开放API/SDK生态,推软硬件一体方案;发RoboMIND数据集,登顶World Arena多赛道第一
- 智平方 AlphaBrain:RL Token低成本训练,参数降至137M(3.5%),单4090即可跑通
- Genesis (GENE-26.5):统一轨迹联合分布建模,基于20万小时数据,长尾任务仅需<1小时微调
- 大晓 Kairos:理解-生成-预测一体化,4B参数登顶四大榜单,实现连续7分钟无干预家务
- Figure (Helix-02):纯神经端到端控制,单件分拣2.83秒逼近人类,支持无通信双机协作
- 鹿明 Prime R0:消费级算力工业落地,2.8B模型在5060 8G显卡毫秒级推理,80组样本即泛化
商业化评估与落地
- 工业验证加速:优必选2025年交付1079台(营收增22倍);原力无限AD-01实现全链路无人工介入
- ROI导向落地:初创企业先切入科研与高危工业场景,强调真实数据驱动迭代,暂缓进家庭
具身智能垂直场景商业化突破
产品定位与概况
- Somnia Lab(梦伴机器人):国内首家公开定位性爱机器人的具身智能公司,2025年成立,已完成三轮融资
- 产品矩阵:女性机器人“硅姬”即将上市,男性机器人“硅君”预计2027年面世;采用高强度内骨骼+3D打印肌肉,1.75米机型仅重20公斤,解决卧室重量安全隐患(对比小鹏IRON 65kg)
商业模式与市场策略
| 环节 | 策略 |
|---|---|
| 线下门店 | 体验馆既是测试场也是营收来源 |
| 硬件销售 | 可定制面部形象/肤色,本体可更换 |
| 订阅服务 | 语音包/性格包等软件持续付费 |
| 售后体系 | 类汽车4S店的具身服务中心 |
| 市场顺序 | 先海外(东京/柏林/阿姆斯特丹),合规先行 |
核心技术与壁垒
- 专属亲密交互大模型:结合多模态输入实现智能顺应性适配与非线性力控交互
- 160+基础姿势数据集:公司计划开源,有望成为业内首个亲密动作数据集
- 仿生材料:自研水性聚氨酯皮肤,第一代解决出油问题但易破损,第二代提升了触感、耐用性和易清洁性
产业逻辑与洞察
- 刚需付费场景突破:性需求付费意愿强、用户容忍度高,有望率先跑通人形机器人商业闭环
- 从亲密到通用的路径:用户对亲密伴侣机器人的信任更容易迁移到家务场景,比冷启动家政机器人更符合心理规律
- 合规能力是核心护城河:在各国法律空白地带率先建立合规路径的公司将获得先发的制度红利
- 市场空间巨大:全球性健康产业显性市场超800亿美元,叠加隐性市场可达万亿美元级别
- 产品定位:NTU博士团队打造的机器人管家,目标进入家庭场景
- 融资进展:刚完成数百万美元融资
- 注:原文正文为空,以上信息基于标题提炼
具身智能在科研场景的VLA范式与自主实验突破
- 协同演化:多Agent通过Git共享代码配方淘汰失败策略,自主重写算法,非线性加速科研进程
- 核心瓶颈与引擎:针对真实实验数据稀缺,RoboGenesis引擎将依赖人工示教转为科学知识驱动生成
- 数据生成:将科学原理与操作逻辑编码进仿真环境,自动化生成具备跨架构通用性的LabEmbodied-Data语料
- 引擎工作流:支持文本到3D场景重建与物理标注,指令拆解为跨平台原子技能,沉淀多维结构化轨迹标注
- Harness四模块:EN(环境自动复位/评分)、PI(BC/RL/启发式规则混搭)、R(真机执行记录)、E(Git多Agent协同)
- 自主科研表现:Agent自主走完BC→在线RL→正则化路径,主动弃用端到端改用VLA+API分层架构
- 经验迁移:传递文字版研究笔记而非模型权重,将历史经验塞入新任务Prompt实现跨任务复利
- 模型设计:视觉语言骨干+动作专家模块,预训练学离散动作token预测,后训练引入“知识隔离”机制防干扰
- 能力与安全:替代人工进入高危或重复性实验环节,大幅降低在有毒、易燃、高温高压环境下的暴露风险
核心实验结果与评估
- 任务名称 | 方法/对比 | 结果/成功率
- PushT基准 | 纯启发式规则 | <2小时完成,击败需大量数据的神经网络
- 针脚整理 | 高强度思考训练 | 3小时内从0拉升至99%
- GPU插槽插入 | Codex策略(含复杂力控) | 成功率达99%
- 扎带捆扎 | 主动切换分层架构 | 成功率达99%
- 针脚并行测试 | 1台需90+分钟,8台缩至40分钟,瓶颈由算力转运行时间
- LabUtopia仿真 | 覆盖拾取/开门/倒液等六类任务 | ID/OOD平均成功率71.1%/70.0%
- 真机实验对比 | 对比DreamZero和π0.5 | 多数场景成功率超70%,液体倾倒对位置偏移最敏感
- 新评估指标:提出平均机器人利用率(MRU<50%)和平均Token利用率(MTU)衡量框架
- 开源与应用:与浙大、复旦、晶泰科技探索合成生物与药物发现,模型/代码/数据集已全面开源
英伟达Halos:机器人全栈安全系统与行业认证生态
- 全栈系统:业界首个机器人安全系统,复用自动驾驶18600工程人年与700万行验证代码,涵盖芯片到认证全链路
- 平台层:IGX Thor内置晶圆级物理隔离的独立安全岛,主系统宕机可独立接管急停;Sensor Bridge达SIL 2安全级
- OS层:Halos OS混合Linux/QNX,通过IEC 61508 SIL 3认证,Hypervisor隔离AI与安全任务
- 算法层:聚焦VLA/VLM模型语义误判(如将纸箱当人),约束AI在物理世界的行为决策安全性
- 开源冗余:开源外部视角监控(Outside-In),用第三方摄像头解决边界误判导致的频繁急停
- 认证生态:建全球首个物理AI ANAB认可检测实验室,TÜV等六大国际机构直接认可其检验结果
- 认证提效:传统认证需4-5年占预算15%-25%,预认证快车道有望将其压缩至约2年
- 市场准入:通过预认证绑定IGX Thor及40+企业选型标准,成工厂与保险方认可的安全准入门槛
- 商业落地:Agility的Digit已整合Halos,在亚马逊、丰田等工厂实际运行
- 竞争壁垒:极难被替代,自建认证耗时耗力且BlackBerry QNX等竞品已沦为被集成组件
核心挑战:AI模型的概率性与传统功能安全标准的确定性假设存在根本冲突
融资动态与技术路线
资本与商业化
- 融资规模:完成近50亿元融资(B轮超10亿),估值破200亿,成大湾区首个超200亿具身智能企业,资方涵盖国家队与产业巨头
- 量产升级:爱宝系列年产破2000台跑通数万小时,2026H2启动国内首个数万台级产线转向标准品
- 工业飞轮:落地惠科“3年1000台”并多客户复购,华熙生物部署后吸引多家药企合作形成数据飞轮
- 新零售:“智魔方”8省十余市常态化运营(日均超10小时),计划三年落地全国1000点位用真实数据反哺
- 开源生态:2025年4月发布AlphaBrain Platform,打通“数据—训练—模型—评测”社区闭环
底层技术与路线
- 路线判断:郭彦东指出堆数据需10倍电力无法支撑,NeuroVLA以0.4W功耗和数百样本微调挑战Scaling Law,逻辑类似DeepSeek
- 世界模型:对物理环境做4D稠密预测但不直接输出动作,融入VLA后获得物理规律理解与行动前推演能力
- 脉冲网络:SNN采用事件驱动(静止近零耗能),以代理梯度实现端到端训练,大幅降低类类脑架构门槛
- 生物能力:唯一兼具主动感知、故障自恢复、时序记忆的系统,摇晃烧杯测试200Hz力峰涌现节奏感
模型演进与对比
- 演进路线:24年RoboMamba(规模1/20性能提80%)→25.06 FiS-VLA(超Pi0 30%)→25.11 Video2Act(先预测后执行)→26.04 NeuroVLA
- 核心对比:碰撞恢复成功率54.8%(传统VLA全失败);急动度降75%(优于OpenVLA等);脊髓功耗0.4W(降一个数量级)
- NeuroVLA架构:语义规划部(皮层,提炼意图不参与毫秒控)→动态调制部(小脑,高频读力降抖75%)→脉冲执行部(脊髓,0.4W且反射<20ms)
1.3 运动控制与全身协调
全身控制分层架构与跨本体数据迁移
具身智能之心(20260402) | 具身智能之心(20260409) | 具身智能之心(20260411) | 具身智能之心(20260413) | 具身智能之心(20260422) | 具身智能之心(20260501) | AI科技评论(20260507) | DeepTech深科技(20260514) | 量子位(20260519) | 机器之心(20260529) | AI科技评论(20260603) | AI科技评论(20260603) | 量子位(20260605) | 具身智能之心(20260606) | 具身智能之心(20260608) | AI科技评论(20260609) | 机器之心(20260610) | 具身智能之心(20260610) | 具身智能之心(20260612) | 量子位(20260616) | 机器之心(20260619) | 量子位(20260619) | AI科技评论(20260619) | 具身智能之心(20260624) | 机器之心(20260625) | 量子位(20260626) | 机器之心(20260628) | 机器之心(20260629)
- 供性统一模型:AFUN仅增3200万参数桥接三大模型,11个测试集全SOTA
- 动捕数据迁移:桥介数物CWM近千小时多机型验证,直指几十万小时目标
- 移动操作:TeleAI OASIS纯仿真数据真机成功率83%,照片自动生成物理资产
架构演进与动作优化
- Scaling Law验证:数据扩大10倍误差下降,20亿帧规模Transformer误差降至43.25mm
- 因果Transformer蒸馏:自注意力回望历史帧,成功将384个PPO专家蒸馏为单模型
- 极速推理与平滑优化:A2A Flow Matching 1-2步推理解决跳变;Legato提升10%完成时间
- 精细操作接触预测:潜空间预测加自适应门控实现五类任务近80%完成率,扰动下达86.7%
全模态运动生成(清华MARS实验室赵行组,一作黄思乔/李坤应等)
- OMG分层架构:生成大脑(OMG-DiT)+跟踪小脑(HoloMotion),原生125维动作空间直接训练
- OMG模态解耦设计:共享DiT主干加轻量适配器,文本用冻结T5-Base加交叉注意力,音频及参考用FiLM逐帧调制
- 模型特性:训练随机模态丢弃加推理无分类器引导,实现单/多模态灵活切换与连续平滑交互
- 模型规模:1%数据小样本迁移媲美全量;参数量越大性能越好;支持零样本融合未见文本加音频组合
- OMG数据工程:整合多源素材经GMR重定向至宇树G1动作空间,VLM补全无标注片段语义
- 数据校验与指标:MuJoCo校验物理合理性;文本驱动FID 6.03跌倒率0.78%,音频舞蹈无跌倒,姿态重定向MPJPE 18.84
具身前沿控制与传感
- 超负载协调:波士顿动力Atlas结合仿真随机化与生物力学,搬运45kg超限40%重物
- 触觉主动预判:HTD模型潜空间预判接触力提升精细任务成功率90.9%;TacForeSight力觉先于触觉200ms先导建图
- 类脑降延迟:NeuroVLA“脊髓”层功耗0.4W,安全反射延迟降至20ms
- 外骨骼控制:NUS方案用单电机加差速机构加FMT传感器,背部外骨骼提供30%-45%减负
主动感知与扩散策略驱动的运动规划加速
AI科技评论(20260605) | 具身智能之心(20260609) | CVer(20260613) | DeepTech深科技(20260614) | PaperWeekly(20260617)
轨迹规划与避障加速
- MIGHTY轨迹规划器:五次Hermite样条参数化融合局部控制与时空优化,计算速度提升2倍;300m森林场景100%成功率,位置误差仅0.0041m
- SIDP视觉导航策略:自模仿扩散闭环摒弃外部辅助网络,三相位训练绕开不稳定BPTT链条;5步DDIM压缩至110ms,边缘端提速2.5倍
主动感知机制
- 主动行动最大化信息增益:机器人通过换视角、移遮挡物等行为,将感知与动作规划纳入同一闭环,在部分可观测环境中消减不确定性
- 信念演化预测:度量语义地图同时编码占据概率、语义标签及不确定性,动作条件网络预测执行动作后信念的演化趋势
- 家庭搜索先验融合:结合LLM+3D场景图生成语义先验,信念传播机制允许概率扩散到未观测区域应对物体被移动情况
端到端极限穿越与记忆导航
- 苍蝇灵感无人机穿越:单目相机+IMU直出推力与角速度,摒弃传统状态估计与轨迹规划避免级联误差;20×60cm缝隙(5cm余量)大角度(>60°)穿越成功率仍达90%
- 两阶段解耦训练:低维oracle MDP中RL训练专家策略,经策略蒸馏与在线模仿学习建立历史像素到动作的直接映射;单缝成功率升至~96%
- OctMem-Agent空间记忆导航:自适应八叉树经3D token化与分层体素化压缩构建记忆,FiLM+Q-Former提取Scene Tokens实现指令引导检索;UAV-ON基准SR提升7.5%
理想「具身智能汽车」战略
AI大模型工场(20260617) | 光锥智能(20260618) | 光子星球(20260618) | 雷峰网(20260512)
全栈自研战略逻辑
- 软硬一体战略逻辑:CTO谢炎指出AI时代软硬件深度耦合,通用硬件无法满足端到端模型对时延与算力的极致要求
- 自研芯片必然性:通用芯片冯诺依曼架构存在中间翻译层损耗,理想选择数据流架构直抵计算本质,打破软硬件部门墙
- 全栈自研护城河:芯片+模型+OS垂直整合被定义为超越特斯拉唯一路径,年内OTA拟全面超越人类
马赫M100芯片与算力
- M100芯片性能:自研5nm车规级,算力1280 TOPS,效率超82%;性能达英伟达Thor-U的3倍、Orin X的4倍
- 数据流架构突破:摒弃冯诺依曼架构中间翻译层直抵计算本质,理论源自MIT高光荣教授研究
- 自研摊薄逻辑:两颗M100合计800mm²晶圆面积,依托大几十万辆车规模效应即可有效成本摊薄
感知模型与极致时延
- 纯视觉3D建模:基于CVPR 2024最佳论文3D-ViT替代BEV,突破未定义物限制,近场精度达激光雷达水平
- VLA端到端极致时延:整体反应0.28秒(降40%),逼近F1车手0.25秒,常人约0.45秒
- 全链路时延优化:视觉输入降47%、模型推理降43%、底盘响应降38%、OS调度降28%
- 云端车端协同:Mind-Pro云端推理效率超主流2倍且Token降38%;Mind-Edge全本地运行杜绝隐私泄露
- 安全与数据收敛:截至6月14日累计主动避险1727万次(重大5.6万次);数据呈对数衰减需扩规模提质量
架构边界与具身智能
- 拒绝舱驾一体:L4需极高确定性与专属算力;替代方案为车内TOKEN Server实现任务隔离互不影响
- 具身智能扩展:物理机器人涵盖交互、移动(自动驾驶)与操作三要素;车具备前两项,操作能力仍在探索中
1.4 人形机器人移动与奔跑性能
人形机器人极限奔跑性能与竞速赛事突破
财联社AI daily(20260411) | 智东西(20260412) | 第一新声(20260413) | APPSO(20260419) | 财联社AI daily(20260419) | 机器人前瞻(20260419) | 财联社AI daily(20260419) | 甲子光年(20260419) | 量子位(20260420) | CVer(20260420) | AI异类弗兰克(20260423) | 脑极体(20260509) | 量子位(20260615) | DeepTech深科技(20260619)
竞速突破与极速性能
- 极速逼近人类:宇树H1与镜识Bolt峰值达10m/s(36km/h),天工Ultra百米21.50秒,达人类二级运动员水平。
- 长跑跨代超越:2026亦庄半马冠军50分26秒,比首届2小时40分提速超3倍,超越人类纪录(56分42秒),规模翻5倍至300余台。
| 对比维度 | 2025年(首届) | 2026年 |
|---|---|---|
| 参赛规模 | 约20支/60台 | 300+台、26个品牌 |
| 冠军成绩 | 2小时40分 | 50分26秒 |
| 自主导航占比 | 个位数 | 约40%(约100支) |
| 核心瓶颈 | 关节过热宕机 | 虚实部署鸿沟 |
马拉松赛事背后的产业逻辑
- 跨界颠覆:手机厂商荣耀成立不到一年夺冠,核心源于自研400N·m关节电机及液冷系统(电机温控31.5℃),展现量产品控降维打击。
- 生态占位:宇树不拼竞速极值,凭低价G1铺量成为高校与开发者首选平台,构建二次开发生态。
- 技术痛点暴露:头部选手天工Ultra与宇树H1在终点失控摔倒,自主跌倒恢复尚未成熟;具身大模型需千万小时数据,当前仅几十万小时。
极限攀登与商业化探索
- 三冠王计划:改装版宇树G1已登顶钦博拉索(6310m),拟挑战莫纳克亚山与珠峰,但受目标国法律监管限制严重。
- 自主行走边界:仅坡度<30°可自主,陡峭路段全靠向导背运,避开冰裂缝等最难路段,实质是电池耐力与极端步态测试。
- 环保监测商业本质:双足设计旨在弥补固定盲区(轮式无法覆盖97%地表),充当移动巡逻传感器进行反盗猎。
- 加密资本背书:登顶由加密项目提供支持,作为具身智能概念验证支撑代币价值。
第三次浪潮与AI战略
- 前车之鉴:1960s美国工业机器人和1980s日本仿生机器人均因技术不成熟或经济衰退而退场。
- AI驱动跃迁:第三次浪潮核心在于大模型补齐大脑,荣耀Alpha战略推动从数字智能向物理智能(AHI)边端协同迈进。
智元远征A3自主乒乓对抗与AIMA生态
- 全球首个全尺寸自主乒乓对抗:智元远征A3在无遥控、无脚本条件下完成乒乓对打,球速超5m/s动态场景中实现全闭环控制
- 感控融合高速闭环验证:A3此前展示凌空飞踹、连续飞踢等高动态运动,乒乓对抗是速度、力量、协调性、平衡、控制五维度综合检验
核心技术方案
| 维度 | 技术方案 | 关键指标 |
|---|---|---|
| 视觉感知 | 20kHz高频脉冲相机(北大黄铁军团队) | 较传统相机(30-120Hz)响应提升10倍 |
| 运动控制 | SpikePingpong算法(北大仉尚航团队合作) | 全球首款人形乒乓运动控制算法 |
| 击球精度 | 毫米级球拍接触点预判 | 全自主闭环,无人工干预 |
| 对抗能力 | 连续接球、攻防切换 | 球速5m/s+毫秒级响应 |
AIMA生态与规模化部署
- AIMA技术架构:行业首个开放完整的具身智能生态体系,定位为产业规模化底层底座
- 元苼计划:5年20亿生态投入,2026年先行落地1亿元,覆盖科研、教育、伙伴、社区四维度
- 规模化进展:累计出货超10000台,已在导览、工业制造、物流等场景部署
- 政策窗口期:工信部启动实景实训专项行动,智元将2026年定义为"部署态元年"
EBiM Challenge 2026:全球首届移动双臂操作挑战赛
- 赛事概况:EBiM Challenge 2026 是全球首届移动双臂操作竞赛,总奖金超 30000 美元,由汉堡大学、波恩大学、CMU、清华等8所高校联合主办
- 三大赛道设计:涵盖线缆插接(双臂精密操作)、可变形材料处理(柔性物体操控)、居家辅助喂食(人机交互安全)三大核心场景
- 两阶段赛制:仿真阶段(6.29–8.3)→ 真机阶段(8.10起),采用统一 Franka Mobile FR3 Duo 平台进行 Sim-to-Real 验证
- 跨大洲同步测试:真机测试在中国上海、德国慕尼黑/汉堡、美国匹兹堡三地同步进行,确保评测结果可复现、可横向比较
- 评测核心价值:统一硬件 + 同一批任务 + 跨大洲同步测试,为移动双臂操作建立首个标准化评测基准
- 关键时间节点:6.22 报名开启 → 8.3 仿真截止 → 8.10 真机开放 → 8.20 线下赛 → 10.1 公布结果 → 11月 CoRL Workshop 颁奖
1.5 开源人形机器人平台与硬件平民化
Hugging Face LeRobot Humanoid:全栈开源双足平台与2636美元硬件破局
- 全球首个全栈开源双足平台:Hugging Face 发布 LeRobot Humanoid,从机械设计到策略训练完整开源,整机成本仅 2,636 美元,主创为 Virgile Batto,LeRobot 由前特斯拉科学家 Rémi Cadène 创立
硬件物料成本拆解
| 组件 | 型号/来源 | 成本 |
|---|---|---|
| 电机 ×12 | 灵足时代 RobStride | 1,880 美元 |
| 主控电子 | 树莓派 5 + CAN-FD | 235 美元 |
| 3D 打印耗材 | ~3.5kg PLA+ | 56 美元 |
| 标准件 | 螺丝/轴承/电缆/电源 | 465 美元 |
- 降本两大支柱:中国电机供应链(灵足时代电机占整机成本 71%)+ 桌面级 3D 打印(75 个结构件仅 56 美元),二者缺一不可
- 电机按部位分级配置:躯干 O0 ×2、髋部 O2 ×2、大腿 O3 ×4、小腿 O5 ×4,通信基于 CAN-FD 总线的 MIT 简化控制协议
- 软件架构务实折衷:树莓派 5 + Ubuntu + Python 上运行,避开传统 WBC,用 MuJoCo 仿真 + PPO 强化学习训练端到端步态模型,导出 ONNX/PyTorch 部署
- Hugging Face 机器人产品阶梯:SO-100 机械臂(~100 美元)→ SO-101 升级版(100-500 美元)→ LeRobot Humanoid(~2636 美元),2025 年 4 月收购 Pollen Robotics 获 Reachy 2 平台
- 生态飞轮战略:低门槛硬件吸引开发者 → 物理世界数据采集 → 数据回传开源社区 → 模型迭代,复刻 LLM 开源生态逻辑
- 英伟达合作:将 GR00T 人形基础模型上架 Hugging Face Hub,强化模型层生态
- 核心洞察:硬件壁垒正在消融,数据飞轮才是核心壁垒;竞争焦点从"造出机器人"转向"训练好大脑"(VLA 模型),中国供应链是开源机器人生态的隐形基石
1.6 ICRA 2026 华人学者获奖全景:从数据生成到触觉仿真的链路突破
ICRA 2026 华人学者获奖全景与技术突破
AI科技评论(20260605) | 新智元(20260606) | 机器之心(20260607) | AI科技评论(20260607) | "Z Potentials"(20260608) | AI科技评论(20260608) | AI科技评论(20260608) | 人工智能学家(20260609) | 机器人前瞻(20260613) | AI科技评论(20260616) | AI科技评论(20260527) | AI科技评论(20260603) | 量子位(20260623) | 量子位(20260624)
- 华人学者全面爆发:CMU石冠亚OmniRetarget获双料最佳,深大胡瑞珍获自动化最佳,北航全权、上科大分获野外与学生最佳论文
- 期刊大奖中国力量:港大FAST-LIVO2拿下IEEE T-RO傅京孙奖(史上第二次颁中国),邵逸飞SymSkill斩获ICRA罕见双冠
- 算法登顶国际盲测:千寻智能Spirit v1.6力压英伟达Cosmos3与Pi0.5登顶,解决纯视觉VLA无法预测摩擦力、形变等物理短板
- 工业级技术落地:IMR-LLM将自然语言转析取图并交优化器调度,覆盖23个场景50任务,验证LLM+传统优化优于纯端到端
- 感知与安全突破:MIT提出3D场景图与情景记忆替代纯SLAM地图;普渡大学SELP在LLM生成中实时屏蔽违规token实现约束内置
- Sim-to-Real效能质变:NVIDIA Isaac Lab在未见任务上破80%成功率;瞬恒智能视触觉融合模型使高精度装配成功率提升2.25倍
- 柔性操作跨越瓶颈:狮子山实验室斩获叠衣对抗决赛第一,自研LiOS实现Real2Sim遥操作闭环;零次方沉淀1000h+真机数据
- 产业链结构性整合:ICRA 2026确立本体+灵巧手+模型+数据全栈闭环标配,单一环节公司骤减,真机数据采集成核心竞争壁垒
- 灵巧手趋于人手1:1:20+自由度、触觉集成成主流;源升APEX采用臂手分离与电机全内置,实现30kg级单手负载及模块化快拆
2. 自动驾驶与出行
2.1 智驾产业困境
智驾产业的结构性困境与安全风险
财联社AI daily(20260401) | 老冯云数(20260401) | 雷峰网(20260402) | 雷峰网(20260402) | 雷峰网(20260401) | 雷峰网(20260406) | AI蓝媒汇(20260401) | 雷峰网(20260401) | 雷峰网(20260423) | 雷峰网(20260502) | 前沿在线(20260507) | CVer(20260521) | 智能相对论(20260528) | 雷峰网(20260616) | 智东西(20260617) | 光锥智能(20260617) | 前沿在线(20260628)
- 极客型创始人缺乏商业闭环:重工程轻商务,错失端到端技术代差且盲目转向自救
- 定价权倾斜引发巨亏:某智驾为比亚迪开发仅上车千辆即巨亏,中小Tier1生存空间骤缩
- L2强标重塑传感器刚需:2027年实施强制国标设硬性阈值,纯视觉易失效,推毫米波雷达成安全必选
- 智驾安全短板尽显:2025年辅助驾驶相关投诉同比激增300%,纯视觉与规则代码在复杂工况短板尽显
- 低成本智驾规模量产:卓驭转向端到端原生大模型,合作34家车企130+车型,获一汽36亿投资
- 特斯拉FSD战略受挫:HW3硬件无法支撑无监督FSD,400万车主被实质抛弃,落地推迟至2026年底
- 地平线增收不增利:从高毛利IP转向低毛利软硬件交付,营收37.58亿亏损超百亿,毛利94.5%降至34.5%
舱驾融合与芯片算力格局
- 舱驾融合量产提速:2026年为落地元年,2030年市场规模有3.6倍增长,整车降本约30%
- 高通骁龙8775提速:全球首款量产单SoC同时支持座舱与ADAS,已获9款车型定点,极狐问道V9覆盖超500种AI场景
- 骁龙数字底盘规模化:自2021年起支持超300款中国智能网联汽车,全球覆盖35亿台智能终端
- 芯片竞争范式转移:从单一算力竞赛转向系统级能力,算力利用率成隐藏问题(购40TOPS实际或仅用20)
算力平台与前沿技术动态
- 高通8797:算力达1280TOPS
- 英伟达Thor:算力2000TOPS,市场份额从53%降至47%
- 理想马赫100:算力2560TOPS,走全栈自研路线
- 地平线星空6P:650TOPS/5nm,首创城堡安全架构实现物理隔离,交付缩至8个月
- 跃龙IQ10系列处理器:面向工业级AMR和全尺寸人形机器人,提供高性能低功耗机器人大脑
- 端云协同降Token成本:部分任务留设备端本地计算,代码场景Token消耗减超140万降本约60%,网页构建成本降至1/4
- 6G商用锁定2029年:联合近60家产业伙伴(含近20家中企),定位首个AI原生无线系统,融合连接、感知与计算
激光雷达芯片化与产业格局重构
- 芯片化驱动产业重构:SPAD-SoC 走向量产,核心竞争力从光机集成转向芯片设计;禾赛自研信号处理芯片出货超 2.3 亿颗
- 头企告别价格战:禾赛 2025 年扭亏为盈(营收 30.28 亿,净利润 4.36 亿),极氪 9X 顶配版(搭载 520 线)销量占比超 80%
- 车载与机器人底层芯片复用:核心差异仅在测试与管控标准;速腾“凤凰”主攻车载高线数,“孔雀”面向机器人补盲
竞争重心三阶段迁移
| 阶段 | 竞争焦点 | 壁垒来源 |
|---|---|---|
| 过去 | 集约化生产 | 系统集成能力 |
| 现在 | 芯片设计能力 | SPAD-SoC 自研 |
| 未来 | 固态光发射扫描 | 光学控制+芯片研发 |
RGBD 融合三阶段演进
| 阶段 | 方案 | 对齐状态 |
|---|---|---|
| 初期 | 双镜头双芯片 | 空间时间难对齐 |
| 中期 | 单镜头双芯片 | 光路仍有差异 |
| 终极 | 单芯片单镜头 | 天然对齐,低成本 |
- 全彩感知突破:禾赛“毕加索 SPAD-SoC”最高支持 4320 线全彩 4K,计划 2025H2 量产;单芯片 RGBD 需达 400 万像素具市场价值
- 产业分工摄像头化:光学巨头代工入场,核心企业供芯片获设计利润,新晋厂商代工赚加工利润
- 安全溢价逻辑:比亚迪安全兜底承诺仅限搭载雷达车型;多传感器低事故率带来的十年保费节省可覆盖硬件成本
协同感知通信优化:CoLC 前景感知采样与柱状特征补全
CoLC(北交大+厦大,CVPR 2026)针对早期协同感知的通信压缩难题,提出前景感知采样(FAPS)与柱状特征补全(CEEF),在压缩约50%通信量下保持接近完整融合性能。
核心洞察:早期融合需保留背景
- 背景点不可丢弃:为跨车空间对齐和识别提供必要上下文,丢弃会严重损害性能
- 与中期融合经验相反:中期融合可只传前景,但早期融合必须保留背景点
- 混合采样最优:前景+背景点组合在相同通信量下优于任何单一采样方案
发送端 FAPS 采样策略
- 显著性评分:轻量级点级选择器为邻居点云生成分数,按阈值划分前景/背景
- 前景保形:前景点用最远点采样(FPS),最大化保留目标几何结构
- 背景低保:背景点用随机采样,低计算代价维持环境上下文
接收端 CEEF 补全模块
- VQ补全流程:稀疏柱状特征→可学习码本离散化→解码器恢复稠密特征
- 轻量高效:推理时延75.86ms,与Where2comm/CoBEVT同量级
- 自适应互补融合:仅在原始融合信息不足位置引入补全,不破坏真实观测
三数据集 SOTA 性能(AP@0.7)
| 数据集 | CoLC (完整) | CoLC* (压缩50%) |
|---|---|---|
| V2XSim | 87.89 | ~50%通信量 |
| OPV2V | 92.93 | ~50%通信量 |
| V2XSet | 89.81 | ~50%通信量 |
异构鲁棒性优势
- 模型异构不敏感:直接融合原始点云,避免中/晚期融合的语义不一致问题
- 抗真实扰动:在定位误差、通信时延下始终优于单车检测,比早期融合更稳健
- 早期融合新价值:配合稀疏传输+补全,展现中/晚期融合无法替代的异构兼容潜力
融资·技术路线·商业化进展
- 融资里程碑:智平方累计融资近50亿元(约7亿美金),估值超200亿元,2026年2月完成超10亿元B轮系列,成为深圳首家具身智能独角兽
- 资本结构亮点:本轮产业资本占比突出——茅台集团、中国生物制药、康龙化成、招商局资本等跨行业产业资本下注,标志具身智能从技术概念进入真实交付验证阶段
类脑分层架构 NeuroVLA
| 层级 | 对标生物系统 | 职责 |
|---|---|---|
| 上层(皮层) | 语义理解 | 任务规划 |
| 中层(小脑) | 运动协调 | 动态修正 |
| 底层(脊髓) | 高频执行 | 碰撞反射(脉冲神经网络,功耗~0.4W) |
- 关键性能:运动抖动降低75%+,碰撞反射响应~20ms;不依赖堆参数/算力,走神经科学启发路线
- 平台化:AlphaBrain Platform 开放数据处理→模型训练→评测全工具链
量产与商业化
| 维度 | 进展 |
|---|---|
| 产品线 | 三代轮式可升降人形(Alpha Bot / 1S / 2) |
| 产能 | 半自动化产线,年产能超2000台;2026H2规划数万台级产线 |
| 半导体显示 | 惠科,三年1000台合作 |
| 生物制药 | 华熙生物产线部署完成 |
- 战略逻辑:「模型×硬件×场景」三位一体,竞争焦点从模型规模转向稳定交付与场景复购
融资与技术路线
- 融资概况:擎羽科技完成 Pre-A 轮融资,顺为资本与五源资本联合投资,高鹄资本任独家财务顾问;2025年3月成立,半年内完成三轮融资
- 柔性机器人本体:绳驱连续体结构,整机重量 750g–2300g,号称全球最轻量产级柔性机械臂,已量产并销往全球数十所高校实验室
- 三层技术栈:柔性本体 + 数据飞轮 + 跨本体通用模型;数据来源涵盖行业机器人平台数据、人类Ego数据、自有本体回流数据,经重定向形成跨本体训练分布
- 跨本体模型:对标 Physical Intelligence(PI),学习同一任务在不同身体条件下的共性规律,实现跨构型迁移与跨场景泛化
- 创始人彭锐(29岁):大疆嵌入式开发经验 + Nature子刊一作,团队来自斯坦福、清华、普林斯顿等,平均年龄26岁
- 核心判断:柔性本体是数据采集入口,跨本体模型才是终局;数据飞轮的网络效应构成核心壁垒
2.2 无人配送与出海
无人城配出海策略与市场格局
新石器与九识智能 2025 年交付均破万台,融资总额超 10 亿美金,出海逻辑已从"卷低价复制国内"转向"找路权+绑伙伴+本地合规"。
四大市场进入策略对比
| 市场 | 核心玩家 | 关键进展 | 核心障碍 | 商业化可行性 |
|---|---|---|---|---|
| 中东 | 新石器、九识 | 半年获牌照到数百台部署,2026 目标 1 万台 | 政策准入 | 最高 |
| 美国 | 新石器 | 本地设新公司,核心代码重写,招募 Nuro 附近人才 | 签证限制、合规重构 | 通道基本关闭 |
| 欧洲 | 九识 | 评估中,战略备份阶段 | 数据监管红线、场景错位 | 较低 |
| 东南亚 | 九识 | 绑定邮政国家队,优先封闭场景 | 人力成本低、路况混乱 | 仅新加坡可行 |
中东市场:资本与路权双驱动
- 新石器融资:获 Stone Venture 领投超 6 亿美金 D 轮,资本驱动快速落地
- 新石器部署:阿布扎比完成 98 公里无接管配送,首批数百台车 2 月底运抵
- 新石器 2026 目标:中东交付 1 万台,与 Noon 电商平台订单验证完成
- 九识智能:拿下阿布扎比无人驾驶运营牌照,投入 RoboVan 常态化运行
- 本地化定制:与阿联酋 K2 集团合作,传感器、底盘、电池、算法适配 40℃+高温和沙尘暴
- 九识产品适配:推出高温版 Z5 车型,液冷散热,60℃ 环境稳定运行
美国市场:近乎"重启"的本地化
- 签证受阻:CEO 余恩源被拒签后放弃原路径,转向本地设公司
- 本地新公司:由学霸君创始人张凯磊负责,核心控制权归张,国内主体仅保留部分股份
- 人才与合规:公司设于 Nuro 附近就近招人,核心代码和系统架构需重新搭建满足美国合规
Curr-0:单一策略实现全身灵巧操作
量子位(20260616) | AI科技评论(20260617) | 机器之心(20260618) | 具身智能之心(20260618)
- 技术突破:Curr-0以单一端到端策略统一控制移动、全身姿态与手部精细操作,运行在70+自由度人形机器人上
- 物理耦合:站姿决定抓取可达性、躯干影响施力、足底制约平衡、手部反作用运动,移动与操作在物理上不可分割
- 核心数据:基于21,000小时真实人类行为数据(含2,800小时全身示教)训练
三层协同系统架构
| 层级 | 核心职责 |
|---|---|
| 上层 | 任务语义理解与语言指令解析 |
| 中层 | 全身运动协调与姿态稳定 |
| 下层 | 手部与物体的精细接触力控 |
- 同步并发:三层在同一闭环策略内实时协同运行,非流水线串联,运动中可同步调整姿态
- 应用场景:成功自主执行撕茶包、点香、盖章、清理桌面、抱物穿门蹲放等非结构化全身精细操作
范式对比与架构优势
| 维度 | 传统分步范式 | Curr-0统一模型 |
|---|---|---|
| 架构设计 | 移动与操作独立模块串联 | 单一模型共享权重 |
| 状态共享 | 模块间物理状态不共享 | 全身状态同一闭环同步响应 |
| 场景适应 | 结构化场景(如流水线) | 非结构化真实物理场景 |
数据采集飞轮与测试闭环
- HumanEx外骨骼:人类穿戴设备在真实场景自然完成任务,将规模指标从“机器人部署小时”转为“人类任务小时”
- 杠杆效应:解除机器人本体数量限制,不依赖机器人即可在真实场景同步采集姿态、动作与肌电数据
- 多模态世界模型:覆盖视觉、本体感知与力觉的数字环境,彻底解决物理测试不可回滚、场景无法重置的瓶颈
- Human-in-the-World-Model:策略闭环运行,出错时人类直接介入修正,修正片段持续进入训练闭环
滴滴8.0:AI嵌入场景毛细血管的平台战略
- 平台战略:不自研大模型,用AI加固十余年线下重资产运营,将运力网络与真实数据转化为跨场景壁垒
- App架构升级:顶部导航从单一出行扩展为“出行/送货/旅行/车主”四大入口,标志向综合服务平台转型
AI小滴:提升出行匹配精度
- 标签体系:基于真实出行反馈沉淀90+服务标签(如空气清新度、行李空间、驾驶平稳度等)
- 体验升级:AI解析口语化需求(如“晕车”、“带老人”)并转化为精准匹配条件
- 服务分层:针对细分人群推差异化服务,如“她计划”优先女司机、“助老打车”一键呼叫现金支付
- 核心收益:甄选快车投诉量下降近50%,98%好评率,司机周均多赚约130元
跨场景AI能力复制矩阵
| 场景 | AI赋能与业务动作 | 关键数据与成果 |
|---|---|---|
| 极速赔 | AI图像识别定损→算法自动赔付→平台先行赔付 | 最快38秒审核赔付,48小时到账 |
| 送货业务 | 时空匹配/路线规划等出行底层方法论横向迁移 | 覆盖27种货车车型+即时配送+搬家六梯度 |
| 旅行服务 | 接入房源与航司数据,统一品控与定价标准 | 60万+房源比价,租车95%+订单无投诉 |
关键洞察
- 重资产即真壁垒:避开轻量化AI入口同质化竞争,壁垒源于十余年积累的真实场景数据与运力网络
- 底层方法论可复制:出行到送货/旅行,底层依赖时空匹配与动态定价,实现确定性跨场景复制
- 以AI消灭不确定性:精准解决服务不确定性(如货损赔偿、司机匹配),覆盖最高频真实需求
2.3 理想汽车AI转型:从增程之王到AI公司的战略博弈
理想L9 Livis与AI公司战略转型全景
雷峰网(20260513) | 雷峰网(20260515) | 甲子光年(20260516) | 光锥智能(20260518) | 雷峰网(20260601) | AI产品黄叔(20260615) | 智东西(20260615) | AI大模型工场(20260617) | 雷峰网(20260618)
全栈自研技术底座
- 马赫M100芯片:弃用冯·诺依曼架构转投数据流(研发背靠高光荣团队),5nm车规级,双芯总算力2560TOPS,算力利用率超82%
- 换道超车逻辑:99%的AI算力需求是推理,跟随英伟达如同“落后博尔特2秒起跑”,数据流架构去中间翻译,实测为Thor-U的3倍、Orin的4倍
- 模型矩阵:云端Mind-Pro(Token降耗38%),端侧Mind-Edge支持多模态全本地运行防隐私泄露,车控MindGPT打通指令执行
具身智能跃迁与智驾能力
- 核心评估标准:从功能安全进阶为“保护人类”,核心分水岭是遇阻能自主寻解而非丢回给人,最终实现“比人效率更高”
- 感知重仓:纯视觉3DViT达激光雷达级,4颗雷达降级为数据采集与极端场景兜底
- 智驾表现:统一感知执行的马赫VLA模型,端到端延降至0.28秒(优于人类0.45秒),年底对齐FSD V14
- 迭代积累:日均主动避险1.2万次,累计跑通76.7亿公里真实数据闭环,攻坚交警指挥等无规则场景
硬件重构与补能升级
- 全线控底盘:端到端物理延压至200-300ms,实现AI直接控车,支撑车身云台级稳定
- 高压快充:配72.7kWh 5C电池,纯电420km综合1500km+,10分钟从10%充至80%
财务困境与竞争红海
| 指标 | 数据表现 | 市场环境 |
|---|---|---|
| 盈利能力 | 毛利率跌破20%至18.7% | 纯电未盈利,行业利润率降至3.2% |
| 营收状况 | Q1营收230亿(↓11.4%),净利暴跌85.8% | 陷入50万级“9系混战” |
| 增程市占 | 缩至24.6%,失去销冠 | 被赛力斯(26.7%)反超 |
| 单车均价 | 从32万大幅降至25万 | 硬件创新领先期极短 |
逆周期投入的长期底气
- 研发重仓:Q1投入27亿(超50%投AI),全年约120亿,在行业缩减时逆势加码
- 现金充裕:储备943亿连续10季度千亿规模,支撑主动停产老款换取干净换代
- 用户策略:公开换代停售节奏,自掏5亿为i6用户补购置税差额,践行长期主义
2.4 智能汽车产品与品牌
中国智能汽车品牌战略、技术演进与供应链国产替代
量子位(20260410) | 量子位(20260425) | 光锥智能(20260427) | 划重点KeyPoints(20260428) | 雷峰网(20260515) | 雷峰网(20260518) | 雷峰网(20260526) | 智能相对论(20260603) | 雷峰网(20260603) | 雷峰网(20260605) | 雷峰网(20260608) | 火山引擎(20260609) | 摸鱼小李(20260609) | 雷峰网(20260610) | 十字路口Crossing(20260612) | 脑极体(20260612) | 雷峰网(20260401) | APPSO(20260613) | 甲子光年(20260613) | 智东西(20260613) | 量子位(20260615) | 智能相对论(20260627)
- 技术出海创佳绩:1-5月海外新能源销超61万辆,比亚迪韩国累销破万跻身国别前三,腾势D9领跑香港MPV市场
- 出海深层壁垒待建:当前海外突破不靠低价倾销靠技术,但仍停留在产品输出阶段,尚未实现品牌与标准输出
品牌定位与商业模式
- 高端化全面突破:问界以34.48亿美元品牌价值跻身全球豪华品牌TOP 10(唯一中国品牌)
- 品牌矩阵与蓝海:蔚来确立三品牌结构(蔚来:乐道:萤火虫约35:55:10),乐道L80切入渗透率仅6.4%的大五座纯电SUV
- 低端走量与智驾下放:零跑A10以6.58万元起售搭车位到车位智驾,冲击百万目标,但单车利润仅906元承压
- 跨界合作新范式:赛力斯让出控股权引入国资与宁德时代,AIVA联盟确立三方分工(制造/电池/算力)
核心技术演进趋势
| 维度 | 技术趋势 | 代表案例/数据 |
|---|---|---|
| 硬件架构 | 高压平台与空悬下放 | 900V与空悬2026年成20-30万级标配 |
| 智驾芯片 | 全栈自研打破依赖 | 比亚迪4nm璇玑A3、小鹏图灵芯片 |
| L3落地 | 责任划定加速商用 | 华为ADS 5.0在23城路测,事故共担 |
供应链国产替代与平权
- 底盘定义权夺回:线控制动博世份额降至约60%,空气悬架国产供应商(孔辉+保隆)合计份额破65%
- 跨动力智能化平权:全新奥迪Q5L搭载华为乾崑智驾,首破燃油车感知与OTA瓶颈实现城区/高速领航
AI原生造车理念落地
- AI前置重构研发:AIVA提出“先有AI,再有车”,将AI置于整车架构与需求定义源头
- 架构演进:从“AI上车(聊天)”到“AI用车(主动调节)”,终极为“AI定义车(自进化持续学习体)”
- Agent OS枢纽:负责长记忆、跨场景意图理解与多模态感知,支持跨设备流转与主动服务编排
量产进程与供应链挑战
- 订单结构错配:小鹏GX顶配订单占比60%(预期15%),纯电反超增程至58%,暴露独家供应产能瓶颈
- 量产时间表:AIVA首款ME7全系定位20万元以上,计划2026年内发布
2.5 自动驾驶与出行
自动驾驶商业化落地与技术架构前沿
财联社AI daily(20260401) | 财联社AI daily(20260401) | 财联社AI daily(20260401) | AI早餐汇(20260412) | DeepTech深科技(20260419) | 雷峰网(20260421) | 新智元(20260422) | 光锥智能(20260422) | 脑极体(20260425) | AI早餐汇(20260426) | 光子星球(20260427) | 硅星人Pro(20260429) | 前沿在线(20260430) | 雷峰网(20260430) | 智能相对论(20260502) | 雷峰网(20260506) | 人工智能学家(20260506) | 极市平台(20260519) | 新智元(20260520) | CVer(20260520) | AI科技评论(20260525) | 机器之心(20260528) | CVer(20260529) | 雷峰网(20260602) | 雷峰网(20260616) | 机器之心(20260623) | 新智元(20260623) | 百度文心(20260624) | 量子位(20260624) | 光子星球(20260624) | 智能相对论(20260629)
- 世界模型基座:从模仿学习转向物理因果预测,华为ADS 4.0算力45亿flops,严重事故间隔达1100万公里
- 端到端与VLA:MindVLA-U1引入语言意图,WOD-E2E精度超人类,清华CLOVER达94.5 PDMS
- 双专家异步推理:AutoMoT解耦低频理解与高频行动,验证整体微调损害通用推理,需专门化动作模块
场景渗透与商业闭环
- 商业化核心:具身智能优先看ROI,高危高重复高成本工业场景比消费场景更早跑通商业闭环
- 闭环驱动力:国内解决安全与招工难,海外极高人力成本(如澳洲飞进飞出制)使客户看吨成本降幅付费
- L2与L4双线并行:L2量产造血极速交付(10万台从2年缩至40天),L4探索商业化,"AI司机"订阅毛利率达87.7%
- B端无人化:驭势机场市占90.5%,小马单公里成本降50%
- 干线物流:DeepWay交付超万台L2重卡,智驾付费订阅率超30%,2026年开启编队
- L2.9智驾平权:城区NOA搭载率翻倍至8.1%,预计2028年市场达952亿,主打软硬解耦授权
- 补能与飞行汽车:华为兆瓦超充5分钟续航百公里,小鹏汇天飞行汽车预售超7000台
矿山智驾与全球化
- 产品线延伸:从无人矿卡扩展至无人挖机、自动充电机器人(已落地)、凿岩与爆破机器人(制造推进中)
- 矿山部署:希迪部署1700台无人矿卡,新疆56台无人与500台有人车混编,进军澳洲/南美/非洲/中东
- 国际拓展:已进入多洲,与英国MMD集团战略合作,海外ROI清晰
- 全球化提速:中东客单价高(1-1.1美元/km)成首选,萝卜快跑全球累计里程超3.3亿公里
合规量产与演进前瞻
- 渐进式人机协同:经远程操控→模仿学习→半自主→全自主四阶段,先记录工人操作训练模型再逐步切换
- L3准入痛点:广华GT7获广州测试许可,行业接管间隔需33-66万公里,当前差距3-4个数量级
- 合规错位:硬件已达L3但受限法规仅作L2运营,预计2027年L3规模商用
- 赢者通吃:主机厂合作周期长达3-7年,全球最终仅存活3-4家供应商
DriveVLN:视觉语言导航赋能裸车自主导航(CVPR 2026)
- 核心命题:将视觉语言导航(VLN)引入自动驾驶场景,实现仅凭一句自然语言指令即可驱动无高精地图依赖的"裸车"完成自主导航
- 技术定位:VLN传统应用于室内机器人导航,DriveVLN将其扩展至室外开放道路的自动驾驶场景, bridging VLN与自动驾驶两个领域
- CVPR 2026收录:该工作被CVPR 2026接收,标志着语言指令驱动的自动驾驶导航受到学术界关注
- 注:原文正文未提供具体技术架构与实验数据,以上基于标题与来源信息提炼
车端AI推理芯片架构:理想马赫M100的数据驱动范式
- 核心参数:理想自研马赫M100采用5nm制程,峰值算力1280TOPS,典型任务算力利用率达82%,已搭载于理想L9系列
- 范式重构:以数据驱动架构替代冯·诺依曼指令驱动,专为AI推理的固定数据流图量身定制,消除控制开销
- 制程瓶颈:5nm到3nm逻辑性能仅提升20%,芯片竞争从“堆叠资源”转向“高效利用”,架构创新比制程更关键
三大核心设计逻辑
| 设计维度 | 核心思路 | 解决问题 |
|---|---|---|
| 执行范式 | 数据驱动替代指令驱动,数据就绪即触发 | 消除中央指令调度延迟 |
| 资源效率 | 编译器静态调度,硬件专注纯粹计算 | 剔除冗余控制,提升晶体管利用率 |
| 协作模式 | 分布式架构替代中心化调度 | 支撑算力线性化扩容 |
- 四大硬件机制:分布式数据触发;取消多级缓存搭载大容量分布式SRAM;2D Mesh(256GB/s)+环形广播双互联总线;编译运行时协同
- 编译器核心:空时精细调度实现计算并行与流水线流转;生产者-消费者模型重叠搬运与计算,保持满负荷
- 工程指标:PCB布板满布率70%(行业55%-60%);全冗余架构(双SOC/双MCU/双供电)达最高功能安全等级
- 性能突破:300m参数感知模型下分辨率翻倍、推理速度提升1.9倍
- 通用AI平台:稳定部署30B参数以下大模型,突破传统仅运行感知模型的局限,支撑车载Agent与内容生成
物理AI平台定义与Arm异构计算架构验证
- 生态拐点:类似智能手机诞生前的融合期,全球超2200万Arm开发者覆盖从微控到中央计算全场景
计算架构的核心瓶颈
- 核心洞察:瓶颈不在算法而在计算架构,多负载并行、严格功耗散热约束、毫秒级确定性响应构成三重硬约束
- 五大硬性约束:严苛功耗限制、确定性时延、功能安全认证、稳健信息安全及超十年产品生命周期可靠性
四层核心能力架构
- 感知层:激光雷达与视觉传感器阵列生成数据流,支撑检测、测距与环境建模
- 边缘AI推理:本地端运行模型无需云端响应,零延迟是保障安全场景的决定性要求
- 多模态推理:融合视觉与语言输入,支持设备理解场景、解读指令并作出行动决策
- 实时控制防护:确定性计算保证可预测的响应时限,安全机制管理复杂环境运行风险
机器人形态与自动驾驶演进
- 人形机器人:如智元机器人,具备灵巧操控与意图解读能力,专攻人类生活与工作环境
- 四足机器人:如云深处科技与波士顿动力Spot,擅长复杂地形与翻越,主攻巡检与应急救援
- 工业移动平台:如普渡D5,融合激光雷达与视觉自主作业,应用于巡检、巡逻与物流场景
- L4自动驾驶:如文远知行与联想车计算合作项目,应对复杂真实路况,实现L4级自主驾驶
工程验证与计算核心部署
- Rivian RAP1:基于Armv9架构,实现第三代自主计算平台的感知、规划与控制全栈垂直整合
- Tensor L4平台:单车集成超400个Arm核心,AI推理与车辆控制系统深度耦合
- Neoverse AE:专攻高吞吐自主化工作负载
- Cortex-X:承担通用计算与冗余备份
- Cortex-R:负责实时安全关键控制
- Cortex-M:管理低功耗子系统
云边端融合与软件连续性
- 全链路闭环:云端训练至边缘部署无缝衔接,架构一致性支撑工作负载跨环境无损迁移
- 核心洞察:软件连续性比峰值算力更稀缺,统一底层架构比特定峰值性能更具长期竞争力
- 行业共识:特斯拉、蔚来等车企均以Arm为核心,依托统一架构实现长达数年的OTA持续迭代
2.6 华为智驾史前史:三线并行的暗线孵化(2015-2019)
华为智驾组织起源与三条暗线技术博弈
- 三线并行孵化(2015-2019):车BU成立前已有三条互不隶属的技术线暗中运作四年,解释了为何一经成立即具数千人规模
三条技术暗线博弈
| 技术线 | 核心人物 | 关键动作与产出 |
|---|---|---|
| 加拿大线 | 刘武龙 | 因国内路测易暴露战略,选滑铁卢改装林肯MKZ(单车30万美元),2017年跑通首个L3+原型 |
| 2012实验室线 | 蔡建永/陈奇 | 2016年耗资350万向Momenta采购感知网络源码,完成国内首次纯视觉车道线识别演示 |
| 海思线 | 苏箐 | 借用昇腾项目预算造出昇腾310芯片(12nm, 16TOPS),为中国首颗车规级AI芯片 |
- 2018年MMD转折点:苏箐以工控机+普通奥迪击败顶配大疆与百度Apollo,徐直军当场拍板转正拨付资金
- 2019三线会师:车BU成立时代码库近乎为零,苏箐(激进有远见)与陈奇(务实善融合)搭档主政
- 灰度创新机制:麒麟、昇腾、智驾均非顶层战略规划,而是由个人在灰色地带推动试错长出
黄金时代核心团队(2019-2021)
- 核心团队"五龙":苏箐(偏执领袖)、陈亦伦(架构大脑)、陈奇(招聘伯乐)、王官军(质量大管家)、王新宇(规控专家)
- 双轨制管理:资源线(PDU)与产品线(SPDT)并行,技术专家具绝对话语权,争执只看真理不论职级
- 全面拥抱AI化:逐模块用数据驱动模型替代规则代码,新架构一上来80分直接碾压老方案60分
- AI化哲学判断:百万行规则代码复杂度已超人类理解极限,神经网络未必比"魔数"更黑盒
- 高精地图成本倒逼:单城建图10~20亿元、年维护2~3亿,两年半仅覆盖2.5城,倒逼众包RoadCode预研
- 工程化日级产出:平移麒麟质量标准提升30%至50%,OneTrack策略统一主干实现问题日清日结
- 2021车展高光与暗礁:极狐HI版实现19公里零接管,首创智驾小蓝灯将机器状态转为公共语言
- 演示局限与巅峰终结:极度依赖固定路线与苦活累活,此役成高精地图路线巅峰与终点
- 精准技术预判:陈奇离职前留下50页PPT,准确预测了2024年智驾技术路线走向
3. 世界模型与物理仿真
3.1 世界模型突破
世界模型理论框架、架构演进与技术路线之争
甲子光年(20260402) | AI科技评论(20260402) | 钛媒体AGI(20260403) | 极市平台(20260403) | 机器之心(20260414) | AI科技评论(20260414) | 智能涌现(20260414) | 具身智能之心(20260414) | 雷峰网(20260414) | 人工智能学家(20260414) | 深度学习与NLP(20260414) | 机器之心(20260419) | 甲子光年(20260420) | Z Finance(20260420) | 机器人前瞻(20260420) | 前沿在线(20260422) | AI寒武纪(20260423) | CVer(20260424) | 第一新声(20260427) | 机器之心(20260429) | 数智前线(20260429) | 极市平台(20260429) | 具身智能之心(20260430) | PaperAgent(20260430) | AI科技评论(20260430) | 机器人前瞻(20260430) | CVer(20260430) | 量子位(20260501) | 划重点KeyPoints(20260504) | CVer(20260504) | AI寒武纪(20260509) | 量子位(20260509) | CVer(20260512) | AI科技评论(20260513) | 机器人前瞻(20260515) | "Z Potentials"(20260515) | 机器之心(20260516) | 机器之心(20260517) | 具身智能之心(20260518) | 人工智能学家(20260520) | 具身智能之心(20260522) | 量子位(20260522) | 十字路口Crossing(20260523) | 钛媒体AGI(20260523) | 量子位(20260525) | 机器人前瞻(20260525) | 新智元(20260526) | 具身智能之心(20260526) | PaperWeekly(20260526) | 量子位(20260530) | 机器之心(20260530) | "Z Potentials"(20260530) | 新智元(20260531) | 量子位(20260531) | Datawhale(20260531) | "财联社AI daily"(20260601) | 量子位(20260601) | 机器之心(20260601) | AIGC开放社区(20260603) | 机器之心(20260603) | 公子龙(20260603) | 机器之心(20260603) | 人工智能学家(20260604) | 钛媒体AGI(20260604) | "Z Finance"(20260604) | CVer(20260604) | AI前线(20260604) | AI前线(20260604) | DeepTech深科技(20260604) | 机器之心(20260604) | 智东西(20260604) | "财联社AI daily"(20260604) | 极市平台(20260604) | 具身智能之心(20260605) | AIGC开放社区(20260605) | 机器之心(20260605) | 人工智能学家(20260605) | InfoQ(20260605) | 人工智能学家(20260606) | 人工智能学家(20260606) | 具身智能之心(20260607) | InfoQ(20260608) | 机器之心(20260609) | 新智元(20260609) | 机器人前瞻(20260610) | "Z Potentials"(20260610) | AIGC开放社区(20260612) | AI前线(20260612) | 机器之心(20260612) | 新智元(20260612) | 量子位(20260612) | 机器之心(20260613) | 人工智能学家(20260613) | 前沿在线(20260614) | 机器之心(20260614) | 昆仑万维集团(20260614) | 具身智能之心(20260615) | 甲子光年(20260615) | 前沿在线(20260615) | AI早餐汇(20260616) | 具身智能之心(20260616) | AI前线(20260616) | 智能涌现(20260616) | 新智元(20260617) | 具身智能之心(20260617) | 机器人前瞻(20260617) | 人工智能学家(20260617) | AI前线(20260618) | 甲子光年(20260618) | 机器人前瞻(20260618) | 暗涌Waves(20260618) | 机器之心(20260618) | 量子位(20260620) | AI前线(20260623) | "Z Finance"(20260623) | "Z Potentials"(20260624) | 机器之心(20260624) | 量子位(20260624) | 极市平台(20260624) | 具身智能之心(20260626) | 机器之心(20260627) | 具身智能之心(20260627) | 机器之心(20260629) | 机器之心(20260629) | DeepTech深科技(20260629)
-
理论溯源:Craik(1943)首提心智小尺度模型,Ha(2018)确立VAE+MDN-RNN架构实现“梦境学习至现实迁移”
-
能力层级框架:L1单步预测器→L2多步模拟器(需长程一致)→L3证据修正演化器
-
核心范式判断:游戏是物理AI预训练语料,世界模型将引擎从“规则执行器”升级为“世界理解器”
-
游戏训练场四大优势:零成本动作标注、显式物理因果、海量规模(年增20亿片段)、手柄通用意图压缩
-
路线对比:VLA缺物理认知,视频生成计算冗余大,单步隐空间WM长周期易系统性崩溃
-
MWA™双向架构:FDM正动力学校正预测偏差,IDM逆动力学冻结权重作物理基准,三重梯度约束沙盘推演
-
MWA™与AnyPhys:双向物理隐空间在RoboCasa达75.2%登顶,AnyPhys构建边界坐标系使插接成功率最高升5倍
-
擦桌子案例:FDM预判危险,IDM反锁动作分量并梯度回传划禁区,于触碰物理世界前规避
-
LoopWM与跨域泛化:LoopWM(1B)迭代潜深度超越Claude-opus,GI四足机器人仅用8分钟视频即驱动行走
-
潜空间加速与预测:Being-H0.7延迟3.61ms降显存50%,μ₀预测约0.29秒超π₀.5
-
缓存生成与闭环操作:WorldCache异构Token无损加速3.65倍,闭环RL使华为ADS碰撞率降45.5%
-
算力协同:Lifespan长程任务从0%提至100%,NVIDIA支持4人零样本协同,RLinf训练吞吐提升近4倍
-
关键里程碑系统:GameNGen(替代DOOM引擎但记忆仅3秒)、Genie系列(单图生成3D环境,持续1分钟)、Cosmos(NVIDIA物理AI平台)
-
商业落地与跨域创企:签近1亿美元订单及K15产线投产,海外创企General Intuition融资4.54亿美元
-
国内巨头格局:腾讯握混元大模型+算力+全球最深游戏股权网络(控股Riot/Supercell,持股Epic/KRAFTON)
-
远期愿景与不确定性:因果架构最终延伸至生物与通用科学发现,但sim-to-real迁移仍缺乏公开同行评审证据
3.2 仿真与重建
物理仿真引擎、场景重建与结构化世界模型
机器之心(20260402) | 机器之心(20260402) | AI前线(20260410) | CVer(20260415) | 量子位(20260415) | 具身智能之心(20260416) | 人工智能学家(20260416) | 量子位(20260417) | 甲子光年(20260420) | 量子位(20260420) | 第一新声(20260422) | 具身智能之心(20260427) | 具身智能之心(20260429) | 量子位(20260501) | 量子位(20260503) | 机器之心(20260507) | 具身智能之心(20260508) | 具身智能之心(20260510) | 甲子光年(20260512) | 机器之心(20260512) | 十字路口Crossing(20260516) | 量子位(20260519) | 智东西(20260519) | 具身智能之心(20260520) | "Z Potentials"(20260520) | 具身智能之心(20260521) | 量子位(20260521) | 阑夕(20260525) | 钛媒体AGI(20260527) | 量子位(20260602) | "财联社AI daily"(20260602) | 量子位(20260603) | 具身智能之心(20260603) | AI科技评论(20260604) | AI科技评论(20260605) | 量子位(20260605) | AI科技评论(20260605) | 机器之心(20260606) | "Z Potentials"(20260606) | 具身智能之心(20260608) | AI科技评论(20260609) | AIGC开放社区(20260611) | 具身智能之心(20260611) | 前沿在线(20260614) | AI科技评论(20260622) | 奇绩创坛(20260623) | 具身智能之心(20260330)
- Web端3D渲染:World Labs开源Spark 2.0引擎,融合LoD与流式加载,支持超1亿splats场景在浏览器实时交互
仿真突破与Sim2Real跨越
- 纯仿真跨越鸿沟:苏度科技Sudo R1全程纯仿真训练预测物理动态,zero-shot抓取成功率近100%
- 物理重建融合:HSImul3R将仿真器注入3D重建管线解决穿模,在宇树G1完成sim-to-real验证
- 柔体仿真突破:上海AI Lab SIM1以200条演示扩展百倍达90%成功率;凌阶SynReal较Isaac Sim提效5-10倍解决衣物形变
数据生成与降本增效
- 物理数据饥荒:机器人数据成熟度不足LLM的1%,真实场景成功率从89.4%暴跌至12%
- 采集成本锐减:灵御智能单条真机数据采集成本从3-5元压至0.6元(降幅超83%);如祺出行300+车日均产1600小时数据
- 合成数据崛起:光轮智能成具身数据首个独角兽(估值破10亿美元),每周产出上万小时数据,超80%头部团队采用
- Real2Edit2Real:北大×智元仅需1-5条真机数据生成增强数据,数据效率提升10-50倍,5条+生成数据训π0.5达81.3%
- 重建生成流水线:基于VGGT多视角恢复3D(消除手眼误差),结合URDF逆运动学校正姿态,以DiT架构深度图生成操作视频
- 务实路线绕过瓶颈:不依赖仿真引擎和数字资产直接闭环,高度纹理泛化实验证明学到真正空间关系
国产仿真与资产生成
- 国产全栈平台:摩尔线程MT Lambda整合物理/AI/渲染引擎全国产硬件验证;松应ORCA Lab兼容20余家国产GPU
- 异构并行加速:UniLab CPU仿真+GPU训练实现99.5%重叠,12秒训好四足行走;RLinf对李飞飞基准实现25倍端到端加速
- Sim-Ready资产生成:PhysX-Anything实现原生URDF/MJCF导出与物理参数统一生成,克服Objaverse-XL无物理标注瓶颈
- 场景化数据开源:Kairos-Homeworld开源30万套中国真实住宅,AnySceneGen产出超100万操作episodes
3.3 具身世界模型商业产品与数据飞轮
具身世界模型商业产品、数据飞轮与物理引擎底座
量子位(20260330) | 机器之心(20260330) | 具身智能之心(20260331) | 机器之心(20260403) | 机器之心(20260411) | 量子位(20260411) | 具身智能之心(20260411) | 新智元(20260412) | AI科技评论(20260412) | 机器之心(20260414) | 具身智能之心(20260416) | 机器人前瞻(20260417) | Z Potentials(20260419) | 量子位(20260419) | 机器之心(20260419) | 新智元(20260419) | 机器人前瞻(20260422) | AI科技评论(20260422) | 机器之心(20260423) | 暗涌Waves(20260510) | "Z Finance"(20260511) | "Z Potentials"(20260511) | DeepTech深科技(20260511) | AI科技评论(20260512) | 机器人前瞻(20260513) | 机器之心(20260514) | 机器之心(20260518) | 机器之心(20260522) | 硅星人Pro(20260524) | 雷峰网(20260526) | 量子位(20260528) | 量子位(20260531) | AI科技评论(20260602) | "Z Potentials"(20260605) | 商汤科技SenseTime(20260608) | AI科技大本营(20260612) | AI科技评论(20260615) | DeepTech深科技(20260615) | AI早餐汇(20260615) | 机器人前瞻(20260615) | AI科技评论(20260617) | 具身智能之心(20260617) | 奇绩创坛(20260617) | AI科技评论(20260618) | 机器人前瞻(20260618) | 智东西(20260618) | 智能涌现(20260619) | DeepTech深科技(20260624) | 机器之心(20260624) | CVer(20260624) | AI异类弗兰克(20260412) | "Z Finance"(20260629)
- 数据价值排序:经10万小时验证信噪比优势为任务>物体>场景;深度机智用3000小时数据将真机成功率提至70.8%
- 异构数据体系:英伟达建三层金字塔,极佳视界建五层闭环预计2026年达100万小时;灵初开源1000小时手部数据
- 外骨骼降本:灵初自研触觉手套达亚毫米精度,综合成本仅为传统遥操方案十分之一
评测榜单与亮点
- 极佳视界GigaWorld-1:综合突破60分,物理遵循领先第二名16%
- 大晓Kairos:以4B参数原生架构夺四冠,端侧直接驱动超越28B模型
- 深度机智Z-WM:以88.5分断崖夺冠,将真机成功率提至70.8%
- 灵初智能Psi-R2:国际权威评测MolmoSpace全球第一,含00后技术新锐
- 智元τ0-WM:数十小时真机预训练燃料,即近100%成功率
技术路径与模型架构
- WAM核心机制:本质p(o',a|o,l)预测强耦合决策,GigaWorld实现推理训练双提10倍
- Latent-Only主流:潜空间预测避免无关细节消耗算力,成降本提效主流路径
- Video-Generation-Free:依赖语言token或JEPA特征,成本低易落地彻底弃视频骨干
- Render-and-Decode:RGB预测可解释性强,但算力消耗大且延迟高
- 反事实推理:Psi-W0引入约30%失败样本,使机器人无需真实试错即掌握失败经验
- 可微物理引擎:显式引擎成共识,GigaWorld融合AC-WM解长时漂移,PuduFM预判重力摩擦
字节重投入与BAGEL团队
- 范浩奇团队:世界模型组负责人(谷歌引用超4万/MoCo核心),走3D仿真主攻游戏,李航王千走VLA主攻具身
- BAGEL技术核心:清洗交错多模态数据,未设专门推理模块,赌数据规模扩大引发推理自发涌现
- 开源标杆:多模态自发涌现推理能力,登顶HuggingFace榜首成GPT-4o与Gemini2.0最强开源替代
- 资源换时间:数据预算数千万(行业3-4倍),高薪(180-250万)挖猎顶尖研究员,目标2026年对标Genie 3
3.4 世界模型评测基准与榜单
世界模型与具身评测体系前沿
机器之心(20260412) | 量子位(20260420) | 机器之心(20260427) | 量子位(20260428) | AI科技评论(20260429) | 具身智能之心(20260430) | 具身智能之心(20260507) | 具身智能之心(20260516) | 具身智能之心(20260518) | AI科技评论(20260525) | 量子位(20260526) | 具身智能之心(20260526) | PaperWeekly(20260528) | CVer(20260529) | 机器之心(20260529) | 具身智能之心(20260529) | CVer(20260530) | 具身智能之心(20260531) | 极市平台(20260601) | 机器之心(20260603) | 量子位(20260603) | 深度学习与NLP(20260601) | PaperAgent(20260605) | 前沿在线(20260614) | 前沿在线(20260615) | 量子位(20260616) | 极市平台(20260618) | 极市平台(20260618) | 数智前线(20260625)
- 具身问答评测:聚焦四大共识维度,全面评估模型在空间推理、多步时序规划、物理常识与行为预测的能力
- 安全评测成焦点:ECCV 2026专设Workshop聚焦物理幻觉与不确定性量化等Safe World Models核心议题
- VWA双榜登顶:EonWorld以动作优先路线力压传统生成派,验证物理约束能提升世界生成质量上限
- 像素生成缺陷:传统先生成视频再补物理路线在运动中极易现时序一致性崩塌与空间关系错乱
- VLA路线受限:VLM仅是交互不足时的拐杖,纯世界模型在成功率与Sim2Real表现上已大幅超越VLA基线
- 物理隐层联合建模:Manifold AI与EonWorld将状态/动作/物理置于低维隐层联合训练,实现高空间智能与实时推理
- 因果隐空间闭环:跨维智能与智元GE 2.0通过因果隐空间精准回流rollout数据,形成世界模型数据引擎闭环
- 智元三层降本:开源失败数据集→世界动作模型WAM→模拟器GE-Sim 2.0,训练成本降至1周/1台/十分之一成本
- 智元双冠王:智元拿下WorldArena总分冠军,其Z-WM以88.5分获合成数据赛道断层夺冠
- 大晓Kairos极致效率:4B参数端侧直驱机器人超28B竞品,登顶四大评测,RoboTwin 2.0双臂操作成功率高达96.1%
- RoboSafe双重机制:前向预测识别组合风险、后向反思挖掘时序风险,危险执行率压至4.78%
- 双闭环竞争:物理AI不仅需数据闭环,必须具备商业闭环提供持续现金流,数据飞轮护城河极强
- 数据金字塔:原始数据仅占10%价值,90%来自采集至部署的完整闭环,未来18-24个月跑通数据工程是核心
- 采集分层策略:真机遥控精度高难规模化,穿戴式UMI低成本可众包,开放环境交互最接近真实
- 商业加速落地:Momenta市占率65%,交付从首个10万台耗时24月缩至最快不到40天,累计超120亿公里
- 路线四派分化:自动驾驶派(海量路测)、具身派(场景交互)、视觉派(视频生成)、AI巨头(通用底层)
- 物理挑战升级:模型不仅处理文本图像,还需深刻理解空间、运动、因果与交互等复杂物理规律
清洁机器人赛道:从蓝海到红海的内卷与出海
财联社AI daily(20260331) | 光子星球(20260408) | 机器人前瞻(20260511) | 智东西(20260430) | 雷峰网(20260604) | 数智前线(20260609) | 雷峰网(20260617) | 雷峰网(20260626)
- 穿越周期:行业从营销驱动转向“技术深耕—平台复用—生态拓展”
- 核心洞察:全球化本质是工程问题;高端化本质是用户为“长期稳定运行”的确定性买单
头部品牌战略与验证体系
- 追觅:2026Q1全球双第一(销量23.7%、销额28.0%),覆盖120+国,海外营收占比超70%,以技术溢价替代价格战
- 追觅测试:年研发费率超7%,单台测试三四万项,高温高湿通电测超40天,租用别墅进行真实场景模拟
- 石头:近五年研发费增至14.2亿(费率超7%),连续两年全球销量销额双第一
- 云鲸:2026年迎拐点,毛利率同比增超10%,海外收入占比升至约40%,北美新品首日销量增305%
核心产品与技术参数对比
| 品牌/型号 | 核心技术突破 | 关键数据参数 |
|---|---|---|
| 追觅X系列 | 两级仿生机械臂+160°C蒸汽洗 | 8秒极速制备蒸汽,拖布外扩18cm |
| 大疆ROMO 2 | 机械足越障+面阵散斑雷达 | 跨越8.5cm障碍,2mm级感知精度 |
| 石头G30S Pro | DuoDivide系统+底盘升降 | 零缠绕40cm长发,贴边<1mm,越障8.8cm |
| 石头G30 Space | 五轴仿生折叠机械臂 | 攻克百万次伸缩耐久,首创先整理再清扫 |
具身智能与前沿跨界探索
| 产品/跨界主体 | 前沿架构设计 | 突破能力边界 |
|---|---|---|
| 石头G-Rover(2026) | 全球首款双轮腿架构 | 破局十余年平面清扫,自主上下楼梯 |
| 追觅Cyber X | 仿生六足三段履带 | 27秒跨越一层楼,最大爬坡42°+3D ToF |
| 智元机器人跨界 | 视觉+点云融合感知 | 推550mm超宽幅C5,主打具身智能大脑 |
庭院割草:清洁赛道新试金石
- 市场空间:全球约2.5亿庭院(美国占1亿),四大阵营(扫地/泳池/园林/消电)跨界抢占
- 技术瓶颈:草坪属开放动态环境,多传感器融合方案尚未完全收敛
- 迁移陷阱:室内价格战打法不适用户外重设备,安克曾砍项目后重启验证高风险
3.5 VLA与世界模型融合架构
VLA与世界模型融合架构:统一范式与关键技术突破
具身智能之心(20260330) | 具身智能之心(20260409) | AI早餐汇(20260421) | 具身智能之心(20260422) | 具身智能之心(20260423) | 机器之心(20260424) | 机器之心(20260429) | 量子位(20260429) | "Z Potentials"(20260429) | 数智前线(20260429) | AI科技评论(20260429) | 量子位(20260429) | 具身智能之心(20260429) | 机器人前瞻(20260429) | 新智元(20260429) | 夕小瑶科技说(20260430) | 机器之心(20260430) | 具身智能之心(20260430) | 十字路口Crossing(20260430) | 智东西(20260430) | 量子位(20260509) | 具身智能之心(20260509) | 机器之心(20260510) | CVer(20260510) | 具身智能之心(20260511) | 极市平台(20260511) | 机器之心(20260516) | 机器人前瞻(20260516) | 机器之心(20260521) | 量子位(20260526) | 具身智能之心(20260526) | 智能相对论(20260601) | AI科技评论(20260604) | 量子位(20260604) | 机器之心(20260421) | 具身智能之心(20260614) | AI科技评论(20260617) | 具身智能之心(20260623) | 机器之心(20260623) | 极市平台(20260624)
- 统一架构与联合去噪:生数MotuBrain、银河通用LDA/WAM、北京人形Pelican等均采用统一底层打通多模态。基于潜变量z统一视频与动作联合扩散去噪,单次训练同时习得预测与执行能力
- 异构多源数据吸收:统一架构能同时利用纯视频、无标签任务、乃至失败轨迹数据。引入低质数据后性能不降反升(如LDA成功率反升10%),任务多样性的增益远大于单纯数据量增长
- 核心模型评测数据对比:
| 模型/框架 | 核心架构/特性 | 关键评测表现 |
|---|---|---|
| MotuBrain (匿名) | UniDiffuser统一架构 | 双榜登顶:WorldArena(63.77),RoboTwin2.0(96.1,超Pi-0.5约40分) |
| Pelican-Unify 1.0 | 共享潜变量z联合去噪 | WorldArena综合得分66.03,3D Accuracy达98.12 |
| 银河通用 LDA-1B | DINO潜空间+跨本体预训练 | 数据扩至3万小时,动作预测误差单调下降 |
| 港大小鹏 DIAL | 原生ViT嵌入物理直觉 | RoboCasa均70.2%,仅用10%数据超全量基线 |
| 卧安 OneModel 1.7 | Predictive Policy隐式表征 | LIBERO成功率99%,真机日常操作99% |
| VLA-JEPA | 空间表征预测人类视频先验 | OOD鲁棒性78.1%,仅13条轨迹即可装配 |
- 分层解耦与表征过滤:NUS Goal-VLA用目标图像解耦规划与执行;AIM模型提出空间价值图(Spatial Value Map)过滤冗余视觉信息,在RoboTwin 2.0实现93.1%成功率
- LWD在线强化学习范式:构建真实世界闭环数据飞轮,取代单向模仿学习。智元联合16台机器人验证,将失败轨迹(约1/3)转化为学习信号,成功率达0.95远超SFT的0.76,打破模型“出厂即巅峰”瓶颈
- 部署级协同与反射架构:小鹏二代VLA联合X-Foresight将延迟降至80ms;智平方三级NeuroVLA实现20毫秒内碰撞反射缩手;银河通用WBC数据扩至20亿帧验证运控Scaling
3.6 4D生成与视频仿真前沿
4D生成与视频仿真前沿
量子位(20260330) | 具身智能之心(20260401) | 具身智能之心(20260403) | 具身智能之心(20260408) | CVer(20260408) | AI科技评论(20260424) | 具身智能之心(20260401) | InfoQ(20260528)
- 范式跃迁:从2D像素到4D几何建模:CVPR 2026多篇论文收敛于4D时空建模范式,从拟合像素分布升级为统一建模空间结构、时间演化与物理规律
- Real-to-Sim端到端重建:UniPR单次前向并行完成检测、位姿估计与3D重建,多物体处理仅需0.63秒,速度提升100倍,物理比例准确度提升3倍
- 单图前馈物理4D生成:PhysGM基于Transformer双解码器,输入单图直接预测3D高斯与物理参数(杨氏模量等),生成时间从12小时压缩至1分钟内
- 占据场驱动机器人视频:ORV以4D语义占据桥接稀疏动作与密集视觉,FVD从41.031降至16.525,合成增广数据使RoboVLA成功率从29.8%升至33.9%
- 手势驱动第一人称视频:Hand2World利用3D mesh投影与Plücker射线解耦,FVD从908降至218(降幅76%),全自动化数据流水线无需人工标注
- 运动学锚定生成模拟:Kinema4D解耦机器人控制与环境生成,构建Robo4D-200k数据集(20万+4D交互序列),首次实现生成模拟器的零样本泛化
前沿4D建模范式演进
| 方法 | 核心突破 | 关键能力 |
|---|---|---|
| VerseCrafter | 静态点云+动态高斯轨迹 | 统一控制相机与多物体运动 |
| NeoVerse | 无位姿前馈4D重建 | 摆脱多视角依赖,单目可用 |
| LongStream | 关键帧相对建模 | 在线处理上千帧,解决尺度漂移 |
| GeoWorld | 双曲空间能量模型 | 测地线推理缓解长时误差累积 |
具身智能与工业应用闭环
- 四维表达直出空间轨迹:四维体视频的点源轨迹即为空间轨迹,六路摄像头同时输出无矛盾,已与第三方公司验证机器人仿真闭环
- Agent驱动程序化生成:一句话生成全场景自带物理响应,与华为合作落地自动驾驶OSM生成corner case
- 重建到仿真全链路贯通:CityGaussian引入normal map与planar先验优化几何,UV映射赋值摩擦力等参数,实现静态场景直通物理引擎
3.7 3D/4D生成与空间重建前沿
空间智能与3D/4D场景重建前沿
赛博禅心(20260415) | AI寒武纪(20260416) | 新智元(20260421) | 量子位(20260424) | 机器之心(20260425) | DeepTech深科技(20260523) | 具身智能之心(20260523) | 极市平台(20260602) | 具身智能之心(20260611) | 量子位(20260613) | DeepTech深科技(20260616) | CVer(20260618) | CVer(20260618) | CVer(20260619)
- 生成反哺理解:VEGA-3D验证视频生成模型隐式掌握3D先验,注入OpenVLA后LIBERO长视野任务达97.3%
- 前馈式建图:浙大×ETH提出问题驱动框架,摆脱逐场景优化,向空间智能基础模块演进
- 恒定显存流式:HorizonStream纯RGB万帧级流式重建,显存恒定8.5GB,48帧训练即泛化
深度估计与多任务统一感知
| 模型 | 参数量 | 核心突破 | 关键指标 |
|---|---|---|---|
| GemDepth | 0.58B | 引入相机位姿隐式几何先验 | TAE一致性提升56%,超越1.1B+模型 |
| PromptDepth | ViT-B | 单解码器统一四大密集预测 | 推理延时<20ms,实现零样本SOTA |
| SpaceMind | - | 相机参数作为引导模态 | 纯RGB登顶VSI-Bench(70.6%) |
高效长序列建图与全景空间理解
- GCA记忆机制:蚂蚁灵波LingBot-Map三层选择性记忆将万帧Token压至7万,ETH3D重建F1达98.98%
- 全景空间推理:PanoWorld原生球面建模得分56.5远超Qwen;LingBot-Map单摄20FPS建图
- 极端材质突破:亚利桑那大学等提出事件相机+扫描激光新系统,首达漫反射与镜面同步亚毫米级重建
全自动空间数据飞轮与商业应用
| 系统/产品 | 数据规模/核心优势 | 应用场景 |
|---|---|---|
| Holi-Spatial | 400万级7类全自动3D标注 | VLM微调使AP50跃升至27.98 |
| 影石AirSim360 | 单日百万帧成本仅20元 | 节省90%实飞,全景仿真闭环 |
| 影石DAP/DDGS | 200万级数据,零样本深度预测全球第一 | 纯视觉全景测距与稀疏重建 |
| 灵视P1空间相机 | 多目+激光雷达融合自研3DGS | 落地《狂野时代》与SBS直播 |
| Niantic VPS | 积累300亿张AR众包扫描 | 厘米级定位解决高楼GPS漂移 |
4. 具身数据与训练方法
4.1 VLA模型进展
VLA基座模型架构演进与自主闭环系统
机器之心(20260330) | 机器之心(20260403) | 海外独角兽(20260403) | 量子位(20260406) | 具身智能之心(20260408) | 量子位(20260408) | 具身智能之心(20260408) | 具身智能之心(20260409) | 机器之心(20260411) | 量子位(20260411) | 机器之心(20260411) | CVer(20260411) | 智东西(20260415) | 机器人前瞻(20260415) | 量子位(20260415) | AIGC开放社区(20260416) | 具身智能之心(20260416) | CVer(20260416) | 前沿在线(20260417) | 具身智能之心(20260417) | 量子位(20260417) | 机器之心(20260417) | DeepTech深科技(20260417) | AI科技评论(20260420) | 雷峰网(20260422) | 量子位(20260422) | 具身智能之心(20260427) | 具身智能之心(20260504) | 具身智能之心(20260505) | 具身智能之心(20260511) | 量子位(20260513) | 机器之心(20260528) | "Z Potentials"(20260528) | 量子位(20260529) | 通义大模型(20260529) | 具身智能之心(20260601) | 机器之心(20260601) | 具身智能之心(20260606) | AI科技评论(20260607) | 机器之心(20260610) | 机器之心(20260612) | 具身智能之心(20260612) | 通义大模型(20260616) | 机器人前瞻(20260616) | "财联社AI daily"(20260616) | 机器之心(20260617) | AI大模型工场(20260623) | 量子位(20260624) | PaperWeekly(20260627) | 量子位(20260627)
- 智元 GO-2:慢系统规划加快系统执行,LIBERO测试达98.5%
- 星海图 G0.5:统一自回归单序列生成,真机任务超π0.5约23个百分点
架构创新与优化
- 动作空间统一:推理与动作纳入同一自回归序列,动作Token语义化对齐突破泛化
- 意图执行解耦:MINT频域分解高低频轨迹,GuidedVLA引入注意力专家提升成功率
- 初始化反直觉:过度修改预训练权重损害执行,需平衡知识保留与新任务防遗忘
- 世界模型进化:事件级预测取代帧级防退化,打破延迟瓶颈降至190ms
- 抗干扰高效率:StableVLA基于信息瓶颈筛选特征,1/14网络与1/80数据抗遮挡极强
物理Agent与ENPIRE框架
- ENPIRE全自主闭环:8个Codex Agent独立驱动机器人,实现彻夜无人干预自我迭代
- 四模块闭环架构:EN(自动重置验证)、PI(策略优化)、R(并行评估)、E(查阅文献重写算法)
- 物理Scaling Law:机器人1台增至8台,达完美表现时间从1.5h+缩短至40分钟
- 核心效率瓶颈:MRU(平均机器人利用率)低于50%,机器半数时间在等待Agent思考
- 反直觉发现一:规则启发式优于神经网络,PushT任务Agent用规则不到2小时解决
- 反直觉发现二:Agent自主编写接触力安全控制器,效果超越单纯调强化学习参数
- Agent协调机制:多Agent基于Git共享代码、放弃失败方案、自主挑选最佳运行结果
- 重置优先原则:先构建自动重置再围绕奖励函数研究,甚至自主重写数据加载器
端侧流式感知与范式转变
- 端侧原生设计(Om AI VLX):原生考虑资源约束,非云端裁剪,实现理解定位行动闭环
- 在线长序列低延迟:切片增量编码与Linear Attention,打破延迟瓶颈,首token延迟稳定
- Stream Memory:观察与回答分离,按2秒片段生成压缩记忆,后续仅凭记忆回答
- 事件触发交互:基于累积压缩记忆支持异常动作主动提醒,并上线体验平台
- 开源与范式转变:计划完全开源,研究范式从「设计算法」转向「设计可闭合环境」
具身机器人学术评测赛事与训练基础设施
机器之心(20260401) | 具身智能之心(20260520) | 具身智能之心(20260611) | 具身智能之心(20260516)
具身智能正从单点算法迭代转向数据-训练-评测-部署协同的系统工程,真实场景评测与标准化基准成为验证模型能力的核心关卡。
代表性赛事与学术活动
| 赛事/活动 | 时间地点 | 核心特征与考核场景 | 主办与产业联动 |
|---|---|---|---|
| 杭州场景应用大赛 | 2026年5月(云栖小镇) | 消防、商超理货、碎石地机动,部分赛事禁遥控 | 浙江省经信厅;配套2亿元产业基金 |
| RoCo装配挑战赛 | IROS 2026会场 | 工业板与积木装配;考核物理理解、灵巧操作、长时序推理与策略泛化 | CMU、清华、NTU;奖金超2万美元 |
| 机器人学习Workshop | 2026年9-10月(美国匹兹堡) | 攻坚数据扩展、VLA模型训练、标准化评测与真实部署 | 清华、港科大、UC Berkeley等 |
评测维度与基础设施趋势
- 真实场景极限测试:赛题源自企业真实业务痛点,部分赛事禁用遥控器,要求完全自主感知与决策
- 标准化仿真基准:梳理20个核心仿真平台以打通Sim2Real,覆盖多模态数据采集与合成数据生成
- VLA模型训练工作流:主攻监督微调、模仿学习、强化学习与偏好学习的系统化大模型工程
- 安全部署与协同:建立可复现评测协议,攻坚分布式推理、运行时安全监控与群体机器人协同
4.2 具身强化学习与训练机制
强化学习与VLA融合训练范式
具身智能之心(20260330) | 具身智能之心(20260414) | 具身智能之心(20260422) | CVer(20260426) | 具身智能之心(20260428) | DeepTech深科技(20260430) | 量子位(20260511) | 具身智能之心(20260513) | 具身智能之心(20260513) | 具身智能之心(20260515) | 新智元(20260511) | 具身智能之心(20260519) | 具身智能之心(20260521) | 具身智能之心(20260521) | 具身智能之心(20260521) | 具身智能之心(20260528) | AI前线(20260529) | AI前线(20260522) | 具身智能之心(20260608) | 具身智能之心(20260610) | 机器之心(20260615) | AI科技评论(20260616) | 机器之心(20260623) | 具身智能之心(20260625)
- 失败数据转化为策略信号:PI的RECAP将失败轨迹作负样本训练(叠毛巾33.3%→55.6%);闭环在线学习(LWD)16台机器人集群实时无筛选回流数据,平均成功率达95%
突破性RL与VLA训练框架
| 框架/模型 | 核心机制 | 关键指标 |
|---|---|---|
| LaST-R1 | 隐空间物理推理(LAPO) | LIBERO 99.9%,真机93.75%(超π0.5) |
| RehearseVLA | 物理世界模拟器RL | 零真机交互,5条演示达LIBERO 79.6% |
| ARM | 相对优势分类 | 双臂叠毛巾99.4%,仅需972 episodes |
| Eka Robotics | 纯RL自我博弈(VFA) | 零数据实现机械臂精细操作 |
| CapVector | 参数差分能力提取 | OOD跨基准迁移提升近5倍(31.8%) |
| PRTS (TeleAI) | 对比CRL写入预训练 | 真机零样本泛化73.8% |
| VAMPO | 序列决策多步去噪 | 首个VAM强化学习,欧拉混合采样 |
真机部署闭环与安全探索
- 统一干预与自改进闭环:UniIntervene系统自主纠偏,成功率超基线8.6%且人工介入降57%;NVIDIA ENPIRE实现reset→execute→verify→refine全自动化闭环
- 熵引导样本高效筛选:E2HiL发现人类介入样本对策略熵影响极高,10个真机任务成功率升24.9%,人工介入减9.3%
- 安全探索理论边界:清华团队首证真机RL安全探索均衡必然收敛,SEE算法实现严格零约束违反
- 高效采样降低算力成本:清华MPTS以轻量模型预测任务难度替代昂贵评估,已被Meta、Apple、阿里等采用
开源生态与落地场景
- 开源加速真机RL普及:上交大等开源超1000小时真机RL数据集(含失败/干预轨迹),RSS 2026设2万美元真机RL挑战赛
- 落地聚焦半结构化环境:在线RL飞轮启动依赖上万台规模的高频数据交互,当前最佳场景为商超、药店等“middle ground”
4.3 VLA推理与执行加速优化
VLA 推理加速、执行优化与系统级工程实战
具身智能之心(20260330) | 具身智能之心(20260408) | AI科技大本营(20260408) | AI科技评论(20260408) | 量子位(20260411) | 具身智能之心(20260413) | 具身智能之心(20260417) | 机器之心(20260418) | 机器人前瞻(20260427) | PaperAgent(20260509) | 具身智能之心(20260514) | 机器之心(20260514) | 极市平台(20260514) | 具身智能之心(20260515) | 具身智能之心(20260519) | AI科技评论(20260522) | 极市平台(20260522) | 具身智能之心(20260419) | 机器人前瞻(20260605) | 极市平台(20260615) | CVer(20260623)
| 方案 | 核心机制 | 关键数据 |
|---|---|---|
| Fast-dVLA | 发现隐含块级自回归,Block-wise KV Cache复用 | 加速2.8-4.1x,稳定30Hz |
| A₁ 模型 | 动作一致性早停+层间截断流匹配 | 延迟降72.3%,步数10降至2 |
| AC²-VLA | 动作上下文感知路由(时/空/深三维度) | 加速1.79x,FLOPs降至29.4% |
| StreamingVLA | 动作流匹配与异步提前观测(边想边做) | 延迟降至31.6ms,卡顿降6.45x |
| FASTER | 动作感知调度(HAS)压缩首动作响应 | 599.5ms降至229.2ms(2.6x) |
| GridS | 连续双线性插值极限压缩视觉Token | 256个压缩至1个,FLOPs降76% |
模型主干与计算裁剪
- 自适应计算成主流:从静态量化/剪枝转向基于动作一致性的动态提前退出与跨层热启动,削减冗余前向传播
- 无效推理按需跳过:博世BLUE发现语言推理仅14.5%场景有正收益,通过Gate跳过80%帧,速度提升2.54倍且成功率反升
- 显式CoT延迟消除:LaRA-VLA将推理内化为连续潜在表征,无需生成文本Token,延迟较显式CoT最高降低90%
- 动作引导定向蒸馏:ActDistill以动作质量为标尺,计算量减半,真机执行时间从10.2s降至6.3s
执行策略与系统级工程
- 投机推理突破瓶颈:Realtime-VLA FLASH利用流匹配几何特性实现投机采样,单轮延迟降至7.8ms(最高125FPS)
- 系统级时延补偿:针对硬件150ms运动延迟,提出轨迹预放大补偿与油门采集策略,执行速度从0.5x推至2x以上
- 抗偷懒工程优化:小米Xiaomi-Robotics-0针对视觉反馈忽略问题,引入Λ型掩码与前缀随机遮蔽,平衡执行连贯性与实时响应
- 双系统大小脑协同:小米my16结合S2大脑(目标分配)与S1小脑(冲突规避)及双轨记忆,以40.89%获CVPR 2026双料冠军
- 真机动作插值:星动纪元Era0加入动作插值显著减少机械臂抖动,结合短程时序记忆登顶RoboChallenge
4.4 具身基础模型与通用架构
具身基础模型架构路线与对齐范式
量子位(20260409) | 腾讯混元(20260409) | 新智元(20260423) | 甲子光年(20260423) | 智东西(20260423) | 机器之心(20260424) | 极市平台(20260429) | AI科技评论(20260502) | 甲子光年(20260512) | 具身智能之心(20260512) | AI科技评论(20260513) | 具身智能之心(20260514) | APPSO(20260516) | 脑极体(20260519) | 机器之心(20260522) | 机器之心(20260522) | 具身智能之心(20260523) | 具身智能之心(20260528) | 具身智能之心(20260529) | 量子位(20260604) | 具身智能之心(20260609) | 机器之心(20260609) | 具身智能之心(20260610) | 硅星人Pro(20260618) | 十字路口Crossing(20260619) | DeepTech深科技(20260620) | 十字路口Crossing(20260620) | 极市平台(20260623) | 具身智能之心(20260625) | 具身智能之心(20260627) | 机器之心(20260627)
路线演进与架构对比
- 主流路线:VLA、WAM、VLA+RL三线并行,WAM提泛化,RL补精准控制
- 模型特性对比:VLA直接映射泛化弱但工程可弥补;WAM联合预测,合成数据可超真机
- WLA/MoT架构:WLA推理仅40ms秒杀WAM(1529ms);MoT总4B激活2B,22项评测16项最佳
- 因果与自监督:因果模型提效5-10倍;V-JEPA/CoMo纯视觉自监督规避遥操作成本
通才碾压与对齐范式跃迁
- 通才完胜专才:英伟达Vesta(8B)四维全面超专才,消除级联失败
- 核心命题:RoboAlign-R1聚焦模型对齐,从「画面生成」跨越至「决策可用」
- 物理规则融合:统一任务目标与物理规律约束,确保重力、摩擦等执行可行性与可靠性
- 范式跃迁:标志具身智能从演示阶段迈向可靠执行部署阶段,弥合生成与控制鸿沟
隐式推理与触觉新范式
- 潜空间隐式推理:LaST₀双系统压缩信息,低频推理+高频动作解决实时控制延迟
- 触觉基础模型:FTP-1基于π0.5扩展,3000小时异构触觉数据预训练
- MTTS统一表示:任意触觉输入映射至24个功能区域token,实现硬件不同语义一致
- 独立触觉专家:约300M参数专家梯度不反传,解耦视觉语言,简单融合反致成功率下降
控制、视觉与数据战略
- RL补足精准控制:结合在线RL(ConRFT)、离线RL(Pi0.6)及基建(RLinf)弥补模仿学习缺陷
- 视觉与显存优化:HY-ViT2.0原生任意分辨率;HiF-VLA低维Motion替代多帧堆叠降显存至31.4GB
- 多源数据与基建:自采真机、人类视频及合成数据多管齐下,亟需物理数据引擎转化无标注视频
- 数据飞轮倒逼商业:自变量推149元保洁采长尾数据;智在无界算力降至月150元
- 触觉跨传感器迁移:迁移未见提升31.6pp;从一传感器一模型转向预训练+encoder微调
4.5 VLA感知表征与动作控制优化
语言瓶颈、视觉定位与细粒度监督突破
机器之心(20260331) | 具身智能之心(20260331) | 新智元(20260513) | CVer(20260519) | 量子位(20260526) | 具身智能之心(20260603) | 具身智能之心(20260603) | 量子位(20260623) | 具身智能之心(20260628)
语言指令瓶颈与破局
- 视觉捷径突破:标准VLA存在盲从视觉而忽视语言的结构性缺陷,冲突实验中纯文本VLA复杂空间任务成功率仅25%
- LA4VLA反向预训练:移除视觉输入强制对齐语言与动作(类掩码机制),真机成功率从38.3%提升至81.7%
- LangForce机制:引入对数似然比损失突破视觉捷径,使分布外场景成功率提升至66.5%
- FineVLA监督密度:证明细粒度指令需增强而非替代目标级指令(混合比FG:Raw=1:2最优),破解多模态稀疏模态监督难题
- 跨架构通用性:LA预训练在StarVLA等架构同样有效(MetaWorld +11.52pts),t-SNE显示内部表示按指令形成清晰聚类
- 细粒度泛化边界:单因子泛化显著(姿态+23、颜色+18),但未见组合泛化极难
空间感知与深度增强方案
- Point-VLA:首帧叠加边界框提供像素级线索,6项任务均值达92.5%,精确放置率从23.3%飙升至90.0%
- Evo-Depth:约0.9B参数提取多视角RGB隐式深度,真机约90%/LIBERO 95.4%;显存仅3.2GB且支持12.3Hz端侧部署
- GEM-VLA:预训练引入深度图Diffusion监督,三阶段训练反向塑造空间表征,LIBERO成功率达96.1%
数据标注与评测基准体系
- LA-33K数据集:经时序分割与人工核验切分出3.3万条Language-Action episodes,覆盖move/grasp/lift等7类原子操作
- FineVLA-Tool流水线:97万轨迹DTW去重至4.7万,十维标注使词数激增10.4倍(9.3增至96.8)
- 核心标注转向:数据构建须从“标注目标”升级为“标注执行过程”,为细粒度监督提供复用基础
- RoboFine-VLM:全参微调模型VQA准确率68.2%超GPT-5,自动评分Spearman相关达0.943
- RoboFine-Bench:涵盖500段视频/32种形态/11631原子事实,设VQA与Caption双轨防漏防污染
长时序任务执行:记忆机制与双系统架构突破
PaperAgent(20260413) | 极市平台(20260417) | 具身智能之心(20260424) | 具身智能之心(20260520) | 机器之心(20260524) | 机器之心(20260527) | 具身智能之心(20260627)
长时序执行瓶颈与破局
- 长程任务瓶颈:主流VLA受短上下文与单帧观测限制,静态成功率44.8%在动态场景暴跌至7.5%。
- EventVLA记忆机制:引入事件相机感知异步低延迟运动变化,替代密集视频帧,高效维持长短期记忆。
- 核心洞察:长程执行需从“被动记忆”转向“主动规划与预判恢复”,显式引入结构化状态校验打破误差累积。
四大突破性架构方案对比
- KC-VLA:关键帧链+三模态负采样,仿真92.0%/真实48.75%,适用长程非马尔可夫任务。
- Goal2Skill:VLM-VLA双系统+三分支记忆,仿真32.4%,适用40-60分钟复杂任务链。
- PrediMem:双缓存记忆库+预测编码头,仿真38.5%/真实52.0%,适用长时序记忆依赖任务。
- AgentChord:前向预编译恢复任务图,仿真99.2%/真实77.5%,适用异常恢复与容错执行。
前沿策略与机制提炼
- 视觉时序重构:KC-VLA用稀疏关键帧和三模态负采样构建抗混淆空间,仅需50条演示微调。
- 动态感知预测:PUMA显式提取历史光流(17.20%)优于隐式堆叠(8.15%),引入世界查询预测未来。
- 结构化记忆:Goal2Skill三分支记忆(时序/工作/错误)将成功率从6.7%提升至35.3%,反思恢复率达28.0%。
- 主动容错机制:AgentChord预编译恢复节点,异常后无需调用大模型即切换,继续朝最终目标推进。
- 失败轨迹价值:恢复轨迹替换一半成功轨迹,策略扰动测试成功率提升50%(Sim2Real 39/50)。
RoboMemArena评测基准
- 评测基准:26项任务/151子任务(68.9%依赖记忆),含15100个关键帧短段。
- 四大场景:全面覆盖物体追踪、遮挡推断、动作计数与顺序复现。
多模态表征突破:3D原生与多视角Scaling
- 3D原生表征优于2D补丁:机器人操控本质是视觉到3D几何的映射,2D骨干叠加3D模块存在压缩信息瓶颈
- VGGT骨干性能卓越:以3D几何模型VGGT为中枢,仿真平均成功率约98%,推理关闭几何头无额外开销
- 跨视角零样本泛化强:无需额外3D传感器,真实机器人跨视角泛化比π₀.₅高约6个百分点
2D与3D骨干架构对比
| 维度 | 2D World Policy | 3D World Policy |
|---|---|---|
| 表征基础 | 像素时序变化latent空间 | 原生点云、深度图、相机参数 |
| 3D能力 | 后期叠加模块(打补丁) | 骨干网络原生支持 |
| 信息瓶颈 | 3D→2D→3D压缩损失 | 直接几何推理,无压缩瓶颈 |
| 推理开销 | 基础开销 | 推理关闭几何头,无额外开销 |
多视角监督的本质增益
- 打破单视角数据缩放瓶颈:单视角策略在640条演示后性能饱和,多视角在同等预算下持续提升
- 增益显著且可迁移:基于π0微调的VLA在Seen任务提升+7.2%,Unseen任务提升+7.3%
- 视角覆盖存在最优区间:4-8个额外视角收益最大,过多因信息冗余反而损害性能
- 偏移角度非单调优化:±10°
±40°成功率最高,±50°±60°常导致性能下降 - 机理:聚焦关键区域:Grad-CAM显示多视角使表征更聚焦末端执行器与操作物体,降低背景依赖
4.6 跨具身迁移与人类数据利用:中间表示突破
人类视频到机器人操作的跨具身迁移方法
具身智能之心(20260504) | 具身智能之心(20260507) | CVer(20260526) | 具身智能之心(20260526) | 具身智能之心(20260526) | 具身智能之心(20260623)
人类视频数据的跨具身迁移价值与挑战
- 数据规模优势:第一视角视频超80万小时,真实机器人公开数据仅数千小时
- 迁移困境:具身差异与物理约束(穿模、重心漂移等)致无法直接执行
第一视角视频 vs 真实机器人数据特性对比
| 对比维度 | 第一视角人类视频 | 真实机器人数据 |
|---|---|---|
| 数据规模 | 超80万小时 | 仅数千小时 |
| 核心优势 | 场景多、信息密度高 | 观测与动作天然对齐 |
| 范式分工 | 预训练提供开放世界覆盖 | 后训练补全动作对齐 |
HumanScale的预训练范式验证
- 泛化突破:第一视角预训练OOD成功率90.0%(降2.5%),无预训练基线OOD为0%
- Scaling规律:从100h到5000h预训练未见饱和,真机数据扩大规模不解决分布覆盖
跨具身迁移的四大核心路线
- 物理修正管线(SUGAR):VLM提取交互先验,结合RL纠错与分层蒸馏,弥补视频动力学违反
- 相对交互建模(BridgeACT):抽象“谁作用于谁”关系,Close任务成功率达9/10
- 统一语义空间(UniT):三分支交叉重构建立本体无关隐空间,t-SNE证实特征同流形
- 手物协同预测(Uni-Hand):Mamba与Transformer融合双分支扩散,预测轨迹直驱夹爪
LfHV全景综述的关键启示
- 数据效率:人类视频学习较传统示教效率提升5-10倍
- 核心局限:人类视频无法完全替代真实机器人数据,复杂场景仍需真机闭环
4.7 RoboAgent能力驱动具身规划范式(CVPR 2026)
RoboAgent:3B VLM能力链分解超越GPT-4o的具身任务规划
- 核心洞察:VLM 本身具备具身推理能力,缺的是合适的调用机制;用能力链替代端到端规划,无需外部工具
- 性能表现:3B 模型全面超越 7B 模型与 GPT-4o,仅用 ALFRED 6.4k 训练任务即泛化至 4 个未见基准
五大能力模块与统一调度
- 基于 Qwen2.5-VL-3B,Scheduler 统一调度 EG、OG、SD、AD、ES 五大模块端到端完成
- EG(探索引导):根据常识推断目标物体最可能位置,避免盲目搜索
- OG(物体定位):开放词汇检测,识别未见过的物体,实现跨概念泛化
- SD(场景描述):文字描述目标物体当前状态,提供精确状态感知
- AD(动作解码):将指令转为原子动作(导航、抓取、放置),输出可执行指令
- ES(经验总结):总结动作结果,分析失败原因,完成错误恢复
三阶段训练路径
- 阶段一(640k):专家轨迹监督,生成能力调用序列与 CoT,完成有监督微调
- 阶段二(690k):模型自运行,利用模拟器特权信息(物体位置、分割等)提供纠正监督
- 阶段三(25k):EIPO 专家策略优化,利用专家优势函数避免 RL 高方差,解决奖励稀疏问题
关键实验对比
| 基准测试 | RoboAgent(3B) | 次优模型 | GPT-4o |
|---|---|---|---|
| ALFWorld文本(未见) | 94.0% | DynaMind 89.1% | — |
| ALFWorld视觉 | 77.6% | SEEA-R1 36.0% | 24.0% |
| EB-ALFRED平均 | 67.0% | WAP 62.7% | 46.0% |
| EB-ALFRED视觉 | 78.0% | — | 46.0% |
泛化与迁移能力
- 跨模拟器泛化:仅 ALFRED 训练,成功泛化至 EB-Habitat 和 LoTa-WAH
- 跨模态迁移:视觉训练的能力链可无缝迁移至纯文本场景,证明学到的是规划策略而非视觉特征
4.8 全模态统一端侧大脑:UnisonMind的物理AGI路线
UnisonMind:业内首个全模态端侧统一模型
- 统一架构与端侧部署:11B模型部署于Jetson AGX,直接焊接于设备背部无需额外散热,断网独立可用;另有30B+高配版本
- 跨设备无遥控验证:同一套大脑驱动四足机器狗、人形机器人、电动轮椅等四类不同设备,全程无遥控无遥操
- 实时流式处理:不依赖抽帧识别,模型持续在线处理连续视频流,任务可随时被打断、修正、重组
- 非受控真实性:20余人现场实时互动验证;团队未剪辑包装轮椅异常转圈故障,直接暴露当前局限
- 认知能力实测:机器狗实时数乒乓球并主动社交调侃;画作导览中主动表达“背上的显卡有点重”,展现自我状态感知
- 主流具身方案对比
| 维度 | 主流方案 | UnisonMind |
|---|---|---|
| 模型结构 | 视觉/语音/动作多模型拼接 | 单一模型统一处理全模态 |
| 部署方式 | 依赖云端推理发号施令 | 完整端侧运行(断网可用) |
| 感知方式 | 抽帧识别与固定触发 | 实时视频流理解 |
| 任务执行 | 预写脚本与规则串联 | 实时感知与自主决策 |
- 物理AGI“3+1”框架:统一多模态表征、理解与生成同脑、流式持续运行、完整端侧部署
- 商业模式定位:大脑与身体解耦,由项目制转向平台化,定位为“物理世界的AI Runtime”
- 当前局限与挑战:受端侧算力限制行动略迟缓;跨本体迁移深度、安全边界定义等仍是未解难题
5. 商业化与产业进展
5.1 企业治理与团队组织
企业治理失败案例:股权、战略与组织崩塌
达闼科技:股权分散与创始人独断
- 67个穿透股东致资本循环断裂:含57个企业股东且国资居多,无人愿接盘,仅3530万执行金额拖垮223亿估值公司。
- 创始人一言堂逼走顶尖人才:黄晓庆独断技术路线,优必选大牛谢铮加入发现无法改变后离职创办源络科技。
- 运营商思维移植失败:无机器人经验的黄晓庆强推按流量卖云端大脑,受阻后被迫造保密手机填收入。
千挂科技:口头承诺与组织异化
- 口头承诺股权致CEO被踢:IDG与丁飞承诺CEO陶吉35%股份未做工商变更,丁飞凭绝对控制权将其挤出局。
- 扁平化异化为无层级:拒绝设技术委员会,100名工程师直管,基层凭代码审核权阻碍高阶2000行重构提交。
- 地域拆分制造派系:2022年底广深团队注册后,沟通断裂演变为立场之争,严重消耗工程师士气。
治理失败维度对比
| 治理维度 | 达闼科技 | 千挂科技 |
|---|---|---|
| 股权问题 | 67个穿透股东极度分散,无LP接盘 | 口头承诺未落纸面,CEO无法律股份 |
| 战略失误 | 通信基因强推,受阻被迫造手机 | 缺乏强势核心决策者把控全局 |
| 组织崩塌 | 创始人一言堂,干事者被打压离开 | 扁平化异化,地域拆分制造派系 |
| 终局 | 2024年资金链断裂,创始人赴港重创 | 2024年10月破产清算 |
核心教训:股权首日落纸面;扁平化是减少不必要层级而非无层级;未达成共识前拆分地域等于制造派系;独断必逼走顶尖人才。
仿真器对硬件设计的反向约束:S.T.U.P.P.I.D. 困境
- 核心矛盾:仿真器正反向定义硬件设计。并联关节等机械优势结构因"仿真困难"被主动删除,设计自由度被绑架
- S.T.U.P.P.I.D. 概念:Scott Walter(40年从业老兵)提出,指被仿真器掐住脖子的低效集成设计,引发 Agility Robotics 等多方共鸣
- DFS 误用:NVIDIA Jim Fan 的 DFS 作为训练原则合理,升级为设计原则则本末倒置——"不会为让分析软件高兴去设计桥"
被牺牲的机械优势
| 机械结构 | 优势 | 被放弃原因 |
|---|---|---|
| 并联关节 | 结构紧凑、分担扭矩 | 仿真建模复杂 |
| 线性驱动 | 性能可能更优 | 旋转执行器建模更省事 |
| 远程传动 | 机械效率高 | 仿真处理困难 |
| 肌腱式手部 | 接近生物力学 | 直接驱动更容易仿真 |
| RSU并联踝关节 | 经典机械设计 | 适配强化学习需改串联 |
- 硬件妥协案例:Unitree H2 将 G1 的 RSU 并联踝关节改串联以适配 RL;部分电机控制器主动限制输出让响应更线性
- 根因:算力瓶颈:完整仿真需准确建模动力学、惯量等,计算成本极高,团队被迫走捷径(惯量估算、重心靠修)
- 应对方向错误:域随机化被当"胶带"勉强固定系统;正确方向应改进仿真器而非改硬件适配仿真捷径
- 行业反馈:Agility 的 Chris Paxton 指出团队优先让 Isaac Lab 易仿真而非改进仿真器;Matt Freed 认为大量方案在为错误需求优化
- 关键判断:硬件与模型团队分离会导致反馈极慢;全栈闭环(硬件+模型+部署)才是核心竞争力
核心零部件供应链:全极耳高功率电池卡位
硬件创新与软硬协同方案
- 新能安电池卡位:成宇树核心供应商,2023年量产全极耳21700电芯,内阻降至2mΩ(降幅超80%),比三星提前约3年
- 电池战略协同:依托ATL+CATL生态与超30GWh产能,将无人机/高端电摩验证的高功率放电技术底座迁移至机器人关节电机场景
- MIT微型建图芯片:硬件化GMMap算法,面积仅4mm²,功耗6毫瓦(比Jetson TX2低341倍),吞吐54万-132万点/秒,精度96%-99%
- 芯片三项优化:空间反推降耗22%-63%;地图批量查询降耗74%-81%且吞吐提4-10倍;近似计算缩减面积38%与地图44%-63%
- 软硬协同突破:采用流式架构单遍扫描深度图即丢弃原帧,消除片上存储瓶颈,突破软件优化极限
免训练具身导航框架
- 核心表现:Uni-LaViRA全程零样本训练,在六大基准取得免训练最优,其中四项反超训练型SOTA
- 架构解耦:拆分为语言层、视觉层与几何执行层,换机器人仅需替换底层控制器(约6-8人时),实现跨机即插即用
- 记忆回溯:TDM待办清单处理长指令防目标丢失;SCB机制将失败轨迹作上下文重新决策
- 成本颠覆:训练开销全转至API调用(GPU消耗为0),验证依赖预训练大模型的结构化拆解可替代大规模机器人数据训练
非人形形态演进与底盘系统量产化路径
ScienceAI(20260612) | 钛媒体AGI(20260614) | AI科技评论(20260615) | 具身智能之心(20260616) | 智能相对论(20260616) | 机器之心(20260617) | 硅星人Pro(20260617) | 硅星人Pro(20260618) | AI前线(20260619)
- 反人形设计与量产底盘:Genesis Eno采用轮式无头折叠躯干设计,光象Phi-Bot X1为四舵轮升降双臂,思岚Poseidon发力四轮转向底盘;均在稳定性、通过性与量产可行性上避开双足瓶颈
代表产品与商业化进展
| 产品 | 硬件特性 | 落地进展/商业规划 |
|---|---|---|
| Genesis Eno | 轮式底座+无头三折叠躯干+双臂 | 获1.05亿美元融资,26年Q4交付LG CNS |
| 光象 Phi-Bot X1 | 四舵轮底盘+升降双臂,0.05mm精度 | 蔚来产线连续作业21.5小时零失误 |
| 思岚 Poseidon | 四轮独立转向,360°感知与多机调度 | 缩短本体开发周期至1个月 |
| Ferrata系统 | 调度多基础硬件,整合DM0模型 | 覆盖超10万SKU,日峰数万单 |
底盘平台化与系统能力
- 底盘成物理前提:行业过度聚焦大脑与灵巧手,但通过性与安全性完全取决于底盘,成隐形瓶颈
- 底盘平台化趋势:标准化底盘让开发者聚焦上层应用,竞争从单一导航向全栈平台能力转移
- 全栈数据自研:Genesis将数据手套降至300美元(原1/20),结合仿真引擎全闭环
系统化兜底与数据飞轮
- Physical Harness机制:原力灵机不强求完美模型,通过三级任务分层(L1标准自动化、L2具身执行长尾、L3人工接管)兜底,让不完美模型直接进场作业保产线
- 双轮驱动逻辑:任务分层降本跑通商业ROI(经济飞轮),真实异常记录结构化反哺模型(数据飞轮)
范式收敛与行业宏观瓶颈
- 单一突破不会到来:2025年机器人总投资创纪录达407亿美元,但演示多为高度编排,缺乏真实泛化,突破需依赖系统能力组合
- 数据飞轮陷阱:具身数据场景强绑定,跨场景几乎无用,头部公司千万级投入采集10万条数据,模型能力提升仅约5%
- 评估与资本双重分歧:缺乏类似LLM的统一评估基准(WorldGym等仅为早期),各路资本维持多路线博弈,延缓技术收敛
海清智元上市:物理AI第一股与软硬一体化转型
上市概况:以"物理AI第一股"身份登陆港交所,发行价7.20港元,首日最高涨幅327%,盘中市值达231亿港元
- 认购火爆:公开发售超额认购7181倍,超25万人申请,募资净额5.37亿港元
- 三年复合增长率约138.9%,2024财年实现扭亏为盈
财务数据
| 指标 | 2023财年 | 2024财年 | 2025财年 |
|---|---|---|---|
| 总收入 | 1.17亿 | 5.23亿 | 6.69亿 |
| 净利润 | -0.18亿 | 0.4亿 | 0.29亿 |
| 综合毛利率 | 12.2% | 18.8% | 22.3% |
| 研发开支 | 0.11亿 | 0.25亿 | 0.51亿 |
商业模式转型
| 业务线 | 2024财年毛利率 | 2025财年毛利率 |
|---|---|---|
| 感知终端 | — | 17.7%(历史新低) |
| 大模型服务 | 49.5% | 30.4%(仍最高) |
| 订阅服务 | 65.4% | 71.3% |
- 大模型服务两年内从零成长为收入占比过半(53.1%),从纯硬件转向"硬件+大模型服务"
- 硬件引流、软件盈利:大模型服务及订阅服务毛利率远高于硬件,与AI行业整体趋势一致
市场地位
- 中国多光谱AI公司排名第一(份额3.3%),大模型服务领域份额23%
- 全球多光谱AI市场预计从2025年850亿增至2030年3054亿(CAGR 29.1%)
核心洞察:大模型服务两年内从零成长为收入占比过半的核心业务,验证了AI感知领域软硬一体化路径的商业可行性
光轮智能完成10亿元融资:物理AI数据与评测基础设施
- 融资概况:光轮智能完成10亿元融资,投资方包括中关村科学城等政府基金,及巨人网络、三七互娱等产业资本;奇绩创坛2023春季创业营校友企业
- 公司定位:物理AI数据与评测基础设施提供商,构建「求解-测量-生成」三位一体仿真平台,数据最高实现10倍复售率,体现数据资产化属性
- 产品闭环体系:形成外层应用与底层基础设施的两层结构,支撑机器人在真实世界中的持续学习与迭代
| 产品 | 定位 | 核心功能 |
|---|---|---|
| EgoSuite | 人类行为数据 | 沉淀跨本体人类操作经验,记录观察、纠错与长程任务 |
| RoboFinals | 工业级评测 | 标准化任务+可复现环境,定位模型能力边界与失败模式 |
| RoboStack | 部署反馈 | 采集工厂/仓库/农业等现场异常与失败样本并回流 |
| SimFoundry | 底层仿真基础设施 | 将真实世界物理属性转化为可训练、可评测的仿真资产 |
- 闭环逻辑:EgoSuite提供真实经验 → RoboFinals验证模型能力 → RoboStack回流部署反馈 → SimFoundry支撑数据生成与评测迭代
- 生态与标准布局:与PICO、阿里云、生数科技等合作覆盖数据-算力-场景全链路;作为唯一中国企业加入国际开源物理仿真引擎Newton技术指导委员会(TSC),与英伟达、Google DeepMind、迪士尼研究院、丰田研究院共建开源标准
- 行业趋势:具身智能竞争焦点从模型能力转向数据-评测-部署闭环基础设施建设,标准制定权与仿真数据资产化成为核心竞争维度
疆海科技(Zendure):阳台储能赛道消费电子化与AI能源服务
- 产品定位:阳台储能以约1000欧元单价、5分钟DIY即插即用,打破传统户储1-3万欧元高门槛及数周安装审批周期,目标下沉至公寓与租赁人群
| 维度 | 传统户储 | 阳台储能 |
|---|---|---|
| 单价 | 1-3万欧元 | ~1000欧元 |
| 安装 | 专业电工+并网审批 | DIY即插即用,≤5分钟 |
| 回本周期 | 7-10年 | 3-5年,AI优化后≤2年 |
| 目标人群 | 高端独栋家庭 | 公寓、租赁大众 |
- 融资与产能:B轮数亿元融资,大族激光与德联资本领投;首季度营收同比增长近200%,大族激光提供百万台级年产能
- 数据底座:积累2000亿条家庭充放电数据,接入840+电力公司、5000+热泵型号、100万+EV充电桩
- AI调度能力:7天行为学习预测用电曲线,结合天气与动态电价每秒多次决策,HEMS 2.0实测节费最高73%
- 商业化升级:从硬件销售升级为“硬件+月度订阅+度电分成”三重收入,远期规划聚合数十万家庭电池为VPP
- 市场趋势:BloombergNEF预测2025全球储能新增达94GW/247GWh(+35%),阳台储能将吃下庞大存量大众市场
5.2 人才迁徙、技术迁移与具身创业图谱
具身智能核心人才创业图谱与背景解析
智能涌现(20260330) | AI科技评论(20260330) | 量子位(20260331) | 字母AI(20260402) | 雷峰网(20260408) | 机器人前瞻(20260408) | AI科技评论(20260409) | 钛媒体AGI(20260410) | 智东西(20260416) | 机器人前瞻(20260416) | AI科技评论(20260421) | 雷峰网(20260421) | 机器人前瞻(20260422) | AI科技评论(20260426) | 雷峰网(20260427) | 量子位(20260518) | AI科技评论(20260518) | DeepTech深科技(20260522) | AI科技评论(20260521) | 具身智能之心(20260522) | AI科技评论(20260601) | AI科技评论(20260602) | 雷峰网(20260615)
- 大模型与学者跨界入局:GPT-4核心贡献者姜旭创亮源新创;清华助理教授丁宁创自然意志(天使轮估值40亿);斯坦福学者苏昊(论文引用约15万)全职加入复旦
- 2026年Q1资本极度狂热:融资210起公开金额超300亿(同比增138%),单笔10亿以上达14起(2025全年仅6起),Hillbot估值破20亿美元
核心创业公司及背景对比
| 公司 | 创始人/核心团队 | 前背景 | 商业进展/技术路线 |
|---|---|---|---|
| 它石智航 | 陈亦伦、李震宇、丁文超 | 华为智驾/百度 | 融资超4.5亿美元,创中国具身纪录 |
| 昆仑行 | 郎咸朋、任庚 | 理想/阿里云 | 注册10天估值超10亿美元 |
| 亮源新创 | 姜旭 | GPT-4核心贡献者 | 用互联网视频做行为压缩预训练 |
| 吉翼智能 | 李一同 | 华为终端云 | 依托40亿产值制造链,主攻全栈大小脑 |
| 欧拉万象 | 周顺波 | 华为天才少年 | 家庭场景开发者数据飞轮 |
| Zeno AI | William Zhi | CMU博后 | 全身协同端到端模型 |
| 叮当动力 | 牛建伟 | 地平线 | 空间智能大模型+物理Agent架构 |
| 时炉科技 | 毛崇兆 | 非夕/穹彻 | 轮式底盘+单臂,主攻海外家庭场景 |
| 原力灵机 | 唐文彬 | 旷视/清华姚班 | 聚焦物流B端,发布DM0模型 |
| XVI Robotics | 宋鸿涌 | Kimi后训练负责人 | RL后训练解决物理稀疏反馈 |
技术路线高度分化
- 视觉预训练派:亮源新创主张视频行为压缩,具身Scaling Law斜率或大于语言模型
- 空间智能派:叮当动力批判操作层数据内卷,直接继承大模型Scaling Law能力
- 强化学习派:XVI Robotics与自然意志聚焦RL后训练与高效学习算法
- 数据飞轮派:欧拉万象等通过真实物理世界Outlier数据构建核心壁垒
赛道趋势总结
- 智驾技术平移:感知、规划与端到端技术栈可直接迁移至具身大模型,理想系输出至少7位骨干
- 差异化场景选择:原力灵机切入物流闭环,吉翼智能从工业扩展至家庭,时炉科技锁定海外家庭
5.3 创业与产业
具身智能创业生态、资本布局与工程化底座
Z Potentials(20260330) | 机器人前瞻(20260330) | AI科技评论(20260406) | 数智前线(20260407) | 机器人前瞻(20260409) | 机器人前瞻(20260409) | 数据猿(20260415) | 有新Newin(20260420) | 机器人前瞻(20260422) | 雷峰网(20260423) | AI科技评论(20260426) | 机器人前瞻(20260427) | 具身智能之心(20260427) | 钛媒体AGI(20260427) | 奇绩创坛(20260428) | 机器人前瞻(20260501) | "Z Potentials"(20260506) | DeepTech深科技(20260512) | 机器人前瞻(20260519) | 具身智能之心(20260601) | 具身智能之心(20260602) | 机器人前瞻(20260602) | AI科技评论(20260602) | 机器之心(20260603) | 具身智能之心(20260605) | 具身智能之心(20260608) | 钛媒体AGI(20260615)
资本狂热与极度分化:2026上半年超460亿融资中,约70%流向排名前20企业,塔尖5家吞噬约171亿(37%)。国家队大基金三期入场,产业资本/国资在10亿+融资参与率超40%,传统VC退为跟投
资本从狂热走向理性收敛:2026年5月公开融资骤降至54亿(较4月200亿大幅回落);工程交付能力与商业闭环取代顶会论文,成为核心考量。头部企业半年内多轮融资构筑壁垒,阻断腰部追赶窗口
百亿独角兽与IPO密集冲刺:国内百亿估值企业超13家(智元、星动、极佳等);2026成上市大年,华沿机器人(超额认购5059倍)、云深处、翼菲智能等密集冲刺港交所/科创板
| 标杆企业/机构 | 核心壁垒与事件 | 资本动作与估值 |
|---|---|---|
| 软银 | 全栈整合:控股Skild、全资收购ABB机器人 | 投入超百亿美元 |
| Physical Intelligence | 通用机器人基础模型 | 估值达110亿美元 |
| 简智机器人 | 沉淀超百万小时具身数据 | 蚂蚁等领投数亿元 |
| 星源智能 | 全模型端侧部署,摆脱云端依赖 | 融资10亿,成Jetson最大出货商 |
| 自然意志(清华系) | 高效学习与强化学习对齐方案 | 天使轮估值40亿 |
算力端侧化与数据底座成核心瓶颈:真实数据积累不足目标量5%,全国超27城建54座数采中心,自研设备将成本降至1/10;产业资本沿“大脑>本体>配套”链条渗透
商业化从Demo向规模化过渡:智元完成全球首次8小时并线量产验证,特斯拉启动Optimus产线;但物流等场景面临ROI考验(单台成本30万,回本需4-5年,远超期望)
早期投资锚定底层单点突破:资本前置押注细分壁垒,世界模型(千寻智能登顶RoboArena真机评测)、触觉构建及大小脑融合芯片等早期初创成重点
5.4 新产品形态与巨头战略生态
国内具身智能新势力:产品定位与商业化路径
越疆科技:工业底座驱动的具身智能路径
- 出货规模:2025年出货量跃居全球第一,累计部署超10万台,服务80余家世界500强。
- 营收增速:2025年收入同增31.7%,六轴增速44.7%,远超行业近30%复合增速。
- 安全与精度:全球唯一量产人机零距离安全皮肤;焊接精度±0.3mm,一次成型合格率近100%。
- 路径差异:主张从上肢双臂协同向下扎根,区别于行业从人形外观向上堆砌的主流思路。
千诀科技:跨本体通用大脑路线
- 商业定位:不造本体只做大脑,打造“机器人领域的安卓系统”,已适配7大品类30+子品牌。
- 样本效率:解耦式类脑各功能区数据为加法关系,数据匮乏阶段远胜端到端的乘法关系。
- 远期目标:采用脉冲神经网络实现神经元级因果推理,从理论消除AI幻觉。
聆动通用:讯飞投资的软硬一体化新锐
- 融资速度:成立4个月完成4轮,Pre-A累计数亿元创安徽具身智能纪录,讯飞多次参投。
- 硬件矩阵:LDT系列覆盖采训推全链路;LDB01工业机器人MTBF≥1万小时。
- 模型实力:VLM达开源视觉指令最优;VLA采用显隐双路径,抓取折叠分拣达SOTA。
具身智能大脑技术路线对比
| 维度 | 端到端VLA | 千诀解耦式类脑 |
|---|---|---|
| 数据需求 | 乘法关系,需全功能联合数据 | 加法关系,功能区独立积累 |
| 跨本体泛化 | 紧耦合适配需推倒重来 | 模块按需装配,高度复用 |
| 数学本质 | 序列生成问题 | 因果推理问题 |
| AI幻觉 | Transformer仅做相关性推理 | 脉冲网络实现神经元级因果推理 |
5.5 学术贡献与垂直领域商业落地
学术生态:从基础研究到产业赋能
机器人前瞻(20260331) | AI科技评论(20260413) | CVer(20260415) | 量子位(20260417) | 机器人前瞻(20260417) | AI异类弗兰克(20260430) | 机器人前瞻(20260526)
|---------|------------|---------|--------------|---------|
| 苏昊(复旦/UCSD) | 谷歌学术引超14.5万,主导ShapeNet/PointNet | Hillbot(CTO) | 轮式机器人Alpha,合作英伟达Cosmos | 未披露 |
| 黄碧薇(CMU→UCSD) | 苹果学者(2021),师从因果推理先驱 | 原识之智 | Causal-Copilot(集成20余种因果算法) | 英诺领投,顺为跟投 |
| 高飞(浙大) | 90后长聘副教授,80余论文 | 微分智飞 | P300(无GPS导航)、非凸-α(集群协同) | 一年半6轮超5亿,华控领投 |
| 黄强(北理工) | 师从加藤一郎,20年仿人机器人积累 | 理工华汇 | BHR第8代、SR-01(-40℃~50℃特种) | 近亿元Pre-A,基石领投 |
学术遗产转化为产业基础设施
- 数据集奠基:苏昊主导ShapeNet(300万+3D模型),参与ImageNet构建
- 算法突破:PointNet系列为首个直接处理原始点云的深度学习模型
- 仿真平台:SAPIEN模拟器与ManiSkill平台成为具身智能训练核心底层引擎
- 师承网络:苏昊门下涵盖弋力(清华)、卢策吾(上交穹彻)、王鹤(北大银河通用)等核心力量
因果推理突破物理瓶颈
- 核心瓶颈:大模型依赖相关性学习,物理分布偏移(如光照/摩擦力变化)时性能骤降
- 三大挑战:时序因果发现、非稳态因果学习、跨场景因果迁移
- 业界共识:因果推理是具身智能从专精走向通用的关键分水岭
资本格局与商业化壁垒
- 产政媒资本融合:微分智飞老股东含联想、深创投、百度风投,引入央视基金横跨产政媒
- 核心部件国产化:理工华汇实现电机、减速器等核心部件全自研国产化
- 特种赛道壁垒:理工华汇军工特种声称独家渠道订单规模破亿元
开放知识基础设施
- 联盟发起:清华、北大、上交等多校联合推出具身智能行业知识库
- 四维体系:认知启航(14模块)→学术精进(50+数据集)→产业洞察(200+企业图鉴)→思想视野(100+播客)
5.6 硬件本体企业盈利模型与商业化
硬件本体企业盈利模型与商业化路径
第一新声(20260330) | 光锥智能(20260331) | 机器人前瞻(20260403) | 硅基观察Pro(20260401) | 机器人前瞻(20260501) | DeepTech深科技(20260609) | AI蓝媒汇(20260612)
- 本体制造盈利分化:宇树营收17.08亿净利6亿,乐聚营收2.58亿亏损0.69亿,微亿营收7.96亿净利仅0.05亿
- 核心指标对比:宇树/乐聚/微亿毛利率分别为62.9%、40.78%、48.4%,宇树高毛利暂居行业首位
头部企业商业模式与路径
| 企业 | 2025出货/市占 | 战略打法 | 盈利核心与隐患 |
|---|---|---|---|
| 宇树科技 | 11000台(74%科研) | 四足养人形,极致全栈自研 | 物料成本仅8976美元,拟募资42亿转投大脑模型 |
| 乐聚智能 | 577台(78%G端) | 以价换量,Kuavo降价25.6%换17倍销量 | 成本降幅27.4%大于售价,但现金流持续为负 |
| 微亿智造 | 工业市占率31% | 聚焦工业EIIR产品线 | EIIR年复合增99.3%,但高额研发(占30%)致盈利承压 |
核心壁垒与商业化隐忧
- 宇树成本解构:QDD准直驱降本80%,自研外购比仅14%-18%;G1仓储场景小时成本约26.4美元已低于美国劳动力基准
- 伪商业化隐忧:超70%需求依赖科研或导览等展示场景,行业爆发拐点仍取决于AI大模型的实质突破
- 资本转向大脑:资本偏好押注模型优先,宇树自身已意识到短期优势在工程、长期胜负在模型
- 行业IPO加速:云深处辅导完成冲刺上市,超20家机器人企业明确上市计划,行业进入资本化窗口期
5.7 商业化落地与产品形态
具身智能垂直场景商业化验证与路径
机器人前瞻(20260401) | 机器人前瞻(20260402) | 钛媒体AGI(20260403) | 雷峰网(20260409) | 机器人前瞻(20260418) | 具身智能之心(20260423) | 新智元(20260605)
物流场景的真实价值研判
- 伪需求方向:人形搬运、全自动分拣等多为概念包装,传统单点优化边际效益趋饱和
- 真实刚需方向:仓库装卸ROI三个月可算清;中国1000万装卸工存量市场,海外月薪达5000美元
- 数据重构商业模式:极智嘉十年沉淀实现营收31.7亿且利润转正,AI订阅订单增速超90%
- Picking是具身原子任务:全球仓库日均上亿次真实抓取,Skild AI收购Fetch补齐数据短板
工业制造核心指标
| 厂商/机型 | 核心场景 | 关键突破指标 |
|---|---|---|
| 智元 A2-W/G2 | 3C与汽车产线 | 节拍压缩至18秒,整线成功率99.9% |
| 千寻"小墨" | 宁德时代电池 | 全球首条规模化PACK产线插接 |
| 银河通用 S1 | 宁德时代等 | 轮式重载搬运,延伸至零售 |
| 优艾智合 | 半导体与电力 | 80台集群日均搬运1.6万次,精度2mm |
商用服务机器人商业化表现
| 企业 | 核心场景 | 商业化关键指标 |
|---|---|---|
| 极智嘉 | 仓储物流 | 营收31.7亿转正,海外占比超75% |
| 橡鹿 | 炒菜机器人 | 落地7000+门店,投料误差<1% |
| 享刻 | 厨房油炸 | 海外百台交付,炒温突破220℃ |
| 零次方 | 空间清洁 | 单月量产百台,20+地标场所部署 |
| 赛那德 | 货物装卸 | 1000+件/时,切入烟草酒水避红海 |
场景切入策略与扩展
- 反推技术参数:享刻按0.9m臂展与5kg负载标准反推设计,从油炸逐步向全动线覆盖
- 避战低毛利:赛那德切入高付费、高标准的烟草酒水生产物流,建立先发商务壁垒
- 量化回报驱动:零次方以可量化回报匹配复杂背景抓取与24小时不间断作业能力
6. 具身数据采集、部署基建与工程底座
6.1 数据采集与基建
具身数据引擎演进与数据价值验证
智能涌现(20260330) | 具身智能之心(20260402) | AI科技评论(20260403) | DeepTech深科技(20260408) | 机器之心(20260410) | 量子位(20260413) | 机器人前瞻(20260414) | 具身智能之心(20260415) | 新智元(20260416) | 机器之心(20260416) | AI科技评论(20260416) | 量子位(20260416) | 机器人前瞻(20260416) | 具身智能之心(20260416) | Z Potentials(20260417) | 机器之心(20260417) | AI科技评论(20260417) | 甲子光年(20260417) | 具身智能之心(20260419) | 具身智能之心(20260420) | 硅星人Pro(20260427) | 数据猿(20260507) | DeepTech深科技(20260507) | 前沿在线(20260507) | AI科技评论(20260508) | 具身智能之心(20260508) | 具身智能之心(20260509) | AI科技评论(20260509) | 具身智能之心(20260510) | 数智前线(20260511) | 机器之心(20260331)
核心挑战与价值验证
- 数据成为核心瓶颈:物理AI数据极度稀缺(全球真机数据约50万小时,不足LLM语料万分之一),但数据量每增10倍性能提升约1倍
- 高质量数据具压倒性优势:400条高质量真机数据效果远超1300条低质量数据,设备成功率提升至90%以上
- 负样本数据价值:包含“失败→纠正→成功”闭环纠错的样本,能显著提升非结构化环境应变能力(如双臂成功率从34%升至75%)
四大采集技术路线对比
| 路线 | 核心优势 | 关键痛点 |
|---|---|---|
| 真机遥操 | 精度高,训练“小脑” | 成本极高(>500元/小时) |
| 仿真合成 | 低成本,规模大 | 真实场景迁移差(成功率12% vs 89.4%) |
| 第一人称(Ego) | 跨本体强,训练“大脑” | 缺力触觉反馈 |
| 无本体(UMI等) | 效率为真机2-3倍 | 缺乏极精细操作 |
技术架构演进
- 分层采集架构成共识:场内真机遥操训练精细控制,场外第一人称视频(EgoScale/Gen EgoData)训练决策能力
- 跨手型与触觉突破:清华UniDex实现8种异构灵巧手50条轨迹零样本迁移;简智Gen DAS Dex实现0.02°关节精度与0.05N触觉灵敏度
数据基建与产能爆发
- 国家队与创业群像:全国在建数采中心超60座覆盖27城;智域基石(近亿元订单)、觅蜂(2030目标百亿小时)、戴盟(发布千万小时级最大触觉数据集)密集发力
- 全球化众包与开源生态:Micro1在71国月收16万小时视频;蚂蚁灵波开源300万对RGB-深度数据(2.71TB),加速中小团队研发
- 数据编译管线标准化:通过五段式管线(质检→底座→编译→检索→交付)解决视觉30Hz与关节500Hz采样异步等多模态时空错配问题
6.2 具身系统框架与平台基建
具身智能操作系统架构与平台化基建
AI科技评论(20260401) | 前沿在线(20260403) | 具身智能之心(20260407) | 具身智能之心(20260413) | AI科技评论(20260422) | 前沿在线(20260424) | 雷峰网(20260427) | AI科技评论(20260429) | 硅基观察Pro(20260519) | 特工宇宙(20260628)
| RDK S600 | 地瓜机器人 | 边缘端单板统一算力底座 | 单板跑通仿真部署全链路;Mujoco仿真达400FPS+ |
系统架构与设计范式
- 协议化架构:PhyAgentOS以六层Markdown协议取代端到端VLA黑盒,实现文档即接口
- 模块化解耦:感知、规划与执行边界清晰剥离,异构硬件统一封装为调度接口
- 零代码编排:Genie Studio将复杂能力模块化为组件,拖拽节点即可完成任务流编排
- 具身原生范式:原力灵机提出数据、训练、架构三维原生,要求智能机制与物理交互不可分割
- 软硬垂直绑定:RoboGo将系统与算法预打包为镜像,与地瓜芯片深度适配消除协作摩擦
- 系统中间层:Agentic OS填补大模型认知输出与真机物理执行鸿沟,目标走向可运维系统
- 单板统一算力:RDK S600单板覆盖仿真部署全链路,消除传统PC仿真、感知与控制多设备协同摩擦
工业验证与成本重构
- 半导体封测:Genie Studio作业成功率达99.999%+,掉盘率<0.001%,无故障运行超168小时
- 极致易用性:BETA Hackathon以PhyAgentOS为统一平台,11岁开发者夺冠验证系统极低门槛
- 成本大幅压缩:RoboGo将传统上千万POC降至约100万,训练按小时3.7元云化付费
- 数据云端直连:RoboGo预置TB-PB级常用数据集云端直连,彻底消除大带宽数据集搬运成本
- 全栈开源生态:原力灵机发布DM0、Dexbotic 2.0及DFOL全栈开源,推动底层技术突破与生态共建
- 仿真性能跃升:S600实现Mujoco仿真400FPS+,摆脱PC依赖,解决传统上位机不足10FPS及高延迟痛点
行业演进关键洞察
- 边缘算力跨越门槛:边缘算力已从“够用”进入“好用”区间,单板即可完成脱离PC的独立调试
- 评估标准转变:评估开发平台应优先关注“链路完整度”而非单点性能的极限峰值
- 生态无缝兼容:基于Ubuntu 24.04底座,ROS/PyTorch等主流框架可直接迁移,打破环境配置瓶颈
6.3 VLA开源工具与工程底座
VLA开源工具与工程底座
具身智能之心(20260413) | 新智元(20260413) | 具身智能之心(20260417) | 机器之心(20260509) | 具身智能之心(20260513) | 量子位(20260513) | AI科技评论(20260612)
-
开源重心转向全链路工程底座:VLA核心瓶颈已从模型能力转向真机部署,开源生态覆盖统一框架(StarVLA)、标准化部署(FluxVLA Engine)与真机后训练(LingBot-VLA)
-
StarVLA(港科大):提出Backbone-动作头双向模块化,换组件仅需改配置文件;LIBERO仅30K步收敛(98.8%),效率提6倍;256卡并行效率79%~80%,8×A100单节点利用率达92%
-
FluxVLA Engine(逐际动力):首个打通数据-训练-仿真-真机全链路工程底座,解决数据乱序、网络接口不统一、评测无标准、代码环境相互隔离四大断裂
-
LingBot-VLA(蚂蚁灵波):基于2万+小时真机预训练(覆盖9种主流双臂构型),仅需150条示教即迁移新任务,训练速度达StarVLA、OpenPI等主流框架1.5~2.8倍
| 基础设施 | 核心数据 | 解决的工程瓶颈 |
|---|---|---|
| StarVLA | GitHub 2.2k star,跨4大基准联合训练泛化 | 算法模块互不兼容、无法公平对比 |
| FluxVLA Engine | 摒弃单点算法,构建标准化流水线 | 单点创新各自为战,组合复用性极差 |
| LingBot-VLA | 含深度版本超越π0.5 | 开源模型停留权重下载,后训练断链 |
-
深度信息刚需化:LingBot-VLA深度版在微波炉开门、舀米入杯等接触密集型任务超越π0.5,验证深度感知非锦上添花
-
双足人形闭环验证:乐聚KUAVO 4 Pro跑通完整闭环(唯一双足平台),过程得分36.22%比π0.5高9.87个百分点,为五模型对比最优
-
生态验证低门槛:ICRA 2026 REAL-I挑战赛中高校学生一天内从零跑通真机部署,验证工具链的低门槛可用性
-
核心洞察:预训练解决“广泛知道”,后训练解决“具体会做”,工具链标准化与工程闭环落地比单点算法突破更重要
6.4 数据采集硬件、模态与感知设备
感知硬件、触觉传感器与新型交互界面
新智元(20260331) | 量子位(20260404) | 机器之心(20260413) | 机器之心(20260418) | DeepTech深科技(20260419) | DeepTech深科技(20260424) | 具身智能之心(20260507) | 机器人前瞻(20260507) | DeepTech深科技(20260518) | DeepTech深科技(20260522) | DeepTech深科技(20260531)
- 视触觉传感器:戴盟指尖集成11万单元(业内最高),输出图像兼容VLA,已开源万小时数据集。
触觉传感器技术路线对比
| 技术路线 | 机构/企业 | 核心优势与材料 | 关键指标 | 成本 |
|---|---|---|---|---|
| 多光谱仿生 | 清华SuperTac | 10维感知,灵感源自鸽子视觉,四层多光谱设计 | 0.06N精度,1mm厚,盲文识别100% | <1美元 |
| 硬币六维力 | 斯坦福CoinFT | 五层神经网络解码介电电容,全开源 | 20mm/2g,力误差0.15-0.58N,360Hz采样 | 10美元 |
| 柔性多模态 | 途见科技 | 柔性电子皮肤,覆盖灵巧手/全身/数采三大产品线 | 400传感器/cm²,拉伸>100%,接近觉20cm | 融资超亿 |
| 柔性纤维 | 矩侨工业 | 解构三明治结构为纤维,可编织,已接入Isaac Sim | 折叠半径<0.1mm,耐反复揉搓 | 传统1/5 |
| 热缩共形 | 中科院/天大 | 铜-镓铟半液态金属丝网印刷,加热自动包覆曲面 | 57-70.6°C收缩,5000次弯曲导电稳定 | — |
| 毫米光场编码 | 上交大 | 末端无电子元件,单一光纤传输,扩散模型生成数据 | 外径1.7mm(世界最小六轴),10万张合成图 | — |
多模态数据采集与新型交互方案
| 方案/系统 | 核心能力与原理 | 关键数据与商业化进展 |
|---|---|---|
| 开普勒VTLA数采 | 双路径策略:高保真遥操作+类UMI人类示范 | 保真度99%,装配成功率达99.4% |
| 帕西尼数据云商城 | 82DOF穿戴+30个六维触觉,全模态同步 | 3015触觉点,延迟<5ms,获数据交易所A级认证 |
| FlashCap动捕服 | 1000Hz闪烁LED+事件相机,CVPR 2026 | 开源715万帧数据集,MPJPE降低40%,误差4.8ms |
| 斯坦福UMI-FT | iPhone视觉+指尖CoinFT多模态融合 | 采集200-630组数据,实现自适应柔顺力控 |
| 湿电非接触界面 | 水凝胶薄膜利用湍流调控湿电效应隔空感知 | 感知距离8cm,SVM仅需~20样本达99%准确率 |
6.5 具身感知与3D/多模态表征
具身多模态感知与3D表征学习前沿
量子位(20260404) | 具身智能之心(20260405) | PaperWeekly(20260406) | 机器之心(20260401) | 机器之心(20260408) | 机器之心(20260408) | CVer(20260409) | 机器之心(20260411) | CVer(20260412) | 新智元(20260414) | CVer(20260414) | CVer(20260428) | 机器之心(20260506) | AI科技评论(20260507) | 机器之心(20260515) | 机器之心(20260505) | 极市平台(20260529) | AI科技评论(20260602)
- 跨模态数据集演进:从早期视觉-触觉受控数据,扩展至融合语言(STOLA)与音频序列,终极形态Touch100k含超10万三模态样本
- 3D占据与场景表征:FreeOcc(RSS 2026)实现无需训练开放词汇占据预测,零样本迁移达55.65 IoU;LegoOcc(CVPR 2026 Oral)采用语言嵌入高斯,在Occ-ScanNet取得59.50 IoU
- 物理驱动4D生成:PhysGM首推单图1分钟生成物理4D动态视频,采用双解码器预测材质参数(杨氏模量等),结合DPO策略与MPM引擎,构建超5万物理参数对PhysAssets数据集
- 艺术意图3D生成:Art3D框架(CVPR 2026)双路径解耦全局风格与局部笔触,引入DDC-IoU实现3D艺术量化评估
- SLAM与状态估计突破:DROID-W引入动态不确定性建模,室外轨迹误差降至23cm(降84%),RTX 5090上达30 FPS;清华NANO滤波器重构变分优化,人形机器人位置误差较EKF降74%(0.386m→0.101m)
- 无监督与协同3D检测:CPD++(TPAMI)动静分离学习,KITTI汽车AP达89.25%(全监督95.3%水平);DOtA++(TPAMI)迭代抑制伪标签,V2X-R检测精度提升10.7%
- 热红外与多模态融合感知:TherNet首融热辐射物理失真机制;RTPSeg数据集(标注点超2.4亿)融合热红外+可见光+点云,夜间场景热红外贡献提升1.45%;DeepPro(TPAMI)将红外小目标重构为一维信号异常检测,参数减87.6%达184 FPS
- 无人机视觉自主定位:PiLoT(CVPR 2026 Highlight)统一定位为像素-3D配准,GNSS拒止下10km误差均值1.374m,Jetson Orin达25-30 FPS
- 世界模型交互生成:NTU的Hand2World用3D mesh替代2D mask控制信号,结合Plücker射线解耦运动,FVD降至218(降76%),支持闭环流式交互生成
6.6 评测基准、数据集与具身Agent框架
具身评测基准、数据集与生态基建
甲子光年(20260401) | 具身智能之心(20260403) | 机器人前瞻(20260403) | 智东西(20260403) | 具身智能之心(20260415) | 极市平台(20260417) | 极市平台(20260430) | CVer(20260511)
- 通用模型突破商业可行临界点:GEN-1成功率从64%跃升至99%,折叠纸盒耗时从34秒降至12秒,新任务适配仅需1小时数据,连续作业超1小时无需干预
- 真机评测取代仿真成为新范式:EAIDC 2026首次搭建系统化真机评测体系,上百台机械臂同时运行,AB卷机制将泛化能力列为核心指标
- 混合数据范式破解采集困境:智象未来×诺亦腾首创“真实种子+生成式放大”,预计年内产出数万小时训练数据
具身智能核心数据集与基准对比
| 数据集 | 规模与定位 | 关键特性 |
|---|---|---|
| PhysInOne | 200万视频/15.3万场景 | 71种物理现象,CVPR 2026接收,多引擎协同仿真 |
| InternScenes | 4万场景/196万物体 | 最大可交互室内数据集,20%物体可关节交互 |
| Vlaser-6M | 600万训练样本 | 融合视觉+语言+空间+动作四类子集的VLA训练数据 |
| RH20T | 11万序列/40TB | 接触密集型操作,融合RGB+深度+力觉+200Hz高频触觉 |
| 10KhRealOmni | 1万+小时 | 3000+真实家庭场景,无本体通用技能学习 |
| TVL | 4.3万+组样本 | DIGIT触觉+视觉+语言跨模态精细对齐 |
| HoloAssist | 169小时交互 | 第一人称协作,指导者-执行者配对 |
| HM3D | 1000高精度扫描 | 具身导航数字孪生,适配Habitat仿真平台 |
通用具身模型GEN系列性能演进
| 维度 | GEN-0 | GEN-1 |
|---|---|---|
| 预训练数据 | 27万小时 | 50万小时(人类可穿戴设备采集) |
| 任务平均成功率 | 64% | 99% |
| 折叠纸盒耗时 | ~34秒 | 12秒 |
| 单任务适配数据 | 未公开 | 仅1小时机器人数据 |
| 突发应变能力 | 无 | 自主恢复+双手协同 |
| 连续作业能力 | 需人工干预 | 连续折叠86件T恤/分拣超1小时 |
6.7 具身大规模开源与多模态数据集
产业级大规模具身数据集开源实践
具身智能之心(20260401) | AI早餐汇(20260416) | AI早餐汇(20260417) | InfoQ(20260625)
开源数据集概况
- 智元 AGIBOT WORLD:1680h规模,650K样例,覆盖300+任务,100%真实环境采集
- 京东 EgoLive:目标千万h(首期已开放数千h),60 FPS高清,多场景真实数据
- 学界影响力:作为最大开源第一视角数据集,获多所名校支持,近百家机构争相使用
行业瓶颈与女娲计划
- 百倍数据缺口:泛化大模型需1000万h,现有开源仅几十万h,成本高且存在数据孤岛
- 女娲计划:投入10万+内部员工与50万+外部人员,目标两年采集千万h级数据
三层数据金字塔架构
- 底层基座:千万h级互联网视频,用于预训练,优势为量大成本低,局限是无标注无指向
- 中层核心:百万h级真实人类实操标注,是能力提升核心,但采集成本极高
- 顶层适配:本体强绑定遥操数据,专用于落地适配,主要局限是跨本体迁移困难
数据采集方法论与管线
- 全身控制(WBC):智元实现机械臂、腰部、手部统一协同,取代传统硬件拼接方案
- 超视距遥操作:智元支持跨地域第一视角控制,使数据具备更强可迁移性
- 力控采集:真实记录接触与力反馈,用于学习柔顺操作和精细物理交互
- 自动化标注:京东自研语义分割+几何优化+手势标注三步管线,准确率达95%
- 错误轨迹保留:智元DaaS流水线清洗数据时,完整保留错误修正轨迹以供学习
合成仿真与跨本体突破
- Real2Sim2Real闭环:京东用反向渲染撬动合成,智元提供数字孪生仿真环境
- UnifyTips单模型:兼容灵巧手/夹爪等多种执行器,解决跨本体映射难题
模型验证与性能基准
- JoyAI-RA1.0:任务成功率高达73.5%,性能优于NVIDIA GROOT N1.6等头部模型
- 高质数据清洗:结合DaaS工业质检流水线多轮筛查,保障标注与数据准确率达95%
BeTTER基准揭示:顶尖VLA模型95%+成功率是
- 95%+成功率被证伪:北大清华联合发布BeTTER基准,证实SOTA VLA模型缺乏具身推理,非仿真假象
- 因果干预分离失败:10个基础任务延伸60个诊断变体,记录特权状态实现精细化失败归因
- 指令理解依赖伪相关:GR00T-N1.6空间指令准确率100%,语义指令骤降至5%,强行绑定颜色与动作
- 组合泛化全面失效:训练A→B与A→C表现优异,测试B→C新组合时所有模型成功率暴跌40%~52%
- 细粒度辨别能力丧失:脱离固定布局后,对抗性视觉相似干扰物导致抓取错误率达20%~30%
BeTTER基准四大因果干预维度
| 干预类型 | 测试目标 | 典型操作 |
|---|---|---|
| 空间布局偏移 | 空间泛化能力 | 改变物体位置与相对关系 |
| 动作原语重组 | 零样本组合能力 | 训练A→B、A→C,测试B→C |
| 对抗性物体扰动 | 语义grounding | 视觉相似、语义不同物体替换 |
| 时序外推 | 因果状态追踪 | 改变初始状态、拉长任务流程 |
VLM向VLA转化的三重系统性退化
| 退化因素 | 具体表现 |
|---|---|
| 容量压缩 | 8B压缩至2B满足端侧算力,导致语义与时序能力跳水 |
| 训练不对称 | 传感器运动特征挤占表征空间,高级推理无法恢复 |
| 感知近视约束 | 高分辨率图压缩为224×224,丢失细粒度信息 |
- 消融实验指明改进方向:保留语义表征的模型在分布外场景显著优于纯动作训练模型
6.8 具身多模态数据集全景与生态
具身多模态数据集全景与生态基建
量子位(20260331) | 具身智能之心(20260401) | 前沿在线(20260408) | 具身智能之心(20260410) | 极市平台(20260410)
核心数据集规模与多样性对比
| 数据集 | 规模 | 场景/任务 | 特点 |
|---|---|---|---|
| AgiBot World | 100万+轨迹 | 5大真实场景,217项任务 | 智元G2,6类传感全覆盖 |
| LingBot-Depth | 2.71TB,300万对 | 住宅/医院/电梯 | 专注深度补全,虚实融合 |
| RoboMIND | 10.7万 | 479任务 | 跨4种机器人形态 |
| DROID | 7.6万 | 86任务,跨3大洲 | 564场景,环境多样性高 |
| RT-1 | 13万 | 多样任务 | 覆盖13种机器人平台 |
| OmniVTA | 2万+轨迹 | 5场景,6类触觉 | 最大视触觉对齐数据集 |
| LIBERO | 1693片段 | 40任务 | 仿真环境,四维正交评测 |
采集方法论创新
- 全身控制(WBC):智元统一机械臂/腰部/手部协同,数据升级为完整物理行为
- 超视距遥操作:DROID用Quest 2跨3大洲;智元跨地域第一视角控制,增强迁移性
- 力控与纠错:记录真实力反馈支持柔顺操作;完整保留纠错轨迹赋予模型纠错能力
- 数据质检:AgiBot引入DaaS工业质检流水线多轮清洗,保障数据高质量
多模态感知突破
- 传感补盲:LingBot-Depth解决透明/反光表面致深度相机失效问题,实现SOTA补全
- 多模态同步:智元G2同步采集RGB(D)、触觉、力觉、LiDAR、IMU及全身状态
- 触觉闭环:OmniVTA构建视触觉世界模型,从被动感知迈向主动预测与闭环控制
- 虚实融合:LingBot真实140万对+仿真100万对;AgiBot同步开源数字孪生数据
数据生态与行业趋势
- 格式双雄:RLDS格式(Google系)与LeRobot格式(HuggingFace系),兼容性成门槛
- 数据金字塔:互联网视频 → 人类行为(需解决人机差异) → 遥操回流(成本最高)
- 飞轮闭环:采集→优化→部署→回流,突破“不成熟难部署”的鸡与蛋困境
- 2026质量元年:数据质量取代数量成核心,质量管控对性能贡献大于架构调优
6.9 端侧AI算力架构:感算一体与光计算
感算一体与光计算:端侧AI算力新架构
智东西(20260408) | 具身智能之心(20260408) | DeepTech深科技(20260501) | DeepTech深科技(20260504)
| 传统架构 | 采集-传输-存储-计算串行 | 70%以上开销在数据搬运 | 存在实时性、功耗、成本三角冲突 |
| 感算一体 | 计算/存储融合于感知侧 | 降低功耗,毫秒级响应 | 中科大单二极管感存算一体化 |
| 光计算 | 3-6个数量级能效与速度优势 | 切入矩阵乘法密集计算 | 中期光电加速,长期重构全计算链路 |
感算一体架构突破
- 核心原理:在数据产生的位置即完成计算,将高冗余物理信号转化为紧凑语义特征
- 效率破局:缩短处理链路,使实时性、低功耗、低成本三者不再对冲
- 识别突破:中科大单二极管感存算一体化,FMNIST去噪后准确率从不足60%升至超95%
- 器件工艺:p-GaN/n-AlGaN/n-GaN结构,8个线性电流状态,50次读写循环漂移小于5%
- 工程进展:10×10阵列集成验证,3000秒稳定性测试电流波动控制在1%以内
- 产业化:已有企业接洽机器人视觉应用,从真实场景反推技术路线成为突破路径
端云协同架构演进
- 分工逻辑:云端负责复杂规划和长链推理,端侧负责高频实时闭环响应,二者是分工而非替代
- 驱动因素:Agentic AI要求AI从信息输出走向感知-规划-执行的完整任务闭环
- 价值递增:任务越复杂、数据越连续,感算一体减少数据搬运的价值越明显
端侧算力芯片商业矩阵(地瓜机器人)
| 系列 | 场景定位 | 算力(TOPS) | 状态 |
|---|---|---|---|
| X系列(旭日3/5/7) | 泛机器人消费级 | 中低算力 | 3/5量产,7年底发布 |
| S系列(S600) | 具身智能/人形 | 560(INT8) | 头部客户合作中 |
| RDK(X5/S100) | 开发生态 | 10~100 | 已发布 |
- 商业爆发:消费级芯片出货超500万片,2025年出货量同比增180%,覆盖400+机器人企业
- 生态规模:全球开发者超10万覆盖20余国,60+产业生态伙伴共建
- 融资加速:B轮累计2.7亿美元,CEO定义为长期价值共同体,非单款产品驱动
- 产品策略:只做通用芯片不接定制,一次研发多场景适配,支持“一脑多形”
7. 前沿技术突破与评测基准
7.1 赛事与评测
具身智能赛事与评测体系全景
量子位(20260331) | 机器之心(20260401) | 机器人前瞻(20260401) | 具身智能之心(20260403) | 智能涌现(20260403) | AI前线(20260405) | 量子位(20260410) | AI科技评论(20260410) | 机器之心(20260410) | 具身智能之心(20260410) | Z Finance(20260410) | 机器人前瞻(20260410) | 具身智能之心(20260413) | 具身智能之心(20260417) | 机器之心(20260417) | PaperWeekly(20260417) | 机器人前瞻(20260420) | 具身智能之心(20260421) | 具身智能之心(20260424) | 量子位(20260521) | 具身智能之心(20260605)
-
阶梯式任务直击落地痛点:赛事通过套环、插电源、做三明治等递增难度,全面考察精细对齐、语言动作映射与长程规划,直接对应工业分拣与柔性制造场景
-
全栈基建抹平硬件门槛:主办方提供百台机械臂与100+ PFLOPS算力,将实验室部署流程压缩至72小时,使赛事演变为“数据-训练-部署”的系统工程比拼
-
主流赛事真机评测成绩对比:
| 赛事名称 | 核心规则与难度 | 标杆成绩 |
|---|---|---|
| Benjie's Olympics | 全自主零干预、禁仿真 | 星动纪元包揽剥橘子/开锁/翻袜子第一,速度均超美国PI模型25-35% |
| RoboChallenge | 标准化真机考场 | 星动纪元Era0登顶(76.34分,17项SOTA);神秘Atlas获多任务第一 |
| ATEC 2026 | 户外非结构化连续操作 | 奖金超36万美元,核心验证Sim-to-Real全链路能力 |
| ICRA 2026 Dojo | 云端仿真10项双臂协同 | 考察长时序决策与VLA算法融合,降低硬件门槛 |
- 小样本学习拉开代际差距:星动纪元翻袜子任务仅用120个样本(较PI少32%),速度领先30%,验证基座模型数据利用效率的核心壁垒
- 原生架构打破参数堆砌:原力灵机DM0仅2.4B参数即登顶RoboChallenge真机榜首,精度达亚毫米级;采用多源异构数据(30-50Hz轨迹+智驾+互联网)联合预训练
- 跨本体统一意图建模:覆盖8类机器人本体,action层输出操作意图而非关节角;IntentionVLA隐式推理零样本交互成功率达40%,比π0高18个百分点
- 隐式动作表征评测基准:美团开源LARYBench(151种动作/120万视频),证实通用视觉编码器(V-JEPA 2)在物理控制还原能力上显著优于专用具身模型
- 物理空间思维链提升稳定性:将CoT延伸至物理空间形成「感知→空间推理→决策→动作」显式推理链路,有效解决长程连续任务易中断的痛点
- 赛事驱动技术向商业闭环:星动纪元Era0落地顺丰等10余个物流中心(2026 Q2千台级交付);北京天工3.0实现半马完赛(时速21.6km/h)并落地高危作业
7.2 脑机接口与前沿突破
脑机接口与具身智能前沿突破
具身智能之心(20260401) | 具身智能之心(20260401) | 机器之心(20260406) | 人工智能学家(20260401) | DeepTech深科技(20260414) | 有新Newin(20260420) | 人工智能学家(20260424) | DeepTech深科技(20260428) | "财联社AI daily"(20260505) | "Z Potentials"(20260602)
侵入式脑机与神经调控
- 意念语音解码:Neuralink N1芯片植入运动皮层,以音素解码合成语音并AI还原病前音色,仍存数秒延迟
- 抑郁症微创治疗:Motif DOT植入物获FDA临床批准,9mm无电池无线供电,植入硬脑膜上方,单次10-20分钟
- 双向视觉重建:SiClink切入视觉重建,实现解码、精准写入与近实时校准的读写闭环,拓展通用信息接口
- 超柔神经界面:何飞博士主导,融数千万元,技术覆盖高生物相容电极、低安全阈值刺激与高动态视觉解码
非侵入式脑机产业化
- 干电极技术路线:强脑科技免开颅方案绕开安全与伦理壁垒,仿生手获FDA认证量产
- 商业化四级火箭:假肢→医疗康复→C端消费→底层技术平台,目标5-10年帮助百万残疾人
- 清醒梦消费干预:Halo头带经颅超声在REM期诱导清醒梦,梦境质量升至5.5-6.5分,定价约2000美元
遥操作与数据采集
- 主流遥操作方案对比:SO-100(同构映射/数万元)、Ringo夹爪(TCP重定向/低成本)、HumDex(惯性动捕/全身<200美元)
- HumDex突破瓶颈:基于SlimeVR开源生态,遥操作成功率升至91.7%,数据采集效率提升26%
- 学习式手部重定向:轻量级MLP端到端映射指尖坐标至20关节角度,替代传统解算,训练不足20分钟
- 两阶段跨越具身鸿沟:先大规模人类数据预训练ACT提取先验,少量机器数据微调使成功率升至80%
- 数据格式标准化:采集须对齐LeRobot或RT-X格式,以适配π0、GR00T等主流VLA模型
硬件降本与前沿探索
- 消费级双臂机器人:VLAI L1轮式双臂售价2.88万元,单臂8DOF负载6KG,全栈接口开放
- 活体神经机器人:塔夫茨大学培育出植入神经前体细胞、具自组织神经系统的活体机器,钙成像证实网络形成
- AI物理世界飞轮:VLA、世界动作模型、通用机器人、自驱实验室、脑机接口五基元同步成熟,共享感知决策架构
7.3 核心零部件与机器人硬件融资
核心零部件融资:触觉传感器、关节模组与稀土磁材
机器人前瞻(20260408) | 机器人前瞻(20260421) | DeepTech深科技(20260426) | 机器人前瞻(20260330)
核心零部件融资格局
| 细分品类 | 代表企业 | 融资动态 | 量产/出货里程碑 |
|---|---|---|---|
| 触觉传感器 | 灵动佳芯 | A轮近亿元(字节系/中芯聚源) | 2025出货超1000万只,2026破2000万只 |
| 关节模组 | 泉智博 | 3年8轮破6亿元(深投控/北京机器人基金) | 2025出货破10万台,自建产线达百万台产能 |
| 全链路部件 | 灵猴机器人 | 7个月4轮破5亿元(红杉/智元/蔚来) | 2025订单破2亿,交付近2000台 |
| 稀土磁材 | 钕铁硼产业链 | 产业供给约束 | 中国精炼份额占90%,具绝对壁垒 |
触觉传感器:全栈自研与多场景落地
- PVDF柔性压电传感器:灵动佳芯从压电材料到信号处理芯片全栈自研,集成压力/碰撞/超声感知
- 商业化全面铺开:已进入清洁机器人、智能穿戴、车载供应链,团队出身苹果/华为体系
关节模组:高扭矩密度与汽车级标准
- 三大矩阵覆盖全域:泉智博PA行星(2-400Nm)/HA谐波/CA摆线,适配人形/四足/外骨骼
- 量产能力强劲:无锡基地投产单台生产周期90秒,自动化率85%、良率超98%
- 头部客户绑定:供货松延动力(春晚机器人)、乐聚(首条万台级人形产线)
稀土磁材:不可替代的量产瓶颈
- 物理唯一解:单台需3.5-4kg钕铁硼(为新能源车两倍),承受高温不退磁,非稀土电机同等功率大4倍
- 供给绝对壁垒:中国精炼份额90%,非中国端产量响应近零,上游定价权凸显
- 物理约束严峻:减磁10%触发系统增重1.3kg,若年出货亿台需扩产186倍,2028-30转为产能争夺
全链路部件:产业协同与资质壁垒
- 全链路产品闭环:灵猴机器人覆盖“感知-运动-执行”,掌握直线电机关键技术,发布TX-S2四转四驱底盘
- 资本高度认可:资本横跨产业资本(智元/蔚来)、半导体基金及国家队
- 资质壁垒显著:累计交付近2000台整机覆盖800余家客户,获评工信部首批规范企业
7.4 机器人硬件与形态创新
机器人构型创新:模块化自组装与极限群控验证
模块化自组装(西北大学)
- 独立智能模块:长62cm球形关节,集成电池/传感器/电机,18个蜂窝接口,双模块间435种连接位点
- 构型优化:VAE将数千亿种构型压缩至8维潜在空间,贝叶斯优化与深度强化学习联合筛选最优设计
- 损伤适应:统一控制策略覆盖断腿截肢场景,未受损时移动速度达原专家策略的105.3%
- 核心运动指标:滚动0.46m/s、功耗0.38W、转弯55°/s、跳跃37cm(腿长1.54倍)
极限群控验证(魔法原子苏超)
- 协同规模:部署200台四足+90台人形,为全球已知最大规模户外异构群控表演
- 四重极限叠加:4万人通信干扰、雨天湿滑草坪、异构协同、直播零容错
- 关键挑战对比:通信高密度拥塞致丢包放大 / 草坪软硬不均致落地极难稳定 / 双套运动学模型需时间轴对齐 / 直播零重试机会
群控关键技术体系
- 分布式架构:去中心化调度消除单点故障,抗干扰通信支撑近300台异构设备稳定执行
- 全栈自研闭环:最大扭矩525N·m关节模组,防滑足垫配合力反馈实时调节落脚策略
- 大小脑协同:环境感知理解与毫秒级运动控制深度结合,支撑不可控环境快速调参
综合洞察
- 模块化不牺牲性能:PNAS首次证明模块化重构与敏捷运动可兼得,灵活性与速度同频
- 系统鲁棒性决定落地:多不利条件叠加下的稳定表现,直接决定具身智能商业部署能力
- 全栈自研是提速前提:从关节到算法的闭环,使极限场景部署从30天压缩至7天成为可能
仿生肌肉驱动:从流体致动到电流体纤维的技术演进
DeepTech深科技(20260412) | 小互AI(20260423) | DeepTech深科技(20260425) | DeepTech深科技(20260510)
- 流体驱动路线:Clone以McKibben肌肉+液压阀阵列打造24自由度仿生手,单指抓力7kg,耐久65万次,材料成本低于2800美元。
- 电流体闭环突破:MIT将微型EHD泵内嵌McKibben执行器形成封闭液路,22g举4kg,功率密度50W/kg,收缩率达20%,完全静音无外挂。
- 预压攻克电短路:施加75kPa偏置压力抑制气泡,耐受电压由4kV跃升至8kV+,收缩幅度从2%提升至14-20%,拮抗布局契合生物肌理。
- 模块化乐高组装:电驱动与液压可自由并联,4泵并联实现180mm/s极速收缩,0.13秒单次动作,0.3秒弹射乒乓球24cm。
- 材料级运动编程:哈佛RM-3DP结合液晶弹性体(LCE),在100μm纤维内编程弯曲与扭转比例,打印前即可精确模拟预测形变。
- 同形异构免组装:外观相同纤维因LCE分布不同可呈相反形变,将运动控制逻辑下沉至材料微观结构,实现一步成型。
仿生肌肉核心技术路线对比
| 路线 | 核心机制 | 关键性能 | 驱动方式 | 核心优势 | 核心局限 |
|---|---|---|---|---|---|
| Clone流体 | McKibben肌肉+液压阀阵列 | 单指7kg,耐久65万次,24自由度 | 500W电机+水压 | 高仿生度,成本低(<$2800) | 存在机械噪音 |
| MIT电流体 | EHD泵+McKibben封闭液路 | 22g举4kg,50W/kg,收缩20% | 千伏级高压电 | 完全静音,无外挂设备 | 高压电源管理复杂 |
| 哈佛RM-3DP+LCE | 旋转多材料3D打印 | 100μm纤维可编程形变 | 热致形变 | 几何可编程,免组装 | 驱动效率偏低 |
| 首尔LCE+液态金属 | LCE+液态金属通道 | 本体感受能力 | 热电协同 | 驱动感知一体化 | 生物相容性待验证 |
新形态机器人产品化:轮足融合与算力上装
- 轮足融合成行业趋势:技术竞争从可行性验证迈向商业落地,中国企业在量产及成本控制上已领先美国巨头。
- 逐际动力产品领先两代:TRON 1已量产销往全球80余国(起步价7.98万元);TRON 2实现手脚共用与轮足臂重构(起步价<5万元)。
- RAI Roadrunner仍处展示阶段:波士顿动力前团队推出15kg轮式双足机器人,支持三种步态切换,尚未进入量产。
轮足机器人产品成熟度对比
| 产品 | 状态 | 核心形态 | 起步价格 |
|---|---|---|---|
| RAI Roadrunner | 技术展示 | 轮式双足,三步态跨障切换 | 未公开 |
| 逐际动力 TRON 1 | 已量产,销往全球80余国 | 点足、双足、轮足三形态融合 | 7.98万元 |
| 逐际动力 TRON 2 | 已投产交付 | 手脚共用,轮足臂统一可重构 | <5万元 |
端侧算力背包:跨本体通用算力平台
- 轻量化解决算力上装:星源智BotPack B系列背包不足2.5kg,支持本地运行PI 0.5等VLA/VLM模型,消除网络延迟影响。
- 商业化快速落地:作为智源研究院唯一孵化的具身大脑公司,已与智元精灵G2大批量出货,三年订单不低于五亿元。
- 极致工程集成:复用本体电源无需独立电池,空气动力学风道保障满载不降频,无损快拆即插即用。
端侧算力背包配置对比
| 型号 | 算力 | 内存容量 | 定位场景 |
|---|---|---|---|
| BotPack B5 | 2070 TFLOPS | 128GB LPDDR5X | 家用大模型本地部署 |
| BotPack B4 | 1200 TFLOPS | 64GB LPDDR5X | 商用基础推理 |
7.5 灵巧手与末端执行器
灵巧手产品矩阵与前沿结构创新
量子位(20260412) | 机器人前瞻(20260415) | DeepTech深科技(20260417) | AI科技评论(20260418) | 机器之心(20260420) | 机器人前瞻(20260420) | 钛媒体AGI(20260426) | AI早餐汇(20260429) | 智东西(20260604)
核心产品矩阵与前沿仿生结构
| 产品/方案 | 厂商 | 核心参数与特征 |
|---|---|---|
| Flex 2 | 曦诺 | 23自由度,掌重400g,12kg峰值负载,腱绳+直驱混合 |
| Apex Hand | 源升 | 21自由度,指尖负载2.5kg,整体提拉30kg,误差≤0.1mm |
| OmniHand 3 Ultra-T | 临界点 | 22+3自由度,自重<500g,负载5kg,快拆维护10分钟 |
| Linker Hand | 灵心 | 16主动自由度,自重370g,负载30kg,全技术路线覆盖 |
| Revo 3 | 强脑 | 21自由度,全直驱可反驱,3Hz级开合,全掌视触融合 |
- 武大可脱落爬行手:仿生章鱼腕足,脱离手臂变五/六足机器人,实现人类全部33种抓取模式
- 特斯拉V3无销关节:摒弃传统销钉,复合柔性部件实现零间隙,中间增强层拉伸强度需>895MPa
驱动架构的工程权衡
- 21自由度为甜点位:从20跃升至21使精细操作稳定复现,超此数边际收益递减且控制复杂度恶化
- 驱动后置成为主流:特斯拉(25驱动全入前臂)与曦诺(后置小臂)均实现末端极致轻量化,逼近真人尺寸
- 混合驱动破除不可能三角:曦诺Flex 2结合后置腱绳(大出力缓冲)与指尖微型直驱(高精度),兼顾柔性与快响应
- 绳驱工程化突破:临界点首创内置张紧机构防松弛,自研微型电缸(300N额定力),腱绳快拆压缩至10分钟
多模态触觉感知路线
- 帕西尼(霍尔效应):自研封装解决磁场干扰,单颗199元击穿行业底价,5大工厂年产100亿条数据
- 源升(类脑触觉):万级触觉点,1000Hz刷新频率,通讯延迟<1ms,实现类人力控
- 临界点/强脑(视触融合):临界点全手三维触觉+掌内相机,强脑全掌阵列+亚毫米级指尖视觉
成本革命与量产进展
- 价格断崖式下降:灵心将方案从百万级降至千元,推出399元行星关节模组,月产突破4000台
- 临界点市占率第一:累计交付超8000台灵巧手与万台夹爪,约千台在数据采集厂常态化运行
- 巨头集邮式押注:曦诺半年三轮近10亿融资,宁德/京东/小米/理想齐入局,构建通用物理接口
7.6 评测基准与评估范式
仿生软体机器人主动形变防护骨骼系统(Science Advances 封面)
- 主动形变防护模块(MIPM):北卡州立大学朱勇团队受犰狳启发研发,单一结构实现柔性与刚性防护按需切换,发表于 Science Advances 封面
- 三层功能协同架构:外骨骼提供覆盖防护,内骨骼互锁形成刚性骨架,感知驱动层实现威胁感知到驱动变形的闭环响应
三层结构与材料功能
| 层级 | 材料 | 核心功能/性能 |
|---|---|---|
| 外骨骼 | 3D打印光固化树脂弧形鳞片 | 蜷曲时沿曲面连续贴合,提供全覆盖防护 |
| 内骨骼 | 折纸+刚性聚合物节段鳞片 | 节段互锁咬合,10节段可承受约10N集中载荷 |
| 感知驱动层 | 四层复合材料叠合 | 感知威胁→驱动变形→闭环响应 |
感知驱动层四层复合机制
| 层次 | 材料 | 致动机制 |
|---|---|---|
| 人工肌肉层 | 液晶弹性体(LCE) | 加热收缩>20%,驱动整体弯曲 |
| 传感层 | 银纳米线(AgNW)网络 | 形变致电阻变化触发信号,阈值可调 |
| 差异应变层 | 聚酰亚胺(Kapton)薄膜 | 与LCE收缩形成膨胀-收缩双层致动 |
| 加热层 | 导电织物 | 焦耳热激活,分布式可编程加热 |
- 零能耗刚性维持:硬化后依靠磁吸附与内骨骼互锁,100次热驱动循环后性能稳定
- 折纸式连接界面:将大形变分解为局部微小转动,解决刚柔界面脱粘难题
- 评估范式突破:将防护从静态权衡推进到动态可切换,支持滚动、抓取多模态变形与蓝牙无缆操控
具身智能评测基准演进:从仿真到语用与过程级评估
具身智能之心(20260408) | 具身智能之心(20260410) | 前沿在线(20260411) | 机器之心(20260414) | 量子位(20260428) | 极市平台(20260429) | 具身智能之心(20260507) | 机器之心(20260513) | 量子位(20260522) | 极市平台(20260522) | CVer(20260523) | 机器之心(20260605)
仿真评测平台与高保真资产
| 基准 | 核心创新 | 关键发现 |
|---|---|---|
| Genie Sim 3.0 | 图文直接生成3D环境,支持Sim2Real闭环评测 | 虚实评测差异<10%,分钟级构建训练场景 |
| GE-Sim 2.0 | 世界动作模型(WAM)与仿真器双向统一 | 支持RL in WM闭环,EWMBench三维评估 |
| RealAppliance | 真实说明书与100个高保真家电资产对齐 | 涵盖10种交互机制,主流模型端到端成功率几乎为0 |
| EBench | 五维能力诊断+四类泛化测试(26种任务/794条数据) | 验证集-测试集严格隔离,防评测退化为调参目标 |
感知-行动鸿沟与语用能力诊断
- ESI-Bench闭合感知-行动回路:李飞飞团队首发空间智能基准(3081个实例),揭示模型“能看不能动”的元认知缺陷
- 感知与行动极度失衡:Gemini 3.1在Oracle视角下达95.1%,主动探索仅14.6%,人类主动探索达88.3%
- 3D重建负向失败:不完美3D重建因几何伪影比纯2D表现更差,VGGT重建得分从27.5%暴跌至9.9%
- REI-Bench直击语用软肋:南洋理工发布9级模糊指令基准,主流框架成功率最高暴跌36.9%,主因为目标混淆
过程级评估与表征质量评测
- PRM-as-a-Judge:终结二元判定,提出OPD三层指标从轨迹视频连续评估,在Small-hop区间准确率达0.80
- MetaFine三维诊断:精细操作元评测框架,发现传统二元成功率最高可高估模型操作能力达70%
- LARYBench表征评测:系统评测隐动作表征质量,发现V-JEPA 2、DINOv3等通用语义编码器优于专用具身模型
关键洞察
- 视觉感知是当前最大瓶颈:MetaFine揭示仅提升视觉编码器空间保真度即可解锁此前无法完成的精细操作
- 元认知缺陷普遍存在:模型往往过早停止探索且高置信犯错,不知道自己“看没看够”
- 泛化需训测隔离:EBench通过验证集-测试集分离机制,防止评测退化为纯粹的调参目标
禾赛科技:从空间感知到空间智能的三层基础设施布局
- 战略定位:从“空间感知”迈向“空间智能”,发布6D全彩雷达芯片“毕加索”、ETX平台、Kosmo硬件与动力模组,构建具身智能全栈基础设施
- 商业基本盘:全球首家全年盈利的激光雷达公司,年出货量达160万颗,车载主雷达市场份额连续13个月第一
- 市场预期:预计2025年机器人行业累计交付超100万台,覆盖割草、物流、无人机、人形机器人等场景
核心技术架构与产品矩阵
- 毕加索芯片:全球首创将RGB与TOF测距集成于同芯片,实现XYZ+RGB六维信息的原生融合
- 架构优势:在芯片源头统一结构与语义信息,彻底消除传统后融合方案中的时间不同步与空间不对齐问题
- ETX高线数平台:搭载毕加索芯片,最高支持4320线、600米测距,预计2025年下半年正式量产交付
- Kosmo硬件:整合雷达感知、摄像头纹理与空间重建算法,解决真实世界3D训练数据规模化采集稀缺痛点
- 动力模组:从感知向执行端延伸,补齐全栈具身智能拼图,明确不做整机与通用大模型
技术路线对比
| 维度 | 传统激光雷达 | 后融合方案 | 毕加索6D全彩 |
|---|---|---|---|
| 输出信息 | XYZ空间坐标 | 点云+图像拼接 | XYZ+RGB原生融合 |
| 时空对齐 | 仅空间 | 存在偏差 | 芯片级同步 |
| 语义理解 | 无 | 间接获取 | 每点自带颜色属性 |
AI-人体融合接口:EMS肌肉刺激与AI控制人手原型
- 系统概况:MIT黑客松48小时原型“Human Operator”,实现AI语音控制人手,延迟<5秒
- 技术本质:组合创新,核心难点在LLM输出到精确肌肉刺激序列的信号接口设计
- 模型无关性:选用Claude仅因赞助,系统只需环境识别与肌肉mapping,不依赖强推理
五步系统链路
| 环节 | 组件 | 功能 |
|---|---|---|
| 语音输入 | 唤醒词 | 接收自然语言指令 |
| 视觉感知 | 摄像头眼镜 | 捕捉第一人称视角 |
| AI决策 | Claude VLM | 分析场景、生成指令 |
| 信号转换 | Arduino | 将指令转化为电信号 |
| 肌肉驱动 | EMS电极片 | 刺激手腕/手指收缩 |
- 动作范围有限:仅覆盖手腕和手指微调控,整条手臂及其他身体部位不在控制范围
- 天然安全边界:EMS绕过大脑直接刺激神经,人体做反向动作时产生疼痛,无法在强烈抗拒时完成操控
- 产品化障碍:电极片需精准贴合且每人重新调校,需干式电极材料突破才可能消费品化
- 学术验证:芝加哥大学Lopes实验室同期在CHI 2026发表Generative Muscle Stimulation,获最佳论文奖
- 传播失真:手指原型被误读为“AI夺舍人体”并衍生加密货币,反映公众对AI走向身体的深层不安
7.7 垂直场景机器人产品矩阵与渠道商业化
垂直场景机器人:从运动训练突破到清洁渠道商业化
雷峰网(20260414) | 机器人前瞻(20260414) | 量子位(20260423) | DeepTech深科技(20260423)
运动训练机器人技术突破与产品矩阵
- 索尼Ace达职业级水平:Nature封面成果,延迟20.2ms快于人类10倍,零样本仿真迁移,实战击败WTT前25名等职业名将
| 指标 | 对阵精英选手 | 对阵职业选手 |
|---|---|---|
| 比赛结果 | 5场3胜 | 2025.12起多次获胜 |
| 发球方式 | 15种 | 13种 |
| 发球直接得分 | 16分 | 4个Ace球 |
| 快球/旋转回球率 | ≤14m/s / >70% | ≤14m/s / >70% |
- 庞伯特完成近2亿元A轮融资:蓝驰创投与字节系锦秋基金入场,投后加速多品类运动机器人产品矩阵布局
| 产品线 | 核心能力与参数 | 落地场景 |
|---|---|---|
| 乒乓球(M-ONE/OMNI/HALO/NOVA) | 覆盖专业训练到大众健身全场景 | 专业队/校园/社区/商业体 |
| 网球PACE PRO | 实时追踪球员位置智能调整发球 | 网球俱乐部/高阶训练 |
| 网球PACE | 发球130km/h,旋转60转/秒,8.1米高压球 | 还原职业赛事训练环境 |
| 智能鹰眼SEEKER | 毫秒级轨迹识别自动生成报告 | 训练复盘与数据分析 |
清洁机器人渠道深水区竞争
- 三大细分赛道分化显著:技术决定上桌资格,线下货架与代理网络决定生死
| 赛道 | 市场阶段与渗透率 | 渠道特征 | 竞争焦点 |
|---|---|---|---|
| 扫地机 | 存量绞杀期 | 黄金陈列位固化,末位淘汰 | 代理体系争夺 |
| 割草机 | 开荒期(欧洲20%/北美2%) | 线上:线下约2:8 | 突破传统老品牌服务网络 |
| 泳池机器人 | 资本换渠道 | 资金密集型分销体系 | 资本实力与渠道整合 |
- 代理体系加速洗牌:科沃斯市占率从48%降至20%,石头升至22%,追觅国代模式压缩省代利润致核心代理流失
- 线下壁垒高筑:进店谈判周期超半年,中国割草机品牌无一突破10万台真实sellout
- 退货率吞噬隐形利润:电商退货率超20%推高成本,通过线下现场演示可降至1%
7.8 垂直场景具身智能应用
垂直场景具身智能商业化落地与规模化部署
量子位(20260420) | 钛媒体AGI(20260421) | 具身智能之心(20260423) | 机器人前瞻(20260424) | AI科技评论(20260427) | 前沿在线(20260429) | DeepTech深科技(20260521)
- 电力巡检为首条百亿级商用赛道:国网2026年投资68亿采购8500台设备,南网及地方跟进有望突破100亿;单台年均省人工50-80万,回收期2-3年
国网68亿采购结构与核心厂商
| 品类 | 数量 | 预算 | 均价 | 核心厂商 |
|---|---|---|---|---|
| 四足巡检狗 | 5000台 | 15亿 | ~30万 | 云深处(市占率第一)、宇树 |
| 人形带电作业 | 500台 | 25亿 | ~500万 | 深谋(伏安)、智元、优必选 |
| 双臂巡检 | 3000台 | 18亿 | ~60万 | 傅利叶等 |
- 工业重型装备智能化:塔吊场景操作员从12人降至1人,效率反升10%;安全壳机制实时监控控制指令毛刺,1:15高保真仿真解决数据稀缺
轮式构型工业商业化先锋
| 厂商 | 机型与场景 | 关键数据 |
|---|---|---|
| 智元 | 精灵G2(3C)/远征A2-W(汽车) | 节拍18秒,效率>20%,成功率99.9% |
| 千寻 | 小墨(宁德基地) | 全球首条规模化PACK产线 |
| 优艾智合 | 巡霄(半导体/电力) | 80台集群对接<2mm,日均1.6万次 |
全球巡检机器人技术谱系
| 厂商 | 机型与形态 | 核心能力 |
|---|---|---|
| Boston Dynamics | Spot(四足) | 自主巡逻、热成像及仪表读取,主攻油气电站 |
| ANYbotics | ANYmal X(四足防爆) | ATEX防爆认证、声学气体泄漏检测 |
| Voliro | 倾转旋翼(空中) | 空中接触式无损检测,超声波与涡流检测 |
| Eelume | 蛇形(水下) | 长期驻留海底坞站自主巡检,颠覆传统ROV |
- 全球巡检市场2030破百亿$:从移动摄像头进化为多模态感知平台,核心驱动力为基建老化与安全法规趋严
- L4自动驾驶切入工业闭环:驭势科技以机场为桥头堡出海(市占率超90%),为6国249客户部署,累计无人驾驶900万公里
7.9 家庭机器人与情感陪伴产品
情感陪伴与具身交互机器人的技术路线及商业化
机器人前瞻(20260401) | 十字路口Crossing(20260416) | 雷峰网(20260420) | 智能涌现(20260427) | 机器人前瞻(20260427) | DeepTech深科技(20260427) | 数据猿(20260429)
| 破壳机器人 | 10类通用家庭任务 | 32B世界模型+UAG架构(效率提升5倍) | 首月完成数千万美元天使轮 |
| 未来不远 | 带娃+轻家务 | 轮式+二指夹爪,自研关节成本千元级 | 已进入约300个家庭测试 |
| 首形科技 | 仿生情感交互 | CharacterMind多模态情绪引擎 | 成立至2025年完成6轮数亿元融资 |
| Somnia Lab | 亲密情感陪伴 | 20kg轻量化全人形,生成式交互 | 近千万美元天使轮 |
| 傅利叶 | 康复医疗 | 智能康复港+非侵入式脑机接口 | 覆盖全球40+国2000家机构 |
通用任务路线:破壳机器人
- 架构创新:放弃主流VLA,采用UAG并联架构的32B参数端到端世界模型,训练效率提升5倍以上
- 产品边界:聚焦10类通用任务(收纳、清洁等),明确排除喂饭、抱婴儿等高危场景
- 隐私与安全:柔顺控制、能力边界主动判断,辅以五维度隐私保护(工作亮灯、物理遮挡等)
带娃轻家务路线:未来不远
- 定价逻辑:月租三四千对标高端带娃服务(三四万/月难找),非对标普通家政阿姨
- 商业指标:以续费率50%与转介绍率30%为生死线,现已实现在家庭连续运行一至两个月
- 硬件取舍:选轮式保室内稳定性,选二指夹爪因五指方案尚无稳定案例;全栈自研压低BOM
情感陪伴路线:首形科技与Somnia Lab
- 商业逻辑:消费级爆发力来自情感连接而非功能效率,关系建立后迁移成本远高于工具型产品
- 阶段路径:卧室情绪锚点(晨间唤醒/睡前舒缓)→全屋情感管家(跨空间情绪记忆)→家庭AGI中枢
- 技术突破:首形科技在Science Robotics发表嘴唇运动学习研究,使面部可覆盖多种未训练语言
康复医疗路线:傅利叶
- 供需缺口:国内60岁以上人口3.23亿,每10万人仅3.57名康复治疗师,康复机器人年复合增长率超30%
- 落地规模:智能康复港覆盖全球40+国2000家机构,GR-2人形机器人交付超百台
- 技术规划:2026年引入非侵入式脑机接口,识别用户主动意图并动态调整辅助策略
8. 具身操作控制与跨体迁移
8.1 机器人操作控制与导航
精细操作范式与触觉力觉感知
量子位(20260402) | 机器之心(20260409) | DeepTech深科技(20260430) | DeepTech深科技(20260522) | 量子位(20260527) | 机器之心(20260527)
- CaP-X架构:英伟达开源框架,大模型直出Python代码控机,VLA降为底层API,成功代码存入技能库做跨本体复用与强化学习
- RAAP解耦:东大团队方案(ICRA 2026接收),将可供性解耦为静态接触点与动态方向,方向预测精度提升超50%,每任务仅18样本实现跨类别零样本操作
- RAM框架:Science Robotics发表,VLM外接三维物体知识库,基于点云迁移空间先验,输出细粒度动作约束,14项机械臂实验总体成功率89.17%
- 触觉价值:精细操作90%以上失败发生在物理接触阶段,触觉反馈是突破精细操作瓶颈的核心感知通道
感知路线对比
| 方案 | 核心机制 | 适用场景与优势 |
|---|---|---|
| 传统传感器 | 低维固化点信号 | 结构简单,但难升级且感知单一 |
| 视触觉 | 光学相机全域表征 | 算法可迭代,宜精细操作 |
| 微型光纤 | 柔性PDMS单通道无源 | 毫米级微创器械 |
- 视触觉闭环:新智具身完成近亿元天使轮,VTLA架构结合触觉世界模型与RL使成功率提升超90%,采用单色光降本,建超千平数据采集中心
- 微型光纤:上交团队发表于Optica,创世界最小六轴力传感器(外径1.7mm),柔性PDMS光场编码结合扩散模型解码,临床触诊性能稳定且具量产空间
- 性能基座:CaP-Agent0在7项任务中4项追平人类并实现零样本迁移;RAAP开/关抽屉成功率超RAM达15-25%
关节物体位姿感知:Joint-Centric 建模与 SE(3) 流形学习
- 统一框架:CAPER++ 首次从「关节驱动」视角统一关节物体静态位姿估计与动态追踪,已被 T-PAMI 接收
- 建模范式突破:划分 Root Part(空间参考)与 Constrained Part(运动学先验约束),学习部件运动规律
- SE(3) 流形学习:在 Lie Algebra 切空间学习位姿增量,规避欧拉角万向节锁与四元数归一化问题
- 增量追踪策略:动态关键帧选择结合相邻帧局部增量学习,将长时序追踪拆解为短窗口优化
- 实时推理与开源:~50 FPS 无需后处理,代码已开源(github.com/zanly20/CAPERPlusPlus),支持旋转与滑动关节
| 维度 | CAPER++ | 传统方法 |
|---|---|---|
| 建模思想 | 关节驱动(运动学先验) | 部件独立预测 |
| 位姿表示 | SE(3) 流形切空间增量 | 欧式空间直接回归 |
| 遮挡处理 | 运动学约束恢复残缺部件 | 结构不一致、违反物理 |
| 动态追踪 | 关键帧局部增量优化 | 误差累积,逐渐漂移 |
| 推理速度 | ~50 FPS,无后处理 | 需后处理优化 |
| 综合性能 | 多数据集 SOTA | 基线水平 |
8.2 跨具身迁移与操作表征
跨具身表征通用化与灵巧操作前沿
具身智能之心(20260330) | 机器之心(20260405) | 机器之心(20260411) | 具身智能之心(20260424)
- 视觉锚定跨躯体迁移(UniT):小鹏联合清华港大提出,将人类与机器人动作映射到共享离散隐空间,无需运动学重定向
- 数据效率突破:UniT 仅需 10% 数据即达全量训练水平,零样本堆叠任务成功率从 10% 跃升至 60%,支撑策略学习与世界建模双向迁移
- 图结构灵巧抓取(T(R,O) Grasp):NUS 邵林团队以物体-机器手空间关系图结构替代距离矩阵,实现跨智能体统一表征
- 抓取性能刷新 SOTA:T(R,O) Grasp 多种灵巧手平均成功率 94.83%,A100 推理达 5 FPS,吞吐量 50 grasp/s,已被 ICRA 2026 接收
- 跨平台 VLA 迁移(AirVLA):斯坦福联合 PI 首次将桌面机械臂预训练 VLA 迁移至无人机,460 次飞行验证其可行性
- 合成数据与物理引导:3D 高斯合成数据让导航过闸成功率从 45% 升至 95%,载荷物理引导无需重训即可补偿抓取扰动
- 模仿学习主流范式:Diffusion Policy 以迭代去噪建模多峰分布,在插拔、旋拧等任务中全面超越传统行为克隆
技术路线对比
| 技术路线 | 表征方式 | 泛化性 | 推理效率 | 计算开销 |
|---|---|---|---|---|
| UniT | 视觉锚定离散隐空间 | 高 | 高 | 低 |
| T(R,O) Grasp | 图结构 | 高 | 高 | 低 |
| D(R,O) Grasp | 距离矩阵 | 高 | 中 | 高 |
| 物体中心 | 接触点/热力图 | 高 | 低 | 中 |
| 机器人中心 | 观测→动作映射 | 低 | 高 | 低 |
数据与硬件生态
- 数据演进四阶段:遥操作多模态同步(BridgeData V2/RH20T)→ 几何建模(ARCTIC)→ 合成增强(MimicGen)→ 弱监督视频(VideoDex)
- 硬件开源化:LEAP Hand 降低研究门槛,高自由度人形平台仍面临分布偏移与系统误差双重挑战
8.3 具身导航系统与视觉语言导航
具身导航系统与视觉语言导航技术演进
机器之心(20260403) | Datawhale(20260401) | 具身智能之心(20260415) | CVer(20260430) | CVer(20260506) | 极市平台(20260507) | 具身智能之心(20260514) | 具身智能之心(20260514)
学术前沿:VLN自优化与细粒度对齐
- EvolveNav首创自优化VLN:两阶段训练实现从被动执行到主动推理,形式化CoT标签使推理速度提升3倍,登顶R2R/CVDN/REVERIE/SOON四大基准SOTA
- 自增强+自反思双机制:动作正确时用模型自身推理替换原标签,错误时保留原标签,根治固定标签过拟合
- Landmark-RxR数据集:最大规模人工标注VLN数据集,含166,740条子指令,准确率达96%(远超启发式规则的71%-75%)
- 细粒度四维训练:RW-DA数据增强、课程学习、焦点导向奖励、双向对齐损失Bi-AL,SPL提升7.26%-9.79%
评测革新:统一基准暴露真实短板
| 评测维度 | OmniNavBench统一基准 | 传统孤立基准 |
|---|---|---|
| 任务覆盖 | 6种导航任务组合 | 单任务独立评测 |
| 构型支持 | 轮式/四足/人形 | 通常仅轮式 |
| 轨迹来源 | 1,779条人类遥操作 | 最短路径算法生成 |
- 模型真实表现远低预期:SOTA统一导航模型最高成功率仅8.74%,大多数配置低于2%
- 核心瓶颈定位:不在于单项技能(子目标完成率44.54%),而在于技能间衔接切换与终止决策(整体成功率仅1.96%)
工程落地:全栈导航与开源框架
- Marathongo开源系统:全球首个面向人形机器人马拉松全栈导航系统,GNSS+IMU+LiDAR多源融合,边缘算力即可运行
- 实战零失误验证:2026北京半马21公里、10余种复杂地形全程零失误,朗毅在头部厂商中市占率约80%
- every-embodied开源框架:YOLO感知+VLM决策+Habitat规划闭环,半天跑通,VLM决策失败时自动降级为规则决策
- 降级机制是工程保障:异常时从端到端学习回退到规则系统,是当前具身导航系统可靠性的关键设计
- 行业趋势:具身导航正从任务专用模型转向基础模型驱动,数据瓶颈是核心约束,亟待建立导航领域的Scaling Law
8.4 动态SLAM:从静态建图到四维环境理解
上交大王贺升团队:SLAM从静态建图走向动态世界理解的完整技术路线
- 技术路线:感知(多模态融合)→建图(动态Gaussian)→定位(跨模态2D-3D)→规划(NeRF记忆+VLM推理)的完整动态SLAM架构
动态场景感知:2D→3D→4D递进
| 层级 | 技术方案 | 关键特点 |
|---|---|---|
| 二维光流 | Memory Bank+DRU网络 | 零样本泛化至nuScenes/Waymo |
| 三维场景流 | 两阶段框架+扩散模型精炼 | 几何/流/代价体作为条件信号 |
| 四维重建 | 4D Hybrid Representation+Neural Rendering | 动态场景完整重建 |
多模态融合与动态建图
- 里程计:LiDAR投影BEV/图像平面,Local-to-Global网络+RANSAC迭代精炼位姿
- 环境解耦:背景用传统高斯;前景非刚体用可变形高斯+FMPTL人体动力学约束;前景刚体用检测+光流
- 紧凑优化:体素化+滑动窗口去冗余+ICP/残差压缩,速度提升约一倍接近实时
可变形环境与语义建图
- 形变建模:定义刚体/半刚体/完全可变形体元,引入时变形变场(如手术机器人场景)
- 语义SLAM:融合几何/外观/语义三类特征,Coarse-to-Fine层次化框架构建场景表示
定位与规划
- 跨模态定位:高精度建图+廉价摄像头,鲁棒匹配去噪+位姿回归,每帧推理仅14ms
- 经验复用:NeRF存储关键帧并检索历史经验,VLM理解图像构建语义关系图谱推理
核心洞察与落地
- 工业验证:已在矿卡(稳定运行超一年)、仓储机器人、自动泊车、割草机等场景落地
- 综合洞察:SLAM正从静态建图工具演进为动态世界理解基础设施,四维表示是关键抽象
9. 跨界载具与前沿微纳硬件
9.1 自供电传感与新型交互接口
湿气发电非接触式手势交互界面(Science Advances)
- 核心突破:上交大沈道智团队在 Science Advances 发表基于湿气发电的非接触式手势交互界面,隔空 2-8cm 内即可精准识别
- 器件结构:约 80μm 厚水凝胶薄膜(PGA+CNF+盐+有机酸),微孔自发吸水,羧基解离释放 H⁺ 形成离子梯度发电
- 传感机制:手指移动引发局部湍流,改变表面湿度与气压,不同手势产生特征波形(如“0”双峰双谷,“1”单峰单谷)
- 关键性能:
| 指标 | 数值 |
|---|---|
| 有效感应距离 | 2-8 cm |
| 环境湿度适应 | 30%-70% |
| SVM 识别率 | 99% |
| 1D-CNN 识别率 | 91.5% |
| 训练样本数/类 | ~20个 |
- 验证场景:①加密传输(隔空手写 RSA 密钥);②VR 避障控制;③智能小车含转弯赛道远程控制
- 范式创新:器件兼具能量采集与信号传感双重功能,将“气流扰动”从噪声转化为可编码信号源
- 产业瓶颈:早期信号稳定仅数秒,现已提升至数月,但距数年级商用仍有差距;功率输出偏低无法驱动高功耗设备
9.2 磁控微机器人与体内介入
磁控微机器人核心技术与应用突破
- 柔性磁定位与闭环控制:柔性霍尔传感器贴片替代大型设备,贴合ERCP内镜实现便携三维磁定位;超声波反馈闭环学习控制取代传统PID,实现精确路径跟踪
- 血液水凝胶微机器人:患者自身血液构建水凝胶,杨氏模量近脑组织且免疫兼容;高速旋转磁场破坏外壳释放药物,18只比格犬实验显示肿瘤增长率明显降低
- 磁流体左心耳封堵:柔软凝胶完美贴合任意左心耳形态,11头猪实验验证无渗漏无血栓,首头存活超两年
| 维度 | 商用Watchman封堵器 | 磁流体封堵方案 |
|---|---|---|
| 形态适配 | 圆柱形,无法适配所有形态 | 流体完美贴合任意形态 |
| 组织损伤 | 与肌肉直接接触可能损伤 | 柔软凝胶,无组织损伤 |
| 封堵效果 | 可能渗漏致血栓 | 完美封堵,无渗漏无血栓 |
| 动物验证 | — | 11头猪,首头存活超两年 |
- 磁电神经祖细胞设计:CFO-BTO核壳结构纳米颗粒包裹细胞,磁致伸缩-压电级联产电,开放钙离子通道定向分化
- 微流控高效制备:芯片实验室双向连续流动装置30分钟完成组装,细胞存活率>85%,尺寸约6微米可并行扩展
- 脊髓损伤疗效:斑马鱼横断3天恢复近正常游泳;小鼠T10截瘫28天BMS从0.7升至3.9(健康8.8),神经传导重贯通
- 长期生物安全:28天主要脏器无损伤,肝肾功能正常无免疫排斥
- 核心瓶颈:微机器人无法集成执行器和传感器,必须依赖磁场远程控制,需将磁性部件集成至导管
- 转化挑战:小鼠仅为部分功能恢复非完全康复,钛酸钡纳米颗粒体内长期归宿未明系人体试验关键门槛
9.3 自动驾驶赛车:极限感知-规划-控制与逆向工程人类驾驶智能
APEX系统与经典管线在300km/h赛道的验证
- 自动驾驶赛车验证极限机器人学:慕尼黑工大在真实赛道验证300km/h级感知-规划-控制全链路,两次获自动驾驶赛车联赛冠军
人机对决实测(亚斯码头赛道)
| 对手 | 身份 | 结果 |
|---|---|---|
| 奔驰测试车手 | 职业测试车手 | AI快2.6秒 |
| 本·施奈德 | 前DTM赛车手 | AI快1秒 |
| 乔治·拉塞尔 | F1现役车手 | 人类快约1.5秒/圈 |
- 复合弯道反应速度是当前瓶颈:AI在部分段落超越职业车手,但在复杂连续弯道仍有局限
感知与定位层教训
- 多传感器融合(GPS+LiDAR+毫米波)是高速基石:阿布扎比遭GPS拒止(受战事影响),单一传感器完全失效
- 3D状态估计不可或缺:漂移、侧偏角等极限动力学必须通过3D状态估计捕捉
- 传感器标定离线完成:赛前标定即可满足赛道需求,不做在线标定
规划与控制层架构
- 全局-局部双层规划:全局含非线性轮胎/弹簧/减震器/空动全模型;局部层采Frenet坐标系计算100米
- 博弈论实现真实多车交互:250km/h并排超车成功率约90%(9/10次),系统自主决策时机与路径
- 安全余量与基线权衡:跟踪最优赛道时间基线,保留转向过度/不足的安全余量
APEX系统:逆向工程人类驾驶智能
- 三年逆向工程人类车手行为:核心发现人类凭视触听觉感知极限后,动态调整轨迹逼近极限
- APEX为独立新软件层:融合启发式与机器学习,技术路线为复制人类以超越人类
核心洞察
- 经典模块化管线在极限场景优于端到端学习:300km/h下每个错误都导致撞车,可解释架构具结构性优势
- 人类智能核心是动态逼近极限而非最优轨迹:赛车手本质是闭环自适应系统而非开环轨迹跟踪器
9.4 EMG神经腕带与多模态数据采集基础设施
具身智能数据采集范式升级:EMG腕带补全操控信号链
- 数据瓶颈转移:具身智能核心壁垒从模型和本体转向数据源头,人类PB级交互经验几乎未被结构化记录
- 五层操控信号:意图→姿态→发力→微控→结果,传统采集严重丢弃意图和微调等深层信号
- EMG补齐意图链路:神经腕带+全景头环方案,补全完整操控智能拼图,成本降幅超90%
- 数采平权加速:中小团队以数万元设备可建数据飞轮,一线日常操作直接转化为标准训练数据
| 采集维度 | 传统实验室遥操 | 第一视角自然采集 |
|---|---|---|
| 成本 | 动辄上千万 | 设备数万元,降百倍 |
| 场景 | 固化、脱离真实 | 真实场景即采即用 |
| 本体耦合 | 绑定特定型号 | 解耦硬件,跨构型适配 |
HumanEgo零样本验证
- 突破效率瓶颈:30分钟人类视频(约60条轨迹)实现双臂协作,零样本成功率达92.5%
- 数据效率优势:8分钟人类视频超越30分钟遥操作数据(57.5% vs 52.5%),效率提升3.75倍
- 极强泛化能力:零样本部署到9个分布外条件(不同机器人/相机/光照/物体),成功率维持85-95%
关键技术与算法解析
- 交互中心表征(ICT):29维编码操作几何,人手重定向为虚拟双指夹爪实现形态无关
- 视觉去形态化:SAM2与LaMa抠除人手渲染虚拟夹爪,绕开域适应完成3D估计
- 消融实验关键:纯视觉天花板仅32.5%,引入ICT后跃升至85%,验证几何表征的决定性作用
10. 自动驾驶前沿技术与硬件底座
10.1 智驾感知硬件:SPAD芯片与RGBD空间相机
RGBD单芯片融合:物理AI视觉感知的终局路线
- RGBD单芯片融合是物理AI视觉感知的终局方案:原生融合色彩与深度,替代“摄像头+激光雷达”分立方案,省去后端融合算力。
- 纯视觉路线存在物理天花板:二维推测三维信息丢失,30m/s高速下算法延迟易致事故,无纹理白墙、逆光等极端场景易失效。
- 法规要求感知冗余:国标与工信部L3细则严禁依赖单一传感器源,物理AI容错极严,一次失误直接关乎生命安全。
传统3D相机的物理缺陷对比
| 方案 | 核心缺陷 | 测距范围 |
|---|---|---|
| 双目结构光 | 受环境光限制,间接测量 | ~1米 |
| ToF | 分辨率低,无法像素级对齐 | ~1米 |
| 传统激光雷达 | 线数低(16-32线),精度不足 | 远距低精 |
- SPAD-SoC架构具备代差优势:传统SiPM做到128线已是旗舰,SPAD轻松达数百至上千线,全栈自研输出数字数据降低算力消耗。
- 智驾与机器人感知需求分化:车载偏长距低成本(百米误差5-10cm),机器人偏近距高精度小体积(毫米级),共享底层SPAD架构。
- “万向光控”突破成本瓶颈:全固态光扫描技术将激光利用率从传统5%提升至80%以上,用10美元光源实现过去1000美元效果。
- 核心企业量产进度领先:阜时科技芯片搭载极氪9X量产,大面阵SPAD-SoC月出货量全球第一;速腾聚创全栈自研SPAD-SoC达数百至上千线。
- RGBD演进路线图明确:2027年量产SPAD-RGBD单芯片(体积缩50%、功耗降40%);2028年实现800万像素等效2160线激光雷达。
- 高质量三维数据采集成刚需:纯视觉数据质量难满足终端需求,多家数采公司已从纯视觉转向高精度三维方案。
10.2 智驾技术范式演进与跨载具泛化
智驾跨载具泛化与重卡商业落地
| 维度 | 第一代:规则 | 第二代:端到端 | 第三代:原生多模态 |
|---|---|---|---|
| 核心逻辑 | 人工定义场景 | 数据驱动 | 多模态统一预训练 |
| 泛化能力 | 极弱需穷举 | 约70分需补丁 | 目标开箱即满分 |
- 多模态提速感知:原生方案取消"看"与"开"翻译层,系统响应从百毫秒降至十毫秒级
- 跨载具统一架构:卓驭以同一框架建模乘用车、重卡、物流车等全品类,突破开箱即用
- 乘用车智驾量产:卓驭已实现50+款车型量产,商用重卡2025年6月起量产,客车9月交付
重卡智驾物理约束与云原生体系
| 约束维度 | 关键参数 | 系统要求 |
|---|---|---|
| 极限物理 | 车宽3.2m/车道3.75m;总重近50吨 | 400m+感知,7cm级横向控制 |
| 挂车变量 | 柔性结构且无传感器 | 仅靠车头传感器推断姿态 |
| 运营环境 | 大雾/加塞,制动距离长 | 容错率极低,惯性放大失误 |
- 里程指数级增长:嬴彻重卡智驾商用运营超7亿公里,覆盖97%高速网,智驾里程占比超90%
- 核心竞争壁垒:海量里程非绝对护城河,极限约束下转化长尾场景的云原生系统才是核心
- 极限潮汐并发:依托阿里云实现万级容器并发,解决仿真任务发布前百倍潮汐负载难题
零一汽车"造车+智驾"的商业落地路径
| 指标 | 2024年 | 2025年 |
|---|---|---|
| 营收(亿元) | 1.24 | 5.22 |
| 交付量(辆) | 272 | 1176 |
| 毛损率 | -34.7% | -2.5% |
| 净亏损(亿元) | 2.41 | 2.81 |
- 整车驱动收入:整车销售占97.2%,小满与惊蛱两车型贡献超97%;无人重卡方案首贡献810万收入
- 毛损率快速收窄:规模效应提升议价力;正向自研降能耗15%-20%并减重1吨;无人方案录4.3%正毛利
- 核心商业洞察:拒绝图森纯软件模式,坚持"造车+智驾"并进,整车销售是自动驾驶商业化的入场券
CVPR 2026自动驾驶仿真与协作智能前沿
- 检索增强驾驶范式:复旦&上交大提出 Spatial Retrieval,融合实时感知与历史 Geo 图像,在线建图 mAP 最高达 73.4,核心在于构建「可检索的空间记忆」
- 可控场景生成(HorizonForge):将场景重建为可编辑 Gaussian Splats + Meshes,支持轨迹修改与语言指令,一次前向推理生成多场景,FID 改进 25.19%
- 仿真真实感单步增强:DiffusionHarmonizer 将多步扩散改造为单步增强器,一步推理修复新视角伪影、协调前后景风格并生成合理阴影,解决光照不一致问题
- 端到端驾驶对齐(LEAD):系统性拆解 learner-expert 不对称性,提升模仿学习在闭环驾驶中的动作稳定性与真实性
- 可靠性估计模块(REG):动态调节视觉相似性与位置匹配权重,用 1800 错位样本训练,有效应对街景缺失及 GPS 误差
- nuScenes-Geography 数据集:API 获取历史图像重投影合成全景,训练集覆盖率 94.32%,节省超 70% 存储空间
Geo 图像任务差异化收益对比
| 任务 | 模型 | 核心指标变化 | 受益原因 |
|---|---|---|---|
| 在线建图 | MapTRv2 | mAP 61.5→73.4 | 强补充车道线与道路边界 |
| 在线建图 | MapTR | mAP 50.3→61.2 | 同上 |
| 占用预测 | FBOcc | mIoU 39.11→39.74 | 可行驶区域提升明显 |
| 世界模型 | UVG | FVD 36.10→29.97 | 约束漂移、减少幻觉 |
| 3D检测 | BEVFormer | mAP 41.60→41.64 | Geo 无法反映实时动态 |
低能见度场景关键收益:夜间碰撞率从 0.55% 降至 0.48%,Geo 提供稳定道路参考,有效抑制视觉幻觉。整体而言,Geo 对静态道路结构补充效果强,对动态目标几乎无帮助
10.3 英伟达全栈平台:三台计算机闭环与智能汽车底座化
英伟达DRIVE全栈体系:从芯片到生态的平台化统治
- 渗透全产业链:以"三台计算机+五层蛋糕"全栈体系成为行业事实底座,无独立展台却覆盖几乎所有智能展位
- 十万亿美元级市场:全球年行驶13万亿英里,自动驾驶占比不足0.1%,每英里1-2美元价值
三台计算机闭环体系
| 环节 | 核心产品 | 关键数据 |
|---|---|---|
| 车端推理 | Thor芯片 | LLM推理性能为Orin 20倍,LLAMA-7B快9倍 |
| 云端训练 | Cosmos世界模型 | 2000万小时视频、2亿精选片段、370万推理样本 |
| 仿真计算 | Omniverse NuRec | 6小时重建照片级3D场景,日跑200万次仿真 |
核心技术与生态护城河
- Alpamayo从Cosmos蒸馏:仅8万小时数据即达行业领先,核心在于先理解物理世界再学驾驶
- NVLink双芯片互连:支撑L4级热备份,延迟近零,保障高阶自动驾驶安全冗余
- 车企集体转向:奇瑞all in DRIVE平台,小马智行等从全栈自研转向英伟达生态
- 数据飞轮壁垒:车端-云端-仿真闭环相互强化,单一环节竞争者无法打破
落地时间表
| 时间 | 里程碑 |
|---|---|
| 2026年 | L2++点到点辅助驾驶落地,覆盖6座国际城市 |
| 2027年 | 与Uber合作,美国部分城市L4 Robotaxi试点 |
| 2028年 | 洛杉矶奥运会L4无人驾驶服务,覆盖四大洲28城 |
10.4 智驾技术路线
端到端智驾架构演进与数据效率前沿
AI早餐汇(20260408) | AI早餐汇(20260409) | CVer(20260410) | AI早餐汇(20260413) | AI早餐汇(20260413) | 极市平台(20260416) | 量子位(20260427) | CVer(20260529)
前沿架构创新
| 方案 | 核心机制 | 关键数据 |
|---|---|---|
| 小米AutoMoT | 双专家异步推理+KV缓存复用 | B2D SR 74.09%,nuScenes碰撞率0.07% |
| 奔驰SpaceDrive | 统一3D位置编码接口 | 闭环SR 55.11%,解决轨迹塌缩 |
| 元戎40B基座 | Driver-Analyst-Critic统一 | 闭环周期缩至12h,数据利用100% |
| 卓驭VLA模型 | 视频/语音/动作多模态预训练 | 定点超100款,交付超50款 |
VLA演进与空间理解突破
- 终局弃用Language层:小马智行提出意图层取代语言层作为更高效中间表征,支持反向生成场景穷尽测试
- 数字token缺陷揭示:现有VLM逐位生成三维坐标,导致轨迹塌缩;SpaceDrive引入可学习系数避免PE打乱分布
- 微调需保护通用能力:整体微调损害推理能力(如TallyQA从81.40降至52.40),应冻结理解模块仅专门化动作模块
小模型天花板与数据闭环突破
- 小模型现跷跷板效应:700T算力实际表现与100-200T相差无几,核心瓶颈在参数量不足(普遍<1B)
- 人类数据价值归零:AI超越人类后模仿学习有害,小马PonyWorld 2.0转向强化学习与AI自我诊断
- 数据质量优于架构:规则兜底(如轨迹评分)限制上限需彻底移除,数据分布管控对性能提升贡献更大
- MOSAIC动态采样:NYU与NVIDIA提出边际收益驱动的数据筛选范式,节省42%数据达同等性能
量产格局与物理AI转型
| 指标 | 数据 |
|---|---|
| 2025辅助驾驶规模 | 1227亿元,城区NOA渗透率15.1% |
| 用户黏性 | 仅20%-30% |
| 2025Q4行业前三份额 | 99% |
| 元戎交付量 | 30万台,累计13亿公里 |
- 智驾转型移动物理AI:乘用车、重卡、L4物流车、具身机器人多垂类分摊成本,卓驭判断这是生存必须
- 舱驾同芯行业首发:卓驭推出单芯片舱驾一体方案,2025年4月推送,实现硬件效率最大化
10.5 智驾芯片与硬件
智驾芯片竞争格局与端侧架构演进
雷峰网(20260402) | 机器之心(20260402) | AI蓝媒汇(20260401) | 雷峰网(20260401) | InfoQ(20260408) | AI早餐汇(20260423) | 划重点KeyPoints(20260423) | 脑极体(20260423)
- 地平线增收不增利:营收37.58亿(+57.7%),研发投入占收入137.1%,正从高毛利IP授权(94.5%)转向低毛利软硬件交付(34.5%)。
- HSD量产突破:国内首个量产一段式端到端智驾架构,率先在15万级车型落地,搭载车型77%用户选装高配,10-20万区间用户开始买单。
蔚来自研芯片高低搭配矩阵
| 维度 | 神玑NX9031 | 第二颗5nm芯片 |
|---|---|---|
| 算力 | >1000 TOPS | ~700 TOPS(等效三颗Orin-X) |
| 成本定位 | 高端旗舰(需LPDDR5x) | 成本优先,瞄准中端子品牌 |
| 量产进度 | 累计出货超15万套 | 已流片,量产推进中 |
- 乐道选型博弈:2026款乐道L90将搭载自研5nm芯片,NX9031算力强但内存成本高,第二颗性价比更优。
- 激光雷达降本:图达通1550nm量产成本降至500美金以下,核心处理芯片联合蔚来自研(代号杨戬),反对盲目全自研。
地平线星空舱驾融合芯片突破
| 维度 | 星空6P规格 | 优势对比 |
|---|---|---|
| 制程/算力 | 5nm / 650 TOPS | 单芯取代智驾+座舱双芯片方案 |
| 安全架构 | 城堡物理硬隔离 | 座舱死机不影响智驾域ASIL-D安全运行 |
| 降本增效 | 降本1500-4000元 | 研发成本降70%,交付周期18个月缩至8个月 |
- 量产进度:星空芯片获大众、比亚迪等10余家车企意向,2025年Q4工程样片交付,2026年Q3在iCAR首发量产。
算法与系统优化突破
| 方案 | 核心数据 | 优势 |
|---|---|---|
| ColaVLA潜空间推理 | 228ms/frame (CVPR 2026) | 比文本式快5-10倍,无需语言中转 |
| 感知ODD动态分配 | 高速提升雷达信任权重 | 城区增加语义感知和目标追踪算力 |
- 统一计算架构:星空芯片集成20核CPU(500K DMIPS),本地可运行300亿参数大模型,实现智驾与座舱算力动态调配。
10.6 激光雷达重定位与点云感知前沿
LEADER:旋转等变特征+置信度加权的激光雷达重定位(CVPR 2026 Highlight)
- 核心突破:厦门大学×布里斯托大学提出LEADER(CVPR 2026 Highlight),在SCR框架上通过旋转等变特征和置信度加权,实现精度与效率双突破
- 精度表现:NCLT数据集定位精度0.28m,5m内失败率仅0.28%(不到RING/RING++的1/25),保持十毫秒级推理速度
- 旋转等变特征:柱面投影+循环稀疏卷积实现偏航角不变特征;地面点检测校正获俯仰/横滚鲁棒性,几乎零额外开销
- 置信度机制:TRR损失联合预测点级置信度,难预测点自动降权;RANSAC仅用高置信度点拟合位姿,无需额外标注
- 关键洞察:旋转敏感和退化区域是SCR精度低的两大根因,针对性解决后证明SCR精度上限远超此前认知
| 方法类别 | 平均精度 | 5m内失败率 | 推理速度 |
|---|---|---|---|
| APR(绝对位姿回归) | 1.19m | — | 十毫秒级 |
| SCR(场景坐标回归) | 1.51m | — | 十毫秒级 |
| 检索-配准(RING/RING++) | >0.28m | ~7%+ | 随地图规模增长 |
| LEADER | 0.28m | 0.28% | 十毫秒级 |
交叉引用
- llm-frontier - 大模型前沿
- ai-research - AI学术研究
- ai-industry - AI行业与商业
- multimodal-aigc - 多模态与AIGC
- ai-products - AI产品与落地
- ai-safety - AI安全与治理