🎬 多模态与AIGC
视频/图像/音频/3D生成、创意工作流 收录数:411 篇
目录
- 1. 视频生成技术
- 2. 图像生成与视觉AI
- 3. 音频与3D生成
- 4. 视频生成商业化与生态
- 5. 视频生成底层技术与工具
- 6. 多模态模型底座与训练推理加速
- 7. 3D生成与空间技术
- 8. 视频生成平台工具与创作工作流
- 9. 3D底层技术与空间重建
1. 视频生成技术
1.1 国产视频模型格局
国产角色表演与多模态视频模型竞品格局
Z Finance(20260408) | 机器之心(20260408) | 智东西(20260409) | 钛媒体AGI(20260410) | 机器之心(20260410) | APPSO(20260410) | JackCui(20260410) | AI前线(20260410) | 量子位(20260411) | 前沿在线(20260411) | InfoQ(20260413) | AI新榜(20260424) | APPSO(20260427) | 智东西(20260427) | 阿里云(20260427) | 千问APP(20260427) | 机器之心(20260427) | AI科技评论(20260427) | 十字路口Crossing(20260427) | AI异类弗兰克(20260427) | 袋鼠帝AI客栈(20260427) | 新智元(20260427) | AI信息Gap(20260428) | 硅星人Pro(20260428) | 第一新声(20260428) | AI前线(20260428) | AI新榜(20260428) | JackCui(20260428)
- 商业定价对比:阿里会员API价(5秒720P/15秒1080P)2.20/11.70元(低至0.44/0.78元/秒),仅为同规Seedance(4.97/37.17元)的31%-44%
- 非会员刊例对比:阿里0.9/1.6元每秒,字节约1元每秒,快手0.6-1.2元每秒;5秒1080P生成耗时约38秒(Seedance需3分钟以上),新用户享免费额度
- 榜单含金量分析:文生1389、图生1416 Elo登顶盲测榜单,图生领先字节115 Elo;但盲测样本人像口播类超60%恰好命中其长板,榜单第一不等于全面领先
- 适用场景实测:电影感叙事光影极佳,擅长非真人(动物特写/二次元)直出,极适AI漫剧短剧与跨境电商多语言直播量产
- 实测局限短板:末尾面部趋同,参考图编辑不稳定,多图参考偶有追踪出错,文字生成需抽卡,整体良品率约50%
- 物理理解弱势:碰撞、流体及多人物空间关系表现不佳,复杂指令下短板放大,训练重心偏向人物主导场景
- 战略与营销链路:匿名空降引发猜测与股价波动后开放测试,形成完整营销闭环;首发千问APP灰测并开启20万奖金挑战赛
- 商业战略定位:缺乏字节式内容生态,本质是阿里云百炼流量入口,首要任务是带动算力与API采购而非自身盈利
- 生态接入路线:上线即开放全部外部开发者API(与Seedance优先服务内部形成差异),已接入悟空、MuleRun等意图嵌入工作流
- 渠道与产品闭环:官网与阿里云面向专业用户,千问App面向大众;CEO吴泳铭挂帅,千问作策划大脑拆解分镜,HappyHorse执行
- 阿里生态壁垒:淘宝天猫阿里妈妈钉钉构成覆盖商品展示、直播预热与广告批量生产闭环,基础模型将完整开源可商用
- 开源与合规进度:阿里副总裁郑波领衔打通全链条,LPM论文已公开(arXiv: 2604.07823)尚未上线;Seedance设千万级准入门槛面临版权诉讼
- 行业演进趋势:由单点拼参数炫技升级为生态链对抗,Sora年烧54亿可用率极低,竞争核心转向稳定可控、低门槛与低成本商业落地
多智能体协作的架构范式与内容生成实践
AI新榜(20260409) | 梦飞 AI(20260409) | 玄姐聊AGI(20260410) | 卡尔的AI沃茨(20260411) | 量子位(20260417)
- 剧本导入打通专业链路:支持上传外部剧本自动拆分集数并匹配设计,可作为专业团队后期生产工具
- 长视频叙事验证:完成6分钟反乌托邦漫剧《调色师》含25个分镜,维持完整叙事,超多分镜场景一致性仍是边界挑战
- 渐进式交互与情绪前置:艺术总监先提取情绪关键词定调,将多集创作拆解为大纲到导出的线性流程,降低非专业门槛
- 生成效率与可控性:3分钟生成约1分钟完整短剧,支持逐镜精调与补镜头,实测仅约10%需二次生成
- 音乐MV与对口型:新增音乐MV模式,上传音频生成匹配歌词的真人MV,支持三人同屏对口型
- 商业化验证:编导用Seko 7天产出4条短片,《告别》24小时抖音播放破千万,标志AI视频进入情绪共鸣阶段
- 核心Agent组件体系:包含工具集成层、记忆与状态分离管理、上下文工程、任务拆解、安全防护及微内核插件化扩展层
- 架构无状态演进:新范式推崇无状态化,Agent可随时销毁与重建,从1个扩展到1000个仅是数字变化,消除故障黑箱
- Agent核心公式:Agent = Model + Harness(模型外全部工程设施),企业级落地中Harness占据架构复杂度的85%
- 框架层坍缩趋势:80%框架能力(如智能体定义与生命周期管理)已迁移至模型原生支持,仅20%沉淀为Harness治理运行时
- 企业级架构层级跨度:最大达17层(功能侧11层+治理侧6层),最小仅需3层(Agent+知识库+LLM)
| Agent类型/平台 | 核心特点/定位 | 执行与路由机制 |
|---|---|---|
| 艺术总监Agent | 项目定调、情绪关键词提取与需求拆解 | 统筹剧本、角色、场景发力方向 |
| 编剧Agent | 故事构建、检索知识库主动发现信息缺口 | 配合策划前置完成剧本细化 |
| Hermes Agent | 逻辑链大脑增强 | LLM自主执行 |
| Claude Managed Agents | 沙箱隔离执行 | 环境托管与隔离 |
| 紫东太初ScienceClaw | 国内首个科研智能体平台,内置3000+工具 | 无直接执行权,经Harness路由,全链路透明 |
DeepSeek 识图模式灰度测试实测
智东西(20260429) | CVer(20260429) | 夕小瑶科技说(20260429) | 量子位(20260429)
- 团队与首发:多模态由Janus核心作者陈小康统领(首发"Now, we see you"),陈德里参与对齐,团队展现极强技术储备与韧性。
- 技术路线与架构:坚持“先文本后视觉”路线,视觉为独立模式,采用V4主干外挂模块(仅图像理解),非端到端原生架构。
- 技术储备验证:Janus与DeepSeek-VL2(MoE架构)提供成熟技术底座,体现“研究先行、产品跟进”策略。
- 主力模型参数:主力模型V4-Pro(1.6T)与V4-Flash(284B)为纯文本,多模态原列为“下一步工作”。
- 工程落地进度:V4发布仅5天开启识图灰度(界面底部标注内测状态),证实视觉模块为同步开发而非仓促上线。
- 识图响应边界:基础识图近乎实时响应,深度思考约4秒完成,当前仅支持理解,不支持生成、编辑及视频。
能力跃迁与实测
- 视觉认知补位:识图实现从OCR文字转录向画面语义理解的质变,被社区称“鲸鱼终于睁眼”,填补第一梯队最后拼图。
- 深度思考增强:开启后可对随手拍分层解析,结合地理特征将地标定位收窄至10公里级。
- 综合实测表现:物体识别与图生代码表现良好,但左右手判断出错,空间方位理解仍有瑕疵。
- 能力分层评估:①基础视觉✅稳定通过 ②文化语境✅基本通过 ③反直觉推理(视错觉)⚠️需多轮提示。
| 维度 | 旧版能力 | V4视觉测试版 |
|---|---|---|
| 图像处理范围 | 仅识别图片中文字 | 理解真实图像内容 |
| 核心功能 | OCR文字提取 | 图像语义理解与描述 |
| 输出质量 | 文字转录 | 完整场景描述(含物体与属性) |
商业与生态策略
- 全模态平台演进:API大幅降价叠加视觉能力上线,产品完整度显著提升,被视为“满血归来”版本。
- 组合拳争夺生态:先降价再上新的“性价比+功能对齐”组合拳,反映国产大模型争夺开发者生态的典型打法。
1.2 Wan2.7全模态视频编辑
Wan2.7全模态架构与视频编辑体系
通义大模型(20260403) | 千问APP(20260403) | 量子位(20260403) | 智东西(20260403) | 财联社AI daily(20260404)
模型体系与功能矩阵
| 模型 | 代号 | 核心能力 |
|---|---|---|
| 文生视频 | Wan2.7-t2v | 文字直接生成视频,支持群像塑造 |
| 图生视频 | Wan2.7-i2v | 基于图像生成视频,支持图片+音频输入 |
| 参考生视频 | Wan2.7-r2v | 锁定角色外观与音色,复刻动作与运镜 |
| 视频编辑 | Wan2.7-videoedit | 局部精准编辑,支持场景切换与风格变换 |
角色与画面精准编辑
- 四大核心角色编辑维度:支持角色、台词、行为、外观维度的独立修改,精准保持非编辑区域的背景、姿态、音色等不变。
- 高保真台词动作修改:修改台词时确保新口型与情绪匹配、音色统一;支持复杂行为逻辑修改,身份场景无缝保留。
- 局部增删与风格转换:文字指令直接增删画面元素(如删掉火车)、替换物体;环境或画风可一键切换,人物动作保持原状。
- 光影材质自然融合:局部编辑或风格变换后,修改区域自动与原视频在光影和材质上无缝融合,无需人工后期调整。
运镜、风格与多主体控制
- 戏核驱动风格组合:将动画风格解构为造型、线条、空间等独立维度自由组合,通过戏剧冲突自动匹配视觉美学。
- 丰富的运镜与相机控制:支持推拉摇移跟等数十种基础运镜及希区柯克式变焦;自然语言即可修改机位、视角、景别与焦距。
- 多主体参考一致性突破:业内最高支持 5 个主体同时锁定外观与音色,多镜头特征一致,多宫格参考图可直接转动画片。
- 复杂动作模仿与续写:支持多人协同动作复刻,运镜与特效节奏同步复现;2秒素材可无损延展至15秒,消除续写刹车感。
输出规格与体验渠道
- 多角色表现力:支持超 40 种细分表情,精准还原快速对白与微妙语气转折。
- 输出规格:全系列支持 720P/1080P,时长 2-15 秒可指定。
- 体验渠道:通义网站、wan.video、阿里云百炼、千问 App。
1.3 PixVerse V6与其他视频模型
PixVerse 模型矩阵与 V6 技术代际跃升
小互AI(20260331) | Z Finance(20260331) | AI产品阿颖(20260401) | 量子位(20260401) | 十字路口Crossing(20260408) | AI新榜(20260408) | AI大模型工场(20260409) | "Z Finance"(20260423)
通用旗舰 V6 基础能力与商业表现
- 核心数据:最长15秒,1080P出片压至几十秒内,训练成本仅为同行10%。
- 市场表现:登顶Artificial Analysis图生视频榜第二,完成3亿美元C轮融资。
- 用户规模:全球累计用户突破1亿,月活超1600万。
- 代际突破:从像素堆叠转向物理规律驱动,物理/音视频同步全面提升。
- 商业可用:产品视频达广告级质感,可直接用于电商和品牌素材。
V6 核心能力突破维度
- 面部真实:突破塑料感,精准还原毛孔细纹与胡茬质感,眼神嘴角微表情传达心理。
- 物理仿真:流体、布料、碰撞符合现实惯性,精准还原蜂蜜拉丝与滑雪扬雪层次。
- 空间叙事:引入统一物理逻辑,光影实时对位形成闭环,一镜到底消除硬切。
- 时间操控:新增延时拍摄与慢动作,春暖花开与冲浪水珠弧线不因时间拉伸失真。
- 声画同步:环境音与画面严丝合缝,喘息声与动作起伏自然协同,非机械循环。
- 镜头内化:无指令也能合理调度,支持斜角、子弹时间等电影技法,门槛大幅降低。
- 多形覆盖:高质量稳定输出真人剧、2D动漫及具备稳定建模质感的3D动画。
影视垂直 C1 专业强化
- 分镜直出:自动串联画面关系,跨分镜保持角色一致与运镜节奏变化。
- 打斗强化:基于专项物理规则训练,空间关系稳定无穿模,衣袂飘动遵循惯性。
- 特效优化:内置高精度粒子特效库,多元素碰撞飞散轨迹符合物理真实性。
- 情绪表达:微表情层层递进且由心理逻辑驱动,摒弃夸张戏剧化处理。
- 口型突破:解决多人对话口型同步难题,角色从视觉可用跨入叙事可信。
工业级工具链闭环
- Edi后处理:支持在已生成视频上直接修改元素如特效瑕疵,免重新生成。
- Nano工具:内置模型一键生成九宫格分镜图并直连C1完成分镜直出。
- V5 Fast:极致压缩生成耗时,将1080P视频生成时间压至30秒以内。
- 策略价值:对日更百条短剧团队,工具链闭环价值远大于单项能力提升。
- 吸取教训:缺乏精细控制的黑盒模式无法嵌入流水线,强可控性是生死线。
OmniLottie:全球首个多模态矢量动画生成框架
-
联合研发:复旦大学、阶跃星辰、香港大学与昆士兰大学联合发布全球首个多模态矢量动画生成框架 OmniLottie,支持文字、图像和视频三种输入端到端生成 Lottie 动画
-
分词器核心机制:自研 Lottie 分词器剥离冗余 JSON 结构元数据,仅保留动画核心属性;将图层划分为预合成、纯色、空对象、形状与文本五类并分别执行专属处理,同时通过数值离散化将连续参数转换为离散符号,使生成任务从"写代码"降维为"写序列"
-
基座与还原:采用 Qwen2.5-VL 多模态模型注入专属 Lottie 词汇表逐 token 预测生成符号序列,分词器再将符号序列还原并组装为标准可播放 Lottie JSON 文件
-
多模态性能对比:文字生成动画成功率达 88.3%,图像配字生成达 93.3%,大幅领先 GPT-5(12.7%)与 DeepSeek-V3(9.3%);消融实验显示,原生模型直接生成成功率为 0%,引入分词器后跃升至 97.3%
-
数据与基准:构建 MMLottie-2M 数据集(200 万条标注动画数据)和 MMLottie-Bench 测试基准(450 个专业设计师作品),数据增强最优混合比为 30% 静态图 + 70% 原生数据
1.4 国产视频模型深度评测
Vidu Q3 参考生:AI视频从单帧画质迈向多镜头一致性
APPSO(20260413) | AI产品阿颖(20260413) | 特工宇宙(20260413) | AI大模型工场(20260413) | 新智元(20260414) | 甲子光年(20260414) | 阿里云(20260414) | 量子位(20260415) | 机器之心(20260415) | 优设AIGC(20260415) | 小互AI(20260415) | 智东西(20260416)
- 核心突破与榜单成绩:生数科技Vidu Q3首创“参考生”视频能力,登顶Artificial Analysis及全球首个参考生榜单SuperClue,包揽多图/单图参考任务双榜第一,超越谷歌Veo3.1等模型。
- 代际演进与行业趋势:Vidu历经三代迭代,Q1解决基础叙事连贯,Q2突破微表情与肢体情绪,Q3实现真实生产可控性。行业正从单帧画质竞赛转向多镜头一致性。
- 全要素参考与多主体编排:支持人脸、场景、服装、道具、音色及抽象风格参考。最多上传7张图片,通过脚本(如“图1穿图5在图3”)实现跨元素自由组合,彻底解决跨镜头角色不一致痛点。
Q3 参考生能力演进对比
| 维度 | 早期AI视频 | Vidu Q3 |
|---|---|---|
| 角色一致性 | 每条独立,长相易漂移 | 单图定妆,跨镜头多集复用 |
| 参考范围 | 仅限人脸 | 万物可参(含场景/服化道/音色) |
| 音效处理 | 无或后期配乐 | 五大类音效自动生成并匹配 |
- 原生物理特效与镜头语言:模型原生理解物理因果,涵盖粒子、流体、动力学、运镜、光影等六大体系。精准执行正反打及过肩镜头,透视遮挡全程恒定无穿帮,特效内化为叙事语言。
- 五大音效分层与声画同步:构建环境音、动态音效、拟音、情绪音与科幻设计音五层体系。实现多轨交叠(如雨声+发动机+心跳),精确匹配画面节奏与情绪转折,有效消除AI感。
- 工业化场景验证与交付:漫剧(粒子动力学)、短剧(氛围音叙事)、影视(镜头逻辑)、广告(光影克制)四大场景走通。内置导演逻辑,制作周期从数月压缩至数天,实现“出片即交付”。
- 商业闭环与生态布局:MaaS平台以行业1/3价格支持0门槛API接入,结合Vidu Agent/Claw实现SaaS层跨平台复用。与阿里云达成全栈战略合作,接入百炼平台支持最高4K画质,共同研发世界模型并拓展国际市场。
1.5 Wan2.7视频创作控制与扩展
视频续写与动作模仿
- 视频续写延展能力:支持将 2 秒素材最长延展至 15 秒,并支持首尾帧精细控制,保证结构稳定与画面过渡自然
- 尾帧精准控制联合机制:引入尾帧控制,解决传统续写的“刹车感”和可控性差问题,用户告知后续剧情后自动延展并调整机位与节奏
- 多主体参考生成:参考生视频最多支持 5 个主体参考(业内最多),可将多宫格参考图直接转换为动画片,同时复刻参考视频的运镜与特效节奏
- 动作模仿与风格迁移:支持多人协同动作复刻,不仅复制动作本身,还包含运镜方式、拍摄语言与特效节奏的整体迁移——从“动作复制”扩展为完整风格迁移
核心功能对比:
| 功能 | 核心能力 | 关键参数 |
|---|---|---|
| 视频续写 | 已有内容自然延展,支持首尾帧精细控制 | 2秒→最长15秒 |
| 动作模仿 | 多人协同动作复刻,运镜与特效同步复现 | 支持复杂动作变化 |
| 参考生视频 | 锁定角色外观/音色,复刻动作与运镜 | 最多5个主体参考(业内最多) |
运镜控制、风格库与智能编排
- 拍摄参数全维度可控:机位、视角、景别、镜头类型、焦距等参数均可通过自然语言指令精准修改
- 运镜语言体系丰富:支持推、拉、摇、移、跟、升降等数十种基础方案,以及希区柯克式变焦等复合技巧
- 叙事联动与场景保留:运镜可与剧情联动控制叙事张力,支持保留原动作序列或镜头运动生成新场景
- 风格库覆盖上千种组合:涵盖2D卡通、3D动画、水墨、赛璐璐、黏土动画等多元方向
- 风格维度解构与自由组合:动画风格被解构为整体造型、线条轮廓、光影材质、空间等独立维度,用户可自由搭配
- 角色状态一致性保持:风格转换与运镜调整时,保持角色口型与语气自然一致,实现表情与声音的精准同步
- 剧本自动化生成:从“素材生成”跃升至“全链路创作控制”,模型学习专业剧本规律,一句话即可生成分镜脚本并自动构建起承转合的剧情节奏
- 运镜语言量化:支持推、拉、摇、移、跟、升降等数十种基础运镜,以及希区柯克式变焦、上升揭示等复合技巧
- 风格库海量延展:指定“西部片”“科幻片”等类型即自动匹配光影色彩,风格库支持上千种组合,涵盖2D/3D/水墨等
- 情绪与表情控制:情绪表达支持高兴、悲伤等基础情绪及超40种细分表情,精准刻画角色情感,大幅降低影视创作门槛
- 叙事与镜头联动:运镜方案可与剧情联动控制叙事张力,支持参考视频风格化表现或粒子特效材质生成
2. 图像生成与视觉AI
2.1 图像生成模型进展
自适应词元字典(ATD):线性复杂度全局依赖建模的图像复原新范式
- 研究背景:窗口自注意力虽降低计算复杂度,但局部窗口划分策略限制跨区域信息交互,影响全局结构与长程依赖建模
- 架构创新:电子科大团队提出自适应词元字典(ATD)架构,通过可学习词元字典建模全局先验,实现线性复杂度下的全局依赖建模
- 词元字典交叉注意力:引入可学习词元字典在训练中建模典型图像结构等外部先验,实现输入特征与全局先验的高效交互
- 类别分组自注意力:利用注意力映射中的类别信息对特征分组,在前馈网络中融入类别信息进一步增强特征融合能力
- 核心优势:通过可学习字典将全局典型结构编码为外部先验,比单纯扩大窗口更高效地捕获全局依赖
| 模型变体 | 适用任务 | 表现 |
|---|---|---|
| ATD | 图像超分辨率 | 领先性能 |
| ATD(轻量化) | 图像超分辨率 | 领先性能 |
| ATD-U(多尺度) | 图像去噪 | 显著超越现有方法 |
| ATD-U | JPEG去伪影 | 显著超越现有方法 |
- 学者与发表:IEEE T-PAMI 发表,电子科大2023级博士生张乐恒一作,顾舒航教授通讯
GPT-Image-2 全面解析:能力跃迁、技术架构与安全风险
机器之心(20260405) | 深度学习与NLP(20260405) | 卡尔的AI沃茨(20260416) | AIGC开放社区(20260417) | AI范儿(20260417) | APPSO(20260418) | 量子位(20260419) | 优设AIGC(20260420) | 阿枫科技(20260420) | APPSO(20260421) | 赛博禅心(20260421) | GeekSavvy(20260421) | 歸藏的AI工具箱(20260422) | APPSO(20260422) | 机器之心(20260422) | 量子位(20260422) | 数字生命卡兹克(20260422) | AI范儿(20260422) | JackCui(20260422) | 新智元(20260422) | 赛博禅心(20260422) | InfoQ(20260422) | 硅星人Pro(20260422) | 第一新声(20260422) | 小互AI(20260422) | 智东西(20260422) | 人工智能学家(20260422) | 新智元(20260422) | 摸鱼小李(20260422) | AI新榜(20260422) | CVer(20260422) | 量子位(20260423) | AIGC开放社区(20260423) | 优设AIGC(20260423) | AI产品银海(20260423) | 极市平台(20260423) | CVer(20260423) | 深度学习与NLP(20260422) | 船长AI视界(20260424) | 网罗灯下黑(20260428) | 优设AIGC(20260429) | AI寒武纪(20260429)
- 测试成绩与团队:代号maskingtape-alpha登顶Arena三榜#1(Elo分差+242史上最大),团队半数为多学科交叉的2025年应届华人博士。
- Thinking模式:生成前规划构图,生成后检查迭代,支持角色锚定、风格叠加、结构化镜头表及语言混合提示。
- 字体美学体系:涵盖语义、字形、构图等14个维度的语义优先范式,核心理念为“先理解词义深层隐喻,再决定视觉风格”。
- 隐喻与画幅规则:深层隐喻直接转译视觉(如自由为边界消失、焦虑为结构无法对齐);画幅随词性变化(如凝聚词1:1、扩张词16:9)。
- 视觉层级设定:第一层级目标字词占画面50%+绝对主导,第二层级隐喻元素围绕文字,第三层级背景/氛围不可超过前两层。
- 文字本体隐喻:字形可拉伸/断裂/嵌套图形,突破“文字+插图”常规模式,字形结构本身承载深层含义。
商业交付与后处理
- 多语言与商业交付:中英日等文字准确率约99%无乱码,支持古籍、DOI生成及菜单、地图等复杂场景直接交付。
- 专业场景玩法:单Prompt生成电商九宫格,接入Canva与Figma,支持虚拟试衣、面部分析、老照片生成等10大创意矩阵。
- PSD分层工作流:PS插件输出分层文件,关键路径为“生成图像→断开链接→Image2拆解→重连整合输出PSD”。
- 分层路径选择:先让Image2独立拆解再链接PS能调用语义分割,抠图精度显著优于直接链接PS拆图。
- 分层提示词参考:要求生成PS可打开的分层PSD文件,拆解元素保持位置不变生成对应图层,底色为白,无伪透明度。
- 分层能力边界:简单元素拆解干净利落,复杂叠加易有局部残留;文字图层为PNG格式不可直接编辑;整体约60分初稿,需设计师30-60分钟精修。
- 星流后处理能力:支持分层编辑输出PSD、精准擦除、文字编辑、样机预览Mockup及多语言一键生成适配跨境电商。
安全防伪溯源
- 安全悖论与伪造:极高真实感、可信UI与精准文字令天然防伪失效,无参考图即可1:1复刻APP界面及转账凭证。
- 防伪溯源与局限:C2PA元数据水印在截图压缩后失效,拦截率达99.2%,严控下人物头像偶有残缺,行业缺乏有效防伪方案。
国产多模态生成与底层架构演进
通义大模型(20260401) | 阿里云(20260401) | JackCui(20260401) | 智东西(20260401) | 新智元(20260401) | 路人甲TM(20260401) | 优设AIGC(20260401) | 甲子光年(20260402) | 新智元(20260427)
架构革新与生成能力
- 生成与编辑统一架构:整合文生图、组图、指令编辑与交互编辑,共享隐空间,不再是割裂拼接。
- 原生推理思考能力:业内首创“画前规划→画后自检→联网搜索”,推动图像生成迈入“推理时代”。
- 低门槛高画质:支持1024×1024分辨率且推理显存低于6GB,大幅降低应用硬件门槛。
核心技术与指标突破
- 盲测断层登顶:Arena文生图1512分创史最大分差(领先241分),盲测胜率93%,超越GPT Image 1.5。
- 骨相级面部定制:六维度参数化定制,同提示词产出面部各异人物,彻底解决“标准脸”同质化痛点。
- 调色盘色彩控制:业内首创8色HEX色号输入及自动提取,预置名画色系,精准满足品牌商业配色规范。
- 极致文字渲染:支持3K Token(约一页A4)与12种语言,中文渲染准确率近100%,数学符号达印刷级精度。
- 交互式精准编辑:支持框选局部消除、修改与移动,局部重绘不波及全局,光影与透视自然保持。
- 多主体一致性:最高支持9张参考图与单次12张组图生成,8人同框无重复面部,解决输出单一痛点。
商业场景与生态冲击
场景落地核心表现
| 应用场景 | 竞争力表现 |
|---|---|
| 电商商拍 | 角色风格统一,支持多视角连贯组图生成,AI短剧直接可用 |
| 专业设计 | 精确控制色号满足商业精度,变体可控,批量出图效率大幅提升 |
| 中文原生 | 对比海外模型优势显著,《出师表》全文完整输出无乱码 |
行业定价与平台布局
- 生态格局重塑:API定价低至$0.21/张加速DALL-E退役,纯扩散架构路线被迫面临“融合或重写”抉择。
- 双版本全覆盖:同步上线Pro版,构图更稳定、语义理解更精准,竞争维度全面转向推理与任务完成。
- 开放API接入:模型已全面在阿里云百炼平台开放API调用,高效赋能各类商业设计与应用开发场景。
PortraitCraft:人像构图理解与生成的结构化基准
- 发布背景:美图 MT Lab 与英国巴斯大学联合发布首个面向人像构图理解与生成的双赛道基准 PortraitCraft,填补画面结构评测空白
- 数据集规模:开源约 5 万张高质量真实人像图像,从 10 万候选中经自动筛选+人工审核,覆盖单人/多人/半身/全身等构图场景
- 多层次标注:全局层(整体构图质量评分)→ 属性层(13 个细粒度构图属性)→ 推理层(VQA 选择题)→ 生成层(结构化构图描述),统一支持理解与生成评测
- 双赛道设计:Track 1 人像构图理解(输出评分+属性+VQA),Track 2 人像构图生成(结构化描述驱动受控生成),形成理解→生成的验证闭环
- Baseline 结果:基于 Qwen3-VL-4B 微调,fine-tuned 结果显著优于 zero-shot;Track 2 强调构图知识驱动的受控生成,区别于开放式文生图
- 标注范式迁移:多层次标注框架可作为其他视觉理解任务构建结构化基准的参考模板;数据集与代码已开源(HuggingFace + GitHub)
与传统美学数据集对比:
| 维度 | 传统美学数据集 | PortraitCraft |
|---|---|---|
| 标注深度 | 整体评分或有限标签 | 整体评分 + 13 个细粒度属性 + 解释文本 |
| 任务覆盖 | 评分/分类 | 理解 + 生成双任务统一评测 |
| 构图属性 | 无或粗粒度 | 主体位置、空间组织、视觉重心、留白、层次等 |
| 可解释性 | 低 | 属性级解释 + VQA 推理 |
NabuOCR:文心大模型驱动的楔形文字端到端转录系统
开发者基于百度文心大模型与飞桨生态,构建端到端楔形文字自动转录系统 NabuOCR(以巴比伦书写之神命名),源自百度 ERNIE AI Developer Challenge。系统以改造后的 PaddleOCR-VL 为骨架,用 CDLI 筛选的 3.3 万组高质量“泥板图像→标准音译”配对训练,跳过传统多阶段流水线实现一步直达。
楔形文字破译四大困境
| 困境维度 | 具体状况 | |---------|---------|\n| 人才稀缺 | 全球能阅读楔形文字的亚述学家仅数百人 | | 物理限制 | 数千年侵蚀导致泥板严重磨损,表面信息退化 | | 数字化瓶颈 | 估计不到 3% 的泥板进行过 3D 扫描,高质量几何表征依赖昂贵设备 | | 图像噪声 | 光照、阴影、反光与泥土颜色叠加,2D 图像难以可靠恢复几何信息 | | 符号演化 | 使用跨度超 3000 年,不同时期字形差异巨大 |
技术方案与核心洞察
- 端到端架构:跳过传统“预处理→分割→识别→校正”多阶段流水线,消除逐级误差累积
- 连续奖励函数:设计视觉相似度矩阵驱动的奖励机制,解决强化学习中奖励信号稀疏问题
- 数据价值:3.3 万组精选数据说明垂直领域 AI 中精心筛选的领域数据集价值远超通用大规模数据
- 下一代规划:计划采用 ERNIE-4.5-VL-28B-A3B(异构 MoE 设计),接收照片与 MSII 双路输入,将 OCR 与翻译融合为单一模型联合训练
- 学科赋能:AI 正在填补冷门学科的巨大人力缺口,将专家精力从机械转录释放到真正的研究解读
Luma AI Uni-1:自回归统一图像模型
- 核心架构:Uni-1 采用自回归生成范式(逐 token 预测),先建立物理逻辑认知再决定像素位置,统一理解与生成,区别于扩散模型的概率演算
- 视觉审查:内置类似 o1/R1 的 self-play 自动评判机制,对废稿标记 Reject 并自动重生成,将试错成本从人类转移给 AI
- 基准测试:ODinW-13 物体检测得分 46.2,接近 Google Gemini 3 Pro;人类偏好 Elo 评分在总体、风格编辑、参考引导生成三项排名第一
- 多维评测对比:综合能力对标 Banana Pro,画质光影二者五五开(GPT-Image-2 显著领先)
| 评测维度 | Uni-1 | Banana Pro | GPT-Image-2 |
|---|---|---|---|
| 图文混排 | 文字作为视觉元素融入,有透视排版 | 硬贴印刷字体 | 准度精度超模 |
| 一致性控制 | 多参考图角色、服装、姿势一致性好 | — | — |
| 空间纵深 | 多角色纵深关系正确,色彩融合自然 | 多角色复制出错 | — |
| 画面质感 | 饱和度较低,AI味最淡 | — | — |
| 小字准确度 | 不够稳定 | 更稳定但生硬 | — |
- 成本与定价:高分辨率生成成本比竞品低 10-30%,采用基于 token 的计量定价模式
- 市场表现:发布后带动 Luma AI 总榜飙升 43 位(AI 新榜第 80 期),为当期最大涨幅
- 补充信息:最多支持 9 张参考图输入;当前可通过谷歌账号免费使用;Agent 默认用 Banana Pro 需手动切换;社区推测 GPT-Image-2 能力跃升也可能源于自回归核心
免训练虚拟试衣:推理时控制释放预训练修复模型的隐藏能力
- 任务重构范式:PG-VTON(CVPR 2026)将虚拟试衣转化为“受控修复”任务,基于冻结的 FLUX.1-Fill DiT 模型实现零训练、零微调的单次推理高保真换衣
- 双重推理控制机制:通过 PIP(patch priming)在扩散前期锚定服装身份,RAA 在注意力层增强人物分支对服装分支的感知,无需额外匹配网络
- 免训练 SOTA 性能:在 VITON-HD 和 DressCode 基准全面超越 OmniVTON,StreetTryOn S2S 场景 FID 达 21.028(优于 OmniVTON 的 23.470)
| 基准 | 对比方法 | PG-VTON 表现 |
|---|---|---|
| VITON-HD | OmniVTON | 全面超越 |
| DressCode | OmniVTON | 全面超越 |
| StreetTryOn S2S | FID 23.470 | FID 21.028 |
- 核心洞察:预训练修复模型的隐藏能力被严重低估,纯推理时注意力调控即可解锁垂直任务能力,为“模型即基础设施”范式提供实证
xR+AI 向公共文化服务溢出:博物馆科普数字化
- 蓝色光标旗下蓝色宇宙(专注 xR+AI)与上海天文馆签署 MR 项目合作,首期沉浸式科普展览"诗词里的星空"计划 2026 年暑期亮相,技术栈涵盖 3D 建模、VR/AR、互动式知识图谱、MR 混合现实
- "微展览"模式兼具可复制性与低成本扩展性:轻量级"数字科普微展览"突破物理场馆限制,计划在上海中小学落地推广,将抽象天文原理转化为可看、可玩、可探索的数字化内容
- 规模化路径:首期展览基础上打造"仰望星盒"系列巡展,拓展至全国更多城市,实现天文科普普惠化
- 企业级 xR 能力正向公共文化服务溢出,蓝色宇宙将元宇宙"人·货·场"营销生态经验迁移至科普场景,反映 xR 技术从商业营销工具向公共教育基础设施转型的趋势
2.2 AI设计工具与UI生成
AI设计工具商用闭环:从生图到可编辑交付
莫理(20260406) | 优设AIGC(20260417) | 优设AIGC(20260422) | 路人甲TM(20260422) | AI寒武纪(20260422) | 阿枫科技(20260422) | 曼话AI(20260422) | AIZ小朱(20260422) | 沃垠AI(20260422) | AI产品阿颖(20260423) | 甲木未来派(20260423) | 卡尔的AI沃茨(20260423) | "梦飞 AI"(20260424) | AI异类弗兰克(20260426) | 路人甲TM(20260426) | AI产品银海(20260426) | 优设AIGC(20260427) | 沃垠AI(20260427) | 莫理(20260427) | 阿枫科技(20260429)
|------|---------------|---------| | B站播放页 | 作者名+粉丝数+标题+播放量+弹幕 | 完整高保真UI及推荐栏还原 | | 朋友圈截图 | 昵称+头像描述+九宫格+配文+互动数据 | 交互逻辑与点赞评论高度真实 | | 抖音直播截 | 主播描述+在线人数+热度+产品 | 逼真带货界面与带货场景 | | 90年代教室 | 指定年代+场景+细节道具 | 黑板报、名人名言等时代细节准确 |
提示词工程与设计能力:提示词全面转向结构化指令(多维度参数),本质是用自然语言写设计Brief,门槛极低且支持手写体极强模拟。 专业级多模态内容生成:精准生成电影分镜(12镜头拼图)、海报(双重曝光+纸张颗粒)、商业广告(纯黑背景分层爆炸悬浮+双语)及APP UI。 图层拆解与精细化编辑:一键炸开图层进行PSD分离;Text Edit无痕替换透视文字;Ctrl+点击识别元素智能连带替换;Touch Edit局部重绘保光影。 动态视频与样机展示:内置Mockup零成本贴合不规则表面保物理反光;结合Seedance 2.0与可灵3.0 Omni模型,实现静图转物理动效及IP动画矩阵。 电商设计工作流重构:AI覆盖从拍摄至带货视频全宣发链路,设计师从执行者转向创意指导;星流平台支持随手拍一键生成商业图及全链路闭环。 Agent批量与品牌一致性:整合Brand Kit解决“上下张不像”痛点;基准图锁风格,Agent一键批量出图;多语种切换保留排版,单SKU物料缩至十分钟。 包装落地与流程降本对比
| 对比环节 | 传统设计流程 | XFUN智能流程 |
|---|---|---|
| 设计与编辑 | 手动搭建与修图 | AI生成+分层智能编辑 |
| 包装起订量 | 存在较高接单门槛 | 低至1个起订支持打样 |
| 物料拿样周期 | 数天到数周 | 最快1天极速交付 |
商业化效率与成本重构:单张1K图成本约0.05元(无水印限流风险),替代高昂Logo设计与字体授权费,年会员仅几千元,赋能中小企业零损耗对话设计。 工具互补与行业风控挑战:Claude搭UI与Lovart定位互补;但AI伪造场景能力极强导致“有图不再有真相”,视觉证据的法律效力正面临根本性挑战。
AI交互式可视化:三巨头"边说边画"新战场
- 2026年3月一周内三巨头先后上线可视化功能,标志着AI交互从纯文本向"边说边画"范式转移,"谁更会表达"取代"谁更聪明"成为新差异化战场「新智元」
| 维度 | Anthropic (Claude) | OpenAI (ChatGPT) | Google (Gemini) |
|---|---|---|---|
| 上线时间 | 2026年3月12日 | 2026年3月10日 | 2025年11月 |
| 核心定位 | 通用白板,不限主题 | 结构化教育模板(70+主题) | 图像标注增强 |
| 技术路线 | HTML+SVG代码渲染 | 70+预设交互模块 | AI识别图像元素生成标签 |
| 定价 | 免费用户可用 | 含在订阅中 | 高级功能200美元/月 |
| 生态优势 | Figma/Canva/Slack联动 | 1.4亿周活学生用户 | LearnLM+YouTube+Classroom |
- Anthropic扬长避短:在多模态投入不足的情况下,选择用代码能力画图,避开与OpenAI/Google正面竞争图像生成;前身为"Imagine with Claude"实验项目,半年后以更实用形态落地「新智元」
- 定价策略博弈:Claude免费开放可视化直接对冲Google 200美元/月高级订阅,用免费策略抢占用户心智;OpenAI深耕教育场景,配合Study Mode和QuizGPT形成完整教育产品矩阵「新智元」
- 当前局限:Claude绘制复杂图表存在标注位置错误;复杂可视化需等30秒(搜索引擎找类似图仅3秒);ChatGPT超出预设主题不触发可视化;Gemini必须先有图像才能交互「新智元」
- 范式升级信号:Claude正从文字助手演变为多格式表达引擎,能根据内容自动选择文字/图表/交互工具的表达格式,人机交互层面根本性变化「新智元」
GPT-Image-2 Prompt结构方法论与信息可视化生成
- GPT-Image-2核心优势:在复杂画面构图与文字渲染方面表现突出,尤其擅长信息图、海报、地图等高密度视觉内容,Prompt越详细输出越精致
结构化Prompt四维框架
| 维度 | 核心要素 | 示例 |
|---|---|---|
| 版式定义 | 竖/横版+比例+分区结构 | 竖版2:3,顶部标题/中部主体/底部信息 |
| 配色体系 | 主色+辅色+饱和度倾向 | 米黄宣纸底色,赭石靛蓝朱红辅色,低饱和古典 |
| 风格锚定 | 参照物+美学流派 | "参照Apple新品专题页"比抽象描述更精准 |
| 文字规范 | 字体类型+排版方式+内容层级 | 宋体竖排、毛笔书法横排 |
五大高价值Prompt模板
| 场景 | 核心技巧 | 效果亮点 |
|---|---|---|
| 人物史诗海报 | 双重曝光:巨大侧脸剪影+内部世界观场景 | 电影海报质感 |
| 城市文旅地图 | 行政区划+四周手绘插画环绕 | 古典舆图+现代信息图融合 |
| 电商A+页 | 三层结构(主视觉/功能区/价格区) | 真实官网UI感,中文可读 |
| 医学科普信息图 | 半透明解剖图+编号模块+渐进箭头 | 病理切片级细节 |
| 城乡规划展板 | 全要素(总平/流线/断面/效果图)+反向提示词 | 学术竞赛级精度 |
- 复杂度分级:轻量级一句话描述(节日海报)→中量级结构化段落(工具全图鉴)→重量级多层级精细描述(医学解剖图),重量级Prompt不会"画崩"反而更精致
- 效率最优解:参考图+"基于图X生成…"句式比纯文字描述更高效,适合快速迭代场景
- 关键洞察:信息可视化是GPT-Image-2最大杀手级场景,AI首次能直接生成可用的专业级信息图;"参照物锚定"是最有效的风格控制手段,指定具体参照物比抽象描述风格更精准
2.3 多模态推理与视觉理解模型
视觉理解与生成的双向协同及'生成即理解'范式验证
极市平台(20260331) | 机器之心(20260424) | 新智元(20260429) | APPSO(20260429) | 商汤科技SenseTime(20260429) | AI异类弗兰克(20260429)
- 具身智能潜力:可作为机器人具身大脑,在单一模型闭环内完成感知→推理→执行。
国产算力生态与开源部署
- 10家国产芯片适配:壁仞、寒武纪等10家芯片Day 0即完成兼容,商汤将联合企业深度优化算力利用率,降低落地门槛。
- 多版本开源部署:提供8B稠密版与A3B MoE版,配套Skills Agent技能库支持一键调用,GitHub和HuggingFace同步开放。
SenseNova U1 信息图生成表现
| 信息图场景 | 表现评价 | 核心特点备注 |
|---|---|---|
| 知识科普 | 优秀 | 可联网搜索+网页抓取 |
| 流程步骤图 | 优秀 | 文字渲染准确 |
| 营销视觉 | 优秀 | 风格接近原生广告 |
| 办公摘要 | 良好 | 信息提炼到位 |
| 数据可视化 | 良好 | 视觉表达有提升空间 |
生成式视觉表征:Vision Banana
- 生成式预训练核心:大规模图像生成预训练习得通用视觉理解,纯合成数据印证强大跨域迁移力。
- RGB统一感知接口:感知输出编码为RGB图像,构成度量深度完美双射,轻量指令微调即可统一任务。
Vision Banana 视觉任务性能对比
| 视觉任务与数据集 | Vision Banana | 对比最佳模型 | 性能领先幅度 |
|---|---|---|---|
| 语义分割 Cityscapes mIoU | 0.699 | SAM 3: 0.652 | +0.047 |
| 指称分割 ReasonSeg gIoU | 0.793 | SAM 3 Agent: 0.770 | +0.023 |
| 深度估计(四数据集) δ₁ | 0.929 | Depth Anything V3: 0.918 | +0.011 |
| 实测手机照片深度 AbsRel | 0.065 | 实测12.87m/预测13.71m | 极高精度 |
研发合作与后续规划
- 产学研深度合作:商汤与南洋理工S-Lab合作研发,2025年3月提设计4月底落地开源,更大参数正式版开发中。
LEAD:高熵感知解码缓解多模态幻觉
-
幻觉根源:多模态幻觉源于 transition words(because、however、wait)触发高熵状态,视觉注意力下降转向语言脑补,而非"看错图"
-
连锁效应:推理链前段的高熵 token 对整条 reasoning trajectory 影响最大,过早锁定错误方向导致后续全部偏航
-
视觉脱钩:与幻觉相关的高熵 token 拥有更低视觉注意力比例,模型在不确定时逐渐放弃图像证据
-
LEAD 核心机制:高熵阶段保留概率加权连续 embedding(延迟决策),低熵阶段自然切回离散解码
-
视觉锚点注入:在解码过程中注入视觉锚点,将模型拉回图像证据,跨 5 个 backbone 泛化稳定
-
关键数据:
基准测试 原始分数 LEAD分数 VStar 66.5 71.2 MMEval-Pro 69.4 73.9 MathVision 29.9 32.4 MMHalu - 3.80 -
反驳假设:推理长度更短但准确率更高,反驳"更长 CoT 更好"的传统假设
-
Token Masking 验证:mask 掉高熵 token 对性能伤害远大于其他 token,证明不确定节点是推理关键决策点
MTSS:结构化视频描述范式统一理解与生成
-
范式定义:腾讯混元提出 MTSS(Multi-Stream Scene Script),用 JSON 格式多流结构化剧本替代传统 Monolithic Caption,核心基于 Stream Factorization(流分解)与 Relational Grounding(关系锚定)两大原则「机器之心」
-
四流分解架构:
| 信息流 | 功能 | 核心作用 |
|---|---|---|
| Reference Stream | 资产信息 | 角色身份特征锚点 |
| Event Stream | 事件信息 | 描述"发生了什么",含台词与动作 |
| Shot Stream | 镜头信息 | 描述"如何呈现",含时间戳与运镜 |
| Global Stream | 全局信息 | 全局风格、背景等元信息 |
-
跨流关联机制:通过 ID 引用实现身份锚定(各流引用角色而非重复描述)、多轨道时间对齐、局部编辑不影响其他流
-
理解端验证:Zero-shot Prompting(仅切换输出格式)即可带来普遍提升;对小模型提升幅度远超大模型,起到"认知脚手架"作用,显著缩小大小模型性能差距
-
生成端验证(基于 LTX-2):音画同出从随机噪声转为语义正确对话,ID 跨镜头保持显著提升,轻量 Attention 模块即可实现强分镜约束
-
关键洞察:数据范式的红利远超架构微调,"描述格式"在理解端是描述格式、在生成端直接转化为控制信号,实现了理解与生成的统一数据接口
2.4 视觉特效与动态生成流水线
BDO 巨物美学与演唱会 AI 视觉工业流水线
- BDO(巨大沉默物体)美学正成为演唱会和电音现场核心视觉语言,通过极端体量反差激发敬畏与压迫感,正从电音圈向主流流行市场扩散
- AI视觉工业流水线三大环节:①AI辅助概念设计→②3D建模与UE5实时渲染→③帧级音画同步系统(时间码对齐视觉/激光/电子乐)
- 标杆案例:Anyma × Sphere《The End Of Genesys》8场门票秒空,16K LED穹顶+定制音响,2026年5月ÆDEN巡演登陆上海森兰无界公园
- AI提示词方法论:"体量对比+环境模糊+材质质感"三层叠加,可迁移至任何AI视觉创作场景
- 关键洞察:巨物美学本质是情绪工程而非技术炫技;"全息投影"实为建模+动画+灯光+时间码共同制造的空间错觉;AI是效率放大器非创意替代者
演唱会AI视觉案例对比
| 项目 | 核心手法 | 技术特征 | 视觉风格 |
|---|---|---|---|
| Anyma × Sphere | 16K穹顶LED+UE5实时渲染 | 帧级音画同步+时间码系统 | 赛博朋克/数字生命 |
| 蔡依林Pleasure巡演 | 充气巨物装置+AI视觉 | 巨物装置与舞台表演融合 | 巨物压迫/沉浸感 |
| Lisa《Bad Angel》 | 360度高精度扫描数字分身 | 实景搭建+CG/AI特效叠加 | 机械废墟/赛博朋克 |
海螺AI Light Studio:可视化打光重塑AI生图质感
- 核心洞察:AI生图的质感差距取决于打光而非清晰度,打光解决"有感觉"(视觉叙事),清晰度仅解决"看得清",前者才是质感的决定因素「卡尔的AI沃茨」
- 海螺AI推出Light Studio光影工作室:内置数十种灯光预设(日落大道、怪奇物语、布达佩斯童话等),提供专业级多光源控制台,无需布光知识即可实现电影级打光「卡尔的AI沃茨」
- 多光源协同体系:主光塑形+环境光填充+效果光暗示,每个光源可独立控制类型、角度、强度和颜色,支持实时位置可视化「卡尔的AI沃茨」
- 灯光预设分类:
| 预设类型 | 光效特征 | 适用场景 |
|---|---|---|
| 日落大道 | 暖金低角度侧光 | 文艺情感、离别叙事 |
| 怪奇物语 | 红蓝双色交叉光 | 悬疑、现代感 |
| 布达佩斯童话 | 高饱和粉调柔光 | 复古回忆、温馨明快 |
| 丝绒柔光 | 斜射暖色背光 | 产品摄影、突出轮廓 |
| 光学焦散 | 水波纹折射光影 | 产品氛围营造 |
- 设计理念:预设降低专业门槛、控制台保留创作天花板,两层设计兼顾小白与专业创作者;可视化操控台将抽象文字灯光描述转化为具象光源参数控制,消除AI理解中间损耗「卡尔的AI沃茨」
人脸重打光的数据-模型协同突破:POLAR
上交大与字节跳动联合提出 POLAR(CVPR 2026 Oral),通过构建大规模开放数据集与创新的潜空间变换模型,系统性突破了人脸重打光任务的数据与建模双重瓶颈。
数据基础设施突破
- POLAR 数据集:首个大规模开放 OLAT(One-Light-at-a-Time)人脸数据集,包含超 2880 万张 4K HDR 图像
- 覆盖维度广:220 身份(多肤色分布)× 32 视角 × 16 表情 × 156 光照方向,提供完整光照标注
- 物理一致性基函数:OLAT 数据可作为基函数空间,通过线性组合表示任意光照,是连接物理渲染与生成模型的桥梁
- 填补开源空白:此前 OLAT 数据集要么规模极小要么完全闭源,POLAR 在规模、开放性、物理一致性三方面突破
| 维度 | POLAR 参数 | 核心价值 |
|---|---|---|
| 身份数 | 220(多肤色) | 为不同肤色光照响应差异研究提供数据基础 |
| 图像规模 | 超 2880 万张 4K HDR | 满足数据驱动模型的训练需求 |
| 光照方向 | 156 | 精细覆盖球面光照空间 |
| 数据类型 | OLAT、Alpha、HDR重打光、光照标注 | 多模态数据支撑多元化建模 |
技术架构创新:POLARNet
- Latent Bridge Matching:将重打光重新定义为“潜空间连续物理变换”,而非传统的图像生成问题
- 物理约束的单步推理:模型学习“光如何作用在脸上”,以均匀光照为起点、目标单光源响应为终点,实现单步前向传播生成目标光照
- 相比 Diffusion 的本质改进:光照维度解耦(非强耦合)、单步推理(非多步去噪)、避免采样误差累积,将效率从分钟级提升至实时级
闭环机制与泛化能力
- 数据-模型共进化:真实数据训练模型→模型生成新数据→新数据反哺训练,为高成本物理采集领域提供可扩展路径
- In-the-wild 泛化:强侧光、局部阴影、佩戴眼镜等复杂场景下仍保持身份一致性与物理合理性
2.5 图像生成底层架构与范式创新
Agent 范式迁移至多模态生成:搜索增强与闭环优化两条路线
Gen-Searcher(港中文 MMLab + UC Berkeley + UCLA):搜索增强路线——生成前主动调用文本搜索、图像搜索、网页浏览三类工具验证事实,解决"画得像却画不对"。训练分两阶段(SFT 学工具调用 + Agentic RL 优化长程搜索策略),双奖励机制确保"搜得对且画得好"。KnowGen 基准:Qwen-Image K-Score 提升 110%,Seedream 4.5 提升 52%。
GEMS(上海人工智能实验室 + 南大 + 港中文 + 上交):闭环优化路线——将 Agent 三大机制(Loop/Memory/Skill)迁移至多模态生成。基于 6B 模型 Z-Image-Turbo,在 GenEval2 上超越闭源 Nano Banana 2,主流任务平均 +14.22。Agent Loop 实现闭环多智能体协作逐步对齐指令;Agent Memory 用分层压缩(事实保留+CoT 压缩)减少 Token 开销;Agent Skill 按需加载专家知识扩展能力边界。消融实验验证三模块叠加性能持续递增。
- 两条路线互补:Gen-Searcher 解决知识准确性(搜完再画),GEMS 解决生成质量(迭代优化),共同验证"Agent 化是图像生成的下一个范式"
- GEMS 的核心启示:开源 6B 模型通过 Agent 化治理超越闭源模型,"小模型+强框架"路线可行——投资框架设计(循环、记忆、技能)比单纯扩大参数更具性价比
UiT原生全模态架构:从视觉生成倒逼世界理解
- 全球世界模型四大路线:英伟达(仿真基建)、李飞飞(空间智能)、杨立昆(认知架构)、智象(视觉生成倒逼世界理解)
- 主流技术路线三大瓶颈:状态预测遇长尾失效、3D交互无法推导物理量、视频生成追求像素逼真忽视动作有效性
- 单一模态局限:语言无法描述摩擦系数,视频无法捕捉力反馈,单一或有限模态无法完整描述物理世界
- 世界模型竞争本质:胜负决定于原生多模态统一架构设计,算力与数据仅为必要条件,超半数企业未触及核心
- 甄别世界模型三要素:原生全模态表达、物理推演能力、构造世界能力
- DiT信息损失根源:各模态独立编码后拼接是生成精度损耗与输出不可控根源,默认世界可拆开再拼合
| 维度 | DiT架构 | UiT统一架构 |
|---|---|---|
| 模态处理 | 各自独立编码后拼接融合 | 原始信号统一进入同一空间 |
| 世界理解 | 模态对齐(结果拼接) | 统一建模(结构内化) |
| 物理一致性 | 难以突破上限,易生误差 | 生成过程即物理约束验证 |
| 扩展方式 | 依赖数据与算力堆叠 | 同一架构自然延展多任务 |
- 图像是全模态杠杆支点:视频链路中80%-90%问题在前端图像阶段,以图像验证架构再迁移至视频可压缩训练成本至1/5-1/10
- 智象1+1+3业务架构:底座HiDream千亿参数→中台HiHarness(300+API,100+KA客户,调用超30亿次)→三应用Agent
- HiDream模型能力验证:基于UiT在六项主流Benchmark达SOTA,超越Google Banana 2与GPT-Image 1,同步开源8B版本
- C端应用商业落地:vivago.ai覆盖超3000万用户(80%海外),HiBurst成为TikTok前五大AI合作伙伴
- 具身智能数据闭环:与诺亦腾融合毫米级动捕与AI生成,年内产出数万小时训练数据,核心在于生成系统保证物理正确
- 端到端模型数据优势:原生统一架构下,所需训练数据量可能仅为同行1/10至1/100
- 微观世界模型延伸:与百图生科共建模型用于分子动力学理解,从宏观物理延伸至微观尺度
2.6 多模态创意工作流与AI生图工业化
多模态工具链创意工作流:Banana 2 + 可灵 + Claude Code 六大场景实践
- 多模态工具链平台化趋势:以星流Agent为代表,单平台集成Banana 2、MJ V7、可灵3.0、海螺2.3等模型,覆盖生图/视频/代码全链路,可作为Lovart国内平替
- 主流模型能力对比:
| 模型 | 核心优势 | 明显短板 |
|---|---|---|
| Banana 2 | 世界知识、文字生成 | 美学不及MJ |
| MJ V7 | 美学构图最强 | 指令遵循差、无文字 |
| 可灵3.0 | 声画一体 | - |
| 海螺2.3 | 高质量镜头 | 无声音 |
- 跨模态编排工作流实践:MJ生图→可灵生视频→Claude Code输出React项目实现动态网页;Banana 2生首尾帧→视觉模型设计过渡词→可灵/海螺生成延时视频
- 编辑能力比生成更决定体验:Touch Edit点选替换、元素分离、文字编辑、Mockup样机贴合等功能显著降低创作门槛
- 规模化创意基础是参数化复用:多个实操案例(教学插画、表情包、角色表)证明,Prompt只需替换场景/角色/年代参数即可跨场景迁移
300+ 城市美食图鉴:AI 绘图提示词的工业化生产范式
用 Nano Banana 批量生成覆盖全部地级及以上城市的美食图鉴,每套提示词是精确的视觉叙事剧本,包含五层结构:视角定位(具体地点/时间/天气)、近景桌面写实(食物器皿)、中景城市写实(窗外城市切片)、远景自然写实(地貌)、光线/情绪/文字(情绪金句 + 8K/3:4 统一参数)。
三城美学差异化矩阵:
| 维度 | 北京 | 重庆 | 广州 |
|---|---|---|---|
| 地标 | 钟鼓楼、胡同灰瓦 | 朝天门、洪崖洞 | 骑楼、广州塔 |
| 美食 | 铜锅涮肉 | 九宫格红油火锅 | 虾饺、肠粉 |
| 时间感 | 长城两千年、CBD三十年 | 吊脚楼三百年 | 汉代番禺港到南沙码头 |
| 情绪锚点 | 灰瓦一千年、鼓楼七百年 | 整座山城都在锅里沸腾 | 一盅两件把天下事谈完 |
关键洞察:
- prompt 即剧本:对视角、景别、光线、情绪作精确时空规定
- 城市特色:可识别视觉符号的精准提取(如川东平行岭谷山脊)
- 情绪锚点:三城均有时间感情绪句,是可复制的创作范式
- 工具链工业化:Lovart 接入 NB2 支持上百张不间断批量出图与局部重绘
2.7 视频理解模型与评测
MOSS-VL:证据级视频理解的11B开源模型
复旦大学 OpenMOSS 团队联合模思智能开源 MOSS-VL(11B 参数),核心定位是解决视频理解中的「证据题」——答案可被明确验证的细节级问题。区别于传统视频概括任务,聚焦六项证据级能力验证。
| 核心技术 | 作用 |
|---|---|
| Cross-Attention 按需读取 | 按需提取视觉 token 而非全部压入,解决长视频视觉 token 瓶颈 |
| 绝对时间戳编码 | 为视频帧引入真实时间信息,天然具备秒级定位锚点 |
| XRoPE 统一位置编码 | 一套方案同时建模时间、空间和文本查询维度,实现跨模态精细对齐 |
证据级能力对比(vs Qwen3-VL)
| 能力维度 | 任务示例 | MOSS-VL | Qwen3-VL |
|---|---|---|---|
| 瞬时细节捕捉 | 蓝色电动车车牌后四位 | 准确回答 4425 | 完全不对应 |
| 跨模态语义对齐 | 三个杯子对应尺寸 | 中/大/特大杯(结合语义) | 小/中/大杯(按外观猜测) |
| 重复事件计数 | 猫被喂食次数及时间 | 5 次 + 5 个精确时间点 | — |
| 滚动文本转写 | 星战开场爬行字幕 | 完整全文转写 | 零碎关键词片段 |
| 过程步骤拆解 | 卤肉饭制作流程 | 多阶段拆解 + 时间段定位 | ... |
- Apache 2.0 开源许可:支持学术研究和商业应用,分 Base 和 Instruct 两个版本
- 证据级能力是实用化关键:能概括视频的模型很多,能精准定位细节的极少,这才是真正门槛
Video-MME-v2:组级非线性评分揭示视频理解评测失真
南京大学傅朝友团队发布 Video-MME-v2,揭示传统逐题 Acc 指标严重虚高。基于 800 个视频、3200 个问题,经 5 轮交叉审核构建。首版为 CVPR 2025 录用论文引用排名第一(1100+ 次),傅朝友谷歌学术引用 8700+ 次。
评测机制
- 三层递进架构:Level 1 信息检索聚合 → Level 2 时序理解(动作因果)→ Level 3 复杂推理(多步推断),模型性能逐层递减
- 能力一致性组:同能力不同问法设题,采用激励计分,零散命中无法拿高分
- 推理连贯性组:多步推理题采用首错截断机制,杜绝碰巧选对
- 防污染设计:超 80% 视频发布于 2024 年后,近 40% 在 10 月后;能用纯文字猜出答案的题目一律打回
核心发现
- 评测饱和假象:人类 Acc 从 94.9 降至非线性评分 90.7;最强模型 Gemini-3-Pro 腰斩至 49.4,差距悬殊
- 计分差异对比:Gemini-3-Pro 比值约 75%,Flash 约 69%,比值越低说明越依赖零散命中
| 测评对象 | 组级非线性得分 | 传统 Acc | 得分比值 |
|---|---|---|---|
| 人类专家 | 90.7 | 94.9 | ~95.5% |
| Gemini-3-Pro | 49.4 | 66.1% | ~75% |
| Gemini-3-Flash | 42.5 | 61.1% | ~69% |
| 部分中小模型 | - | - | 折损率约 60% |
- 思考模式双面性:有字幕时带来正向增益;抽掉字幕仅靠纯视觉,多数模型严重倒退
- 参数代偿效应:Qwen3.5-397B-A17B-Think 凭庞大参数拿到 39.1 分超部分小模型;512 帧比 64 帧高 8.5 分
AURA:首个面向实时视频流的端到端视觉交互框架
- 统一流式架构:单一VideoLLM同时完成观察、沉默判断和响应,避免触发与响应不一致
- 双滑动窗口管理:视频窗口(30秒+15秒缓冲)保视觉证据,问答窗口(10组QA)保用户意图
- Silent-Speech Loss:解决流式场景“永远沉默”问题;去掉后OmniMMI从25.4%降至16.4%,主动提醒能力归零
- 三类流式问答:Real-Time(即时答)、Proactive(等证据主动答)、Multi-Response(陆续多答),覆盖全场景
- 延迟与性能:端到端312.2ms(ASR 84ms+TTFT 75ms+解码60ms+TTS 93ms),2张80G卡2FPS运行
- 基准SOTA:StreamingBench 73.1%、OVO-Bench 65.3%,部分超GPT-4o
- 反幻觉策略:数据引擎过滤窗口截断证据不足样本,从数据层抑制幻觉,流式理解是系统工程
uAI Nexus MedVLM:全球首个医疗视频理解大模型(CVPR 2026)
| 评估维度 | MedVLM | GPT-5.4 | Gemini-3.1 | 国产大模型 |
|---|---|---|---|---|
| 手术安全评估准确率 | 89.7% | 16.4% | 24.2% | 30.9% |
| 时空动作定位 mIoU | 基准 | 基准÷47 | 基准÷3.2 | 基准÷3.7 |
| 视频报告生成(5分制) | 4.24 | 3.98 | 3.7 | 3.5 |
- MedGRPO 强化学习优化:覆盖视频摘要、安全评估、操作预测等 8 项任务;器械定位提升 14%,手术步骤识别提升 52%,手术描述质量提升 16%-25%
- MedGRPO 算法核心细节:采用 Logistic 归一化函数,将各数据集中位性能统一映射到奖励值 0.5,消除难度差异导致的梯度失衡;不做归一化时 CVS 准确率从 0.894 崩塌至 0.020
- 医学 LLM 评审机制:基于 GPT-4.1 从医学术语精确性、器械识别等 5 个维度评分,与语义相似度各占 50% 混合;传统语义相似度无法衡量临床正确性(高相似度可能对应医学准确性天壤之别)
- 泛化性验证:4B 小模型 + RL 配置下多数任务已超过 7B SFT 基线,证明正确训练方法论比堆参数更关键
- 数据与基础设施:汇聚超 53 万条视频-指令数据,整合 8 个专业医学数据集;同步开源 6245 个视频-指令对测试集 MedVidBench 及全球排行榜
- 市场与安全背景:AI 增强型手术视频分析市场预计从 2025 年 7.3 亿美元增长至 2030 年 21.4 亿美元(CAGR 23.8%);路透社 2026 年报道美国已有 AI 手术系统错误识别人体部位导致手术失误的案例
- 临床应用三阶段:术前分析手术视频挖掘规律、术中关键步骤实时指引与违规预警、术后一键生成标准化报告
- 关键洞察:通用大模型在医疗视频理解几乎不可用(GPT-5.4 仅 16.4%),证明领域专精数据+训练策略的价值远超参数规模
- 战略转型:联影智能通过开源模型 + MedVidBench 数据集 + HuggingFace 公开排行榜,从医疗AI公司转型为领域基础设施提供者
3. 音频与3D生成
3.1 AI音频与语音合成
TTS 技术架构与产品矩阵演进
- 前沿TTS模型竞速与架构创新:美团开源LongCat-AudioDiT(1B/3.5B),绕过梅尔谱直接在波形潜空间建模;阶跃星辰发布StepAudio 2.5;小米发布MiMo-V2.5系列(含3款TTS与1款开源ASR)
- 美团LongCat性能与架构:3.5B模型在Seed-ZH和Seed-Hard测试集说话人相似度分别达0.818和0.797,超越CosyVoice3.5等竞品;采用单阶段训练达SOTA
- 美团Wav-VAE高效压缩:实现2000倍以上压缩比(24kHz原始波形压缩至约11.7Hz帧率),采用非参数捷径分支提升收敛稳定性
- 阶跃星辰三层控制体系:全局语境控制设定整体基调;文中语境逐句精准控制情绪强度与节奏;零样本复刻无需重训适配任意音色
- 阶跃星辰声音角色档案:突破单一声纹复刻,升级为包含自然语言描述及人格特质的完整角色建模,助力沉浸式内容创作
- 小米MiMo多维控制与ASR能力:TTS支持导演剧本级结构化输入与行内音频标签精准控制;ASR开源且支持中英双语、方言、歌曲及多说话人识别
- 小米TTS细分模型矩阵:包含多音色精细化控制(限时免费)、从零生成全新音色的音色设计(无需参考音频)、数秒参考音频高保真复刻三大模型
- 小米端到端多模型协作链路:MiMo-V2.5-Pro规划编剧、TTS系列音色生成、MiMo-V2.5做质检裁判,构建完整的语音创作闭环
- 自然语言成为明确控制趋势:语音合成正从“标签式”转向精细的“描述式”控制(如克制的悲伤、轻轻发颤),大幅降低非专业用户的制作门槛
- 小米实测不足提示:音色设计模型方言特征不明显,多标签段落间衔接生硬,长音频角色音色一致性偶有偏离,需持续优化
灵视P1空间相机:真实世界三维重建的硬件突破
- 产品定位:其域创新灵视P1空间相机,通过多目相机+激光雷达融合感知,配合自研3DGS技术,将现实世界自动转化为可交互、可编辑的三维数字空间「量子位」
- NAB Show横扫四项大奖:智能技术、图形特效、摄影设备、远程制作四项年度大奖,击败Adobe、索尼、富士等巨头,评审认可其在真实项目中验证过的生产方式
- 落地验证:戛纳获奖电影《狂野时代》(取景地直接扫描为三维空间)、韩国SBS新闻直播(全球首家3DGS+XR整合)、Apple TV+美剧《诊疗中》(场景提前扫描重建至LED屏实现所见即所得)
- 具身智能应用:NVIDIA GTC展示用真实场景扫描重建的三维环境替代人工建模用于机器人仿真训练;与宇树科技、云深处等具身智能公司合作提供空间感知能力
- 技术范式转移:从"记录二维影像"到"记录三维空间",真实世界从"被拍摄对象"变为"可直接被计算、编辑、复用的基础资源",开辟空间智能新赛道实现非对称竞争
| 维度 | 传统方案 | 灵视P1方案 |
|---|---|---|
| 虚拟场景来源 | 人工建模 | 真实世界扫描自动生成 |
| 成本与周期 | 高成本、长周期 | 扫描即得,大幅压缩 |
| 真实感 | 依赖建模精度 | 原生真实感 |
| 可编辑性 | 有限 | 全流程可编辑 |
Yo'City:LLM驱动的层次化无边界3D城市生成
- 核心范式:北大提出Yo'City,仅需自然语言即可从零生成可扩展3D城市,无需地图或卫星数据先验
- 层次化架构:采用City–District–Grid三级结构,将生成拆解为全局规划、局部设计、3D生成、持续扩展四阶段
- 全局规划器:LLM根据自然语言估计城市规模并识别功能区(住宅/商务/文化等),支持参考城市RAG检索和VLM解析规划图
- 局部设计:基于功能区蓝图生成网格级文本描述,细化建筑风格、地标、密度及邻接关系,同功能区多网格联合设计
- 3D生成闭环:以等距视角图像为中间媒介,通过Produce–Refine–Evaluate闭环迭代提升质量,非直接文本→3D
- 持续扩展机制:VLM分析现有城市渲染结果,构建Scene Graph刻画距离关系,通过距离—语义联合优化保持全局一致性
- 核心洞察:优势在于用LLM知识与推理能力参与城市构建的结构化规划,范式优于端到端生成
- 实验结论:在100条城市描述数据集上显著优于Trellis、Hunyuan3D等基线;消融实验证实层次化规划是性能关键
灵光App:移动端世界模型秒级3D场景生成
- 产品定位与行业竞争:蚂蚁灵光App上线首个移动端世界模型体验,上传单图秒级生成可探索3D场景;在阿里、腾讯等巨头竞争中,率先实现移动端落地抢占先机
- 底层模型与部署方案:接入开源LingBot-World-Fast模型,采用高效低延迟流式传输绕开本地算力瓶颈,实现百毫秒级响应,从触发到探索仅需秒级,4月27日上线
- 核心创新——交互降维:采用手游双摇杆(左移动/右视角),零参数零门槛,生成约10秒,将世界模型从“论文演示”降维到“手机摇杆操作”
- 生成能力与延展逻辑:基于图片的空间、物体和氛围进行延展(非简单拉伸),保持光影、氛围、空间层次及原图风格一致性,场景具备独立运动分层感
- 多场景生成质量实测:
| 测试场景 | 优势表现 | 存在不足 |
|---|---|---|
| 游戏截图(黑神话小雷音寺) | 复杂建筑结构保留,门洞景深明显,3D渲染未翻车 | 清晰度有提升空间 |
| 游戏截图(塞尔达海拉鲁平原) | 地面连续性好,光影方向一致 | — |
| 游戏截图(马里奥都市国) | 近中远景层次分明,透视正确 | 斑马线扭曲,快移时清晰度下降 |
| 真实照片(海边) | 场景完整还原,裙角飘动且海浪连续 | — |
| 风景照 | 空旷纵深感强 | 人物为主角不可穿越 |
| 中式山水 | 层峦叠嶂远近虚实保留,近树远山分层运动 | — |
| 恐龙灭绝CG | 陨石浓烟边界清晰,恐龙形态无严重畸变 | 陨石悬浮时间过长 |
- 端侧部署核心挑战:模型对GPU算力要求极高,手机硬件性能受限;实测存在约1秒操控延迟;各手机芯片差异导致适配工作量大
- 应用前景与局限:概念验证了实时生成开放世界(游戏、旅游)可能性;当前画质粗糙、操作不够流畅,快速游览时清晰度下降,定位为体验感知型产品
Marble 1.1:单图生成 3D 世界,画质与空间的两条路线
- World Labs 发布 Marble 1.1 系列:分为 1.1(画质优化)与 1.1-Plus(空间扩展)两款,定位为空间智能(spatial intelligence)技术落地
| 维度 | Marble 1.1 | Marble 1.1-Plus |
|---|---|---|
| 核心侧重 | 画质提升 | 空间扩展 |
| 光照表现 | 色彩饱满、消除前代过曝 | 色彩尚可 |
| 空间尺度 | 与输入图接近 | 显著大于输入图 |
| 画质清晰度 | 高,无明显噪点 | 略有模糊 |
| 生成耗时 | 3-5 分钟 | 约为 1.1 两倍 |
| 积分消耗 | 1,500 | 1,500 + 额外消耗 |
- 画质-空间是零和博弈:空间越大处理信息量成倍增长,画质必然下降,这是生成式 3D 的核心瓶颈
- API 策略:API 默认仍调用 Marble 1.0,后续将切换为 1.1;1.1-Plus 需额外积分消耗
- 单图即可生成可 360 度浏览的 3D 场景,室内设计、游戏场景构建、虚拟仓储等垂直场景有望率先落地
音频理解与生成大模型的技术突破
智东西(20260331) | 莫理(20260331) | 探索AGI(20260331) | AI产品银海(20260331) | 机器之心(20260422)
- 三阶段渐进训练:按文本→+时间→+音素逐阶段引入条件,避免多条件竞争,被 ACL 2026 Main 接收为口头报告
- 渐进式引导采样:扩散早期用文本+时间生成结构骨架,后期引入音素细化清晰度,与扩散"由粗到细"特性对齐
- 多层级数据体系:AudioSet-SL真实标注+仿真生成,扩展超17万条训练样本解决时间标注与语音转录数据稀缺
- 结构化提示词:CoT自动解析自然语言为事件-时间-语音统一表示,编码三种粒度信息
- 关键洞察:渐进式策略是解决多条件可控生成的通用范式,可迁移至其他缺乏细粒度标注的生成任务
- 全模态架构与性能基线:Qwen3.5-Omni 在 215/216 项音视频 Benchmark 达 SOTA,通用音频理解超越 Gemini 3.1 Pro,最高支持 256K 上下文(10小时音频/400秒视频)
- 音视频压缩效率跃升:约 7 token/s,较旧版 Flash(12.5)和 Turbo(25)分别提升 1.8 倍和 3.6 倍,使小时级音频处理具备实用价值
- 复杂音频精准解析:高噪环境下多方言混杂音频可在 10 秒内完成带时间戳的逐句转录,粤语俚语与物理音效叠加场景同样被完整解析
- 多语种与音色覆盖:支持 113 种语种方言识别和 36 种语音生成,实测音乐识别 100% 准确并具备用户画像推理能力
- 语音生成精细控制:端到端语音控制延迟 1-2 秒,支持情绪、音量、语速调节,原生具备音色克隆与交替传译能力
- 语义打断达实用级:精准区分无意识附和("嗯""哦")与真实打断指令,支持需求急转弯和数轮内的短期记忆回溯
长音视频处理实测数据
| 输入类型 | 时长 | Token 消耗 | 处理效果 |
|---|---|---|---|
| 播客音频 | 57分钟 | 24,389 token | 完整转录无遗漏 |
| 视频内容 | 5分钟 | 148,381 token | 转录至最后1秒 |
| 剧集视频 | 50分钟 | - | 约1分钟输出剧本级细粒度描述 |
MonoArt:单图渐进式推理重建可交互3D模型
- 四阶段渐进式推理:南洋理工 MonoArt 将单目可动物体重建拆解为几何恢复→部件感知→运动推理→运动学参数估计的递进链,无需多视角、资产库或 VLM 先验
- 几何恢复:以 TRELLIS(CVPR 2025)为冻结骨干,输出 canonical mesh 及 latent features,后续推理均在三维空间进行
- 部件感知:Part-Aware Semantic Reasoner 将 mesh 几何特征投影到 triplane,经 Transformer 捕捉全局结构,triplet loss 实现部件级语义聚类
- Dual-Query Motion Decoder:content query 编码部件语义,position query 编码空间运动锚点,6层迭代 refinement 中 self/cross-attention 对齐
- 关节位置残差预测:以部件质心为锚点预测偏移量,输出每个部件的 mask、关节类型、旋转轴/中心、运动范围及 kinematic tree
- 推理速度与精度:总推理 20.5s(关节推理约 2s),远快于 Articulate-Anything(229.9s)和 PhysXAnything(256.8s)
- PartNet-Mobility 基准:几何质量、关节类型预测、运动参数估计全面领先 SINGAPO、URDFormer 等方法
- 具身智能就绪:重建结果可直接导入 IsaacSim 用于机械臂仿真训练,无需额外关节标注,代码已开源
3.2 端侧智能硬件与行业应用
InfiniClaw Box:全模态端侧隐私脱敏新范式
- 无问芯穹 InfiniClaw Box:首创“本地脱敏-云端处理-本地回填”三段式架构,实现文本/图像/音频/视频全模态隐私零出域
- 本地智能脱敏:本地多模态大模型提取语义特征 + 安全知识库二次校验,自动识别姓名、手机号、身份证号、财务数据等敏感信息
- 云端隔离推理:脱敏请求接入无问芯穹大模型服务平台,云端全程不接触原始隐私数据,支持 GLM-5、Kimi-K2.5、MiniMax-M2.5、Step-3.5 多模型路由
- 本地精准回填:云端返回结果经“隐私重构引擎”位置感知精准回填,输出语义与纯云端处理完全一致,突破“脱敏即降智”困局
多模态适配与算力优化
| 维度 | 详情 |
|---|---|
| 算力优化 | 核心算子 NPU/GPU 深度优化,加速 10%-40% |
| 适配芯片 | 爱芯元智、AMD、此芯科技等国产端侧芯片 |
| 视频输入 | 家庭摄像头、智能门锁实时画面获取与分析 |
| 语音输入 | 外接麦克风语音指令精准接收 |
| 移动终端 | 手机、平板、智能眼镜跨模态任务协同 |
- Token 工厂:支持低成本调用头部模型,集成 80+ 垂类场景 Skills,提供标准化开放接口
- 团队背景:清华电子工程系团队推动,定位可托付的端侧智能生产力工具,隐私与能力解耦融合
影像自动化:从硬件到系统公司的十年演进
- 寻影(OBSBOT)定位系统公司而非硬件公司,技术三支柱(影像感知+算法决策+运动控制)一体化演进,2016-2018 三年底层积累后进入产品化
- 全球高端 Webcam 市占率超 50%,Tail 2 在美国 B&H 渠道 PTZ 品类排名第一,连续五年 50% 以上年增长
- 从边缘切入主流的时序策略:先用专业场景(综艺/电竞)验证价值再渗透大众市场,避免直面国内"过度成熟"的消费市场
- 竞争壁垒为系统壁垒+品牌壁垒(全链条能力),而非单点技术优势;日本影像公司六个月内跟进类似功能但"只能跟着走"
- 明确"不做"清单(手持稳定器、让摄影师拍更好的工具),本质往机器人方向演进——"人对影像的终极需求是内容本身,不是拍摄过程"
3.3 AI音乐生成
Mureka V9 与昆仑万维三模态矩阵
Mureka V9 核心升级与验证 昆仑万维发布基于自研 MusiCoT 框架的 Mureka V9,核心解决 AI 音乐幻觉、场景适配差、情感表达弱三大痛点,实现从工具向创作平台跨越。
- 生成效率与质量:同时生成两首歌不超2分钟,四项主观评分全面超越 Suno V5 和 MinMax 2.5;V8 已登顶 Artificial Analysis 人声、乐器双榜全球第一。
- 推理式创作:模型理解“该怎样唱、为何推进”,理解段落语义重心与演唱意图,咬字清晰度显著提升。
- 制作级混音:人声与伴奏关系高度协调,声音密度和空间感接近专业制作水准,批量生成保持多维风格变化。
- 版本化工作流:支持局部保留旋律、人声、结构进行替换和二创。
- 制作成本重构:传统专业歌曲制作成本超10万元,Mureka 降至1元,成本降幅达 99.99%。
- 科技与文化融合:2026年3月央视《焦点访谈》演示其不到1分钟将苏轼《浣溪沙》转化为男女双版本流行歌曲,验证传统文化活化产业化价值。
昆仑万维三模态矩阵与 AGI 战略
- 音乐(Mureka V9):MusiCoT 推理式创作,段落内文本控制与混音质量飞跃。
- 视频(SkyReels V4):音画原生双流 MMDiT,Artificial Analysis Arena 双赛道全球第一。
- 游戏(Matrix-Game 3.0):Memory 机制实现分钟级稳定生成,支持 720P/40FPS 实时。
- “3+1”平台架构:由全模态技术突破转向 AI 平台经济,定位全球创作者通用操作系统。
- 三大原生平台:包含 DramaWave、Mureka、猫森学园,辅以 Skywork Super Agents。
- 长远战略目标:致力于在 2028 年成为成熟的平台经济体。
MiniMax Music 2.6 核心升级与创作生态
机器之心(20260410) | MiniMax 稀宇科技(20260410) | AI新榜(20260411) | 优设AIGC(20260411) | AI大模型工场(20260415)
MiniMax Music 2.6 核心突破
- 叙事与拟真升级:实现叙事逻辑与声音拟真度,具备人类演奏呼吸感与情绪理解力,“留白”成智能标尺
- 竞争格局分水岭:跨越前代产品精准踩拍与和弦局限,转向理解文字背后情绪气质
功能与音质跃迁
- 生成延迟极速压缩:首包延迟从 30-40 秒压缩至 20 秒以内
- 三维音质升级:乐器支持扩展至 100+ 种,中低频贝斯下潜深,鼓点扎实且咬合紧密
- 人声细节拟真:保留转音、假音上行、换气声等边缘细节,趋向真实演唱状态
- 乐器时序编排:告别机械叠加,实现出场先后与留白编排(如二胡先入、古筝点缀、竹笛过渡)
- 结构精准控制:BPM、Key、段落结构均可通过 Prompt 指令控制,支持“压抑→觉醒→爆发”推进
- 情绪氛围捕捉:输入《湖心亭看雪》等纯文学无术语文本,能生成贴合文字意境的极轻人声配乐
- 风格迁移重塑:风格迁移本质是情绪气质置换(如《月亮代表我的心》转 Trip-hop 人声压暗混响拉长)
Cover 翻唱与场景应用
- Cover 降维编曲:提取旋律骨架后可自由转换风格(古典交响→赛博朋克),非专业用户半小时出作品
- 全量风格置换:保留原旋律线特征,完成编曲、演唱风格、律动质感重塑(实测《茉莉花》改摇滚、说唱改民谣达标)
- 场景化降本实证:独立游戏配乐从外包数千元降至一下午生成;咖啡馆 15 分钟搞定原创配乐免找版权
Agent 工具与商业策略
- 开源三款 Skill:minimax-music-gen(生成)、buddy-sings(角色声音)、playlist(品味画像),通过 mmx-cli 接入
- 走向 Agent 化:支持 Clawhub 部署工具到 Claude Code,扫描流媒体库构建品味画像,实现多步工作流
- 商业化与限免:C 端 14 天全球限免每日 500 首,Cover 翻唱及开发者 API 限时全量免费开放
3.4 语音识别与转写
小米 Any2Speech:从念字到导戏的范式跃迁
小米与阿里分别发布音频生成与语音识别新框架,将语音AI从"逐字朗读"推进到声学场景整体构建与多语言多方言统一建模的新阶段。
小米双框架:Any2Speech + Midasheng-audio-generate
| 维度 | Any2Speech | Midasheng-audio-generate |
|---|---|---|
| 核心定位 | 无边界长音频合成 | 沉浸式全场景音频生成 |
| 输入方式 | 多格式文档/剧本 | 自然语言描述 |
| 最大时长 | ~10分钟连贯音频 | 无明确限制 |
| 输出内容 | 多人对话、播客、广播剧 | 人声+音乐+环境音混合 |
- 场景覆盖:支持播客、相声、辩论、脱口秀、武侠广播剧等多场景多人对话生成
- 架构核心:GST三层标注体系(Global场景定位→Sentence逐句语气→Token微观表达)
- 数据策略:Labeling over Filtering,保留多人重叠、录音参差等数据转化为训练燃料
- 推理优化:双路拆分将黑盒拆解为Instruct(用户硬约束)+Think(模型自主推理)两步
阿里 Fun-ASR1.5:多语言多方言统一识别
| 指标 | 数据 |
|---|---|
| 覆盖语言 | 30种语言 + 汉语七大方言体系 + 20+地方口音 |
| 方言CER下降 | 相对下降56.2% |
| 准确率>90%方言数 | 5种 |
| 准确率>80%方言数 | 15种 |
| 古诗词字符级准确率 | 97% |
- 统一架构:MoE混合专家架构,单模型覆盖所有语言,无需为不同方言部署独立模型
- 跨语言切换:Code-Switching能力,同段对话夹杂多语言时自动识别切换,无需预设标签
- 竞品对比:西/葡/英语准确率均>96分,13种中文方言识别超越Seed-ASR和Tencent-ASR
- ITN文本归一化:口语表达(如"三千五百六十二")自动转为规范数字格式,提升文本可用性
StepAudio 2.5 ASR:MTP跨领域迁移实现极速语音转写
StepAudio 2.5 ASR 架构与性能
- 跨领域架构创新:将 LLM 推理加速技术 MTP 首次从文本生成迁移至语音识别,打破速度-精度-成本不可能三角
- 突破自回归瓶颈:一次预测多候选 Token 并行验证,结合原生 32K 上下文,单次支持最长 30 分钟音频端到端转写
- 性价比大幅跃升:运行成本骤降 80%,定价从上代 1.5元/小时降至 0.15元/小时(降幅达 90%),标志 ASR 进入性价比竞争阶段
- 推理效率全面领先:峰值速率 500 tokens/s,吞吐量提升 400%,时延降低 60%,综合表现优于 Qwen3 ASR 等同期模型
- 长音频无衰减:消除传统切片断裂问题,30 分钟满负荷长音频转写无精度衰减,5 分钟内音频实现秒级转写
综合评测表现与实测局限
- 权威评测达 SOTA:中英文多个权威开源测试集综合错误率低于同类模型,已在阶跃星辰开放平台全量上线
- 非标适配待优化:文件上传模式多次识别失败(提示未检测到清晰语音),非标准音频适配能力有待加强
- 标点预测存瑕疵:现场录音模式转写准确度较高,但会在长停顿处插入多余逗号,标点细节需进一步调优
行业关键洞察
- 跨模态复用趋势:MTP 等推理优化技术向其他模态复用已成 AI 工程核心趋势,本质是将 LLM 长程建模能力嫁接至语音任务
Fun-ASR1.5:方言与多语种统一语音识别模型
- 统一模型架构:Fun-ASR1.5 单模型覆盖 30 种语言 + 汉语七大方言体系 + 20+ 地方口音,无需为不同语言/方言部署独立模型,显著降低部署复杂度和维护成本
- 方言识别大幅提升:典型方言场景字错误率(CER)相对下降 56.2%,5 种方言准确率突破 90%,15 种超过 80%,缩小了方言与普通话识别的差距
- Code-Switching 能力:混合语种对话无需预设语种标签即可准确识别(如英日中自由切换),表明模型已具备语种无关的语音表征能力
- 古诗词专项优化:构建先秦至近代语音-文本对齐语料库,字符级准确率达 97%,对韵律、节奏等非标准语音模式具备较强泛化能力
- 后处理能力成熟:智能标点预测基于上下文语义自动插入,ITN 文本归一化将口语数字/日期/电话号码转为规范书面表达
- 核心洞察:方言识别瓶颈本质是数据稀疏而非模型架构,数十万小时真实方言数据使统一大模型即可覆盖七大方言,专属小模型路线可能被统一大模型取代
- 方言识别性能对比:
| 指标 | 数据 |
|---|---|
| 典型方言 CER 相对下降 | 56.2% |
| 准确率突破 90% 的方言数 | 5 种 |
| 准确率超过 80% 的方言数 | 15 种 |
| 覆盖汉语方言体系 | 七大方言 |
| 覆盖地方口音 | 20+ 种 |
- 可用性:已在阿里云百炼平台上线 API 服务,可通过百炼 API 或魔搭社区调用,隶属阿里通义实验室产品线
3.5 AI音频大模型架构与理解
音频贡献缺失:音频大模型后训练新范式(ICLR 2026)
港中文/蚂蚁集团提出 57 万+ 样本的 AudioMCQ 数据集,揭示音频-语言大模型普遍存在的"音频贡献缺失"现象——用静音替换音频后模型仍达 49.8% 准确率(随机猜测仅 25.5%),说明模型大量依赖文本信息而非真正"听音作答"。成因分两类:显式逻辑推理(31.1%,问题含文本线索可直接推理)和隐式知识检索(68.9%,模型已习得音频事件概率分布)。
团队首创"音频贡献过滤"(ACF)方法,将后训练数据分为弱音频贡献(54.8%)和强音频贡献(45.2%),并提出两种 SFT-RL 后训练范式:弱到强范式(MMAU 达 78.2%)和混合到强范式(MMAR 67.1%、MMSU 70.7%),核心规律是 RL 阶段必须用强贡献数据,混合数据做 RL 反而导致性能下降。该成果获 DCASE 2025 音频问答挑战赛全球第一名,数据集及模型已在 HuggingFace 和 GitHub 开源。
ElevenLabs 语音AI架构:编排瓶颈与图灵测试尚未通过的根本原因
模型架构演进:
| 阶段 | 方法 | 局限 |
|---|---|---|
| 音素拼接 | 概率预测下一音素 | 不自然 |
| 三段式 TTS | 文本→mel spectrogram→波形 | 编解码路径长 |
| ElevenLabs | Transformer+Diffusion | 缩短转换路径 |
- 与 LLM 结构相似:都预测"下一个 token",但语音预测声音单元;参数在十亿到百亿级,远低于 LLM 千亿级
- 涌现属性:口音、情绪不预设标签,由模型自主习得("Britishness 是涌现出来的")
- 可控性突破:Eleven v3(2025 年底)首次支持语速、情绪、停顿等表演指令
- Expressive Mode:voice agent 能感知对话方情绪,在语义和语音双层同时匹配
语音图灵测试未通过的根本原因:五步链路(STT→轮次判断→LLM 推理→工具调用→TTS)的核心瓶颈不在单模型能力,而在编排的低延迟协调——系统工程问题。
架构路线对比:
| 维度 | Cascaded(级联式) | Speech-to-Speech |
|---|---|---|
| 延迟 | 较高(两次文本转换) | 更低 |
| 可观测性 | 每步可审计 | 黑箱 |
| 业务逻辑插入 | 支持 | 极难 |
| 适用场景 | 企业级(合规/审计) | 伴侣型应用 |
- 重押 Cascaded:企业客户需要可见性、保护栏和审计能力;未来可能出现混合架构
数据护城河与增长飞轮:
- 标注壁垒:互联网音频泛滥但情绪、口音、韵律的细粒度标注近乎为零,自建专业团队无法速成
- STT 副产品:源于内部需求,自建后发现远超竞品,现已支持 100+ 语言
- self-serve 飞轮:新模型接近成本价开放,快速反馈暴露问题,以 distribution 驱动 land-and-expand
- 组织哲学:创始人各直接管理 15+ 人(传统 6-8 人),团队保持 10 人以下,强调高 agency
4. 视频生成商业化与生态
4.1 Sora关停与市场变局
昆仑万维 AIGC 全家桶与 SkyReels V4 全球登顶
- “3+1”AGI生态架构:昆仑万维以4个SOTA大模型为底座,支撑3大AI原生平台与1个超级智能体操作系统,目标2028年成为AI native平台经济体
- 三大模型跻身世界第一梯队:Matrix-Game 3.0(游戏世界模型)、SkyReels V4(视频大模型)、Mureka V9(音乐大模型)同台发布
- SkyReels V4登顶全球榜单:在Artificial Analysis Arena的Text to Video和Image to Video(均含Audio)赛道均列全球第一
- 平台层三大AI原生平台:DramaWave、Mureka、猫森学园,实现SOTA模型×内容生产×分发的端到端闭环
- 系统层超级智能体:Skywork Super Agents定位面向全球内容创作者的操作系统
- 战略路径:2026年全模态技术突破→平台生态构建→2028年平台经济体成熟
- 核心愿景:赋予每个创作者匹敌一家公司的全栈AI生产力,目标服务5亿内容创作者
| 模型 | 领域 | 核心架构 | 关键性能 | 技术特色 |
|---|---|---|---|---|
| Matrix-Game 3.0 | 游戏世界模型 | 带Memory机制的DiT | 5B参数,720P@40FPS实时生成 | 支持长时序游戏交互 |
| SkyReels V4 | 视频大模型 | - | 全球双赛道第一 | Text/Image to Video with Audio |
| Mureka V9 | 音乐大模型 | - | SOTA水平 | 多模态音乐生成 |
Sora关停与AI视频赛道格局重构
探索AGI(20260330) | 机器之心(20260403) | APPSO(20260405) | AI信息Gap(20260406) | 脑极体(20260410) | 雷峰网(20260421) | 硅基观察Pro(20260424) | 莫理(20260426)
- 中国资本与产品双轮狂飙:爱诗科技获3亿美元融资,生数B轮融资近20亿元估值近20亿美元,成立不到三年的生数与爱诗均已冲刺港股IPO
- 国内核心营收数据爆发:可灵2025年营收10.4亿元ARR超3亿美元,爱诗ARR超4000万美元,生数达2000万美元级别,商业模式跑通
- 短视频生态构筑核心驱动力:中国日均短视频消费129分钟(是美国2.2倍),海量下沉市场需求提供超短反馈回路,全模态架构以场景倒逼技术极速迭代
- 纯模型竞争终结:Sora单一订阅难覆盖日峰值1500万美元推理成本(总收入仅210万美元),PixVerse C1等垂直场景模型正全面替代通用大模型
- 视频模型呈分裂态:fal数据显示企业平均使用14个模型,影视、短视频、动漫等训练数据差异导致风格分化,单一输入微变即致产出大变
- 新竞争聚焦工作流与合规:场景嵌入深度、效能与授权合规成新壁垒,Topview以「先分镜后生成」流程将随机性前置,废片率从70%骤降
- 计费模式重构试错成本:按秒计费叠加高废片率致成本翻倍,订阅制(365天不限量无token计费)正让企业试错成本归零
- 巨头承接与电商核心落地:Adobe、阿里加速将能力嵌入营销系统,零模板一键生成爆款分析、分镜生成与多语言口播同步成核心变现功能
- 中美AI视频生成路径分化对比:
| 维度 | 美国实践 (Sora/Runway等) | 国内实践 (可灵/生数/快影) | Google Vids |
|---|---|---|---|
| 战略与生态 | 缺乏自有生态,通用大模型孤立且被视作负资产 | 依托庞大短视频生态反哺,聚焦零模板一键生成营销短剧 | 深度生态整合,Chrome录屏直进编辑器发布 |
| 商业化模式 | 单一订阅,营收远无法覆盖算力成本,普遍退场或停滞 | 面向多行业提供批量生成服务,订阅制跑通千万级美元ARR | 基础免费额度+AI数字人付费(19.99-249.99刀) |
| 技术路线 | 孤立视频生成支线,高管转向导致项目易夭折 | 全模态架构,聚焦垂直场景以极致实用化倒逼产品迭代 | 集成视频+音乐生成,AI数字人升级为智能导演 |
4.2 AI视频商业化应用
巨量引擎品星云:AI 营销全链路闭环
中国 AI 营销市场规模达 1800 亿元(占互联网广告 42%+)。巨量引擎「品星云」基于抖音全域生态与豆包大模型,打通"洞察-创作-投放-复盘"全链路闭环(注:核心数据未提供第三方验证)。
智能决策与策略生成
| 模块 | 功能 | 核心能力 |
|---|---|---|
| 云图 AiMars | 人群洞察与策略 | 数十万级案例训练,大白话输入即输出策略 |
| 星图小星 AI Agent | 创作与达人匹配 | 日均 500 万+内容挖掘,10 亿+搜索数据分析 |
- 云图 AiMars:多智能体动态编排,自动输出流量/转化/均衡三套差异化创作路径
- 星图小星:AI 达人将产品卖点转化为传播梗,如 Pycc 案例将香气具象化为光雾效果
内容生产革新:AIGC 重构三大创作主体
- 品牌端:AIGC 生成短剧番外,结合爆款 IP 人设突破时空限制(如开心麻花《羞羞的铁拳》)
- 用户端:AI 特效投稿占抖音 60%-70%,日均播放 70 亿+,带动 UGC 裂变超 1 万+
精准触达与互动转化
- 知意(原 AI 有刷必映):解析全链路行为与消费意图,突破静态标签局限,投后场景渗透率达 70%
- AI X 剧可点/植入:智能识别画面并无缝插入品牌内容,"剧爆则投"降低 80% 合作成本,认知度提升 25%+
- AI Agent 互动广告:信息流变品牌分身聊天室,OPPO 案例中 CTR 提升 5.7 倍,商品卡 CTR 提升 3 倍
中美AI视频商业化路径分化
- 硅谷收缩与国内爆发:OpenAI 运营 25 个月烧约 25 亿美元后关停 Sora,迪士尼合作告吹,主因腾算力备战 IPO;国内多款高性能视频模型密集发布,形成鲜明对比。
- 核心瓶颈转移至场景落地:AI视频真正瓶颈是谁用、用在何处、为何持续用,而非模型技术能力本身。
- Sora 关停教训与定位偏差:定位创作者工具导致市场天花板极低,未跑通商业化即遭关停。
- 国内路径差异与普惠路线:工具贴近普通人需求,无需懂 prompt 或剪辑,全流程自动化实现批量生产,多款产品已获可观年收入。
- 零门槛一键出片机制:用户选模板即可自动生成完整短剧,自动完成剧情、角色、分镜、画面及字幕配乐。
- AI 营销短剧成获客基建:2026年已成为各行业获客基础设施,以剧情植入替代硬广,覆盖保险、大健康、房产等多行业。
- 重点行业应用策略:保险业靠剧情反转与共情自然植入意外险;大健康将知识包装进抓马穿越剧;房产让客户代入未来生活场景。
- 应用决胜取代军备竞赛:技术参数趋同后,谁能最快把模型送到普通用户手中谁就占据心智。
- 商业路径的终极启示:追逐技术天花板虽性感,但把成熟技术打磨到普通人随手可用,往往是更可持续的商业路径。
- 阿里策略技术普惠优先:Wan2.7-Image 人类偏好盲测国内生成模型第一超 GPT Image 1.5,支持 8 色 HEX 调色、3K tokens 长文本输入及五官级人脸定制。
| 维度 | Sora | 国内产品(以千问为例) |
|---|---|---|
| 定位 | 创作者工具 | 技术普惠,直接装进 APP |
| 门槛 | 需专业 prompt | 零门槛,选模板出片 |
| 成本 | 25 个月烧 25 亿美元 | 全流程自动化,批量生产 |
| 商业化 | 未跑通即关停 | 已有多款产品年收入可观 |
AI视频端到端生产平台与电商应用
核心定位与行业洞察
- AI电商与专业影视双轮驱动:VidAU聚焦高频营销,Zopia(Utopai Studios/被硅谷对标皮克斯)定位专业AI导演系统。
- 核心壁垒从模型转向工程整合:解决角色跨镜头一致性与全链路专业工作流,产能自动化替代传统拍摄剪辑。
- 奥斯卡级背书与商业化落地:得主Roger Avary公开称赞,2024年营收达1.1亿美元,詹姆斯·哈登及Codeart团队等已采用。
模型底座与生成能力
- Zopia底层模型矩阵:整合HappyHorse、Nano banana pro、seedream 4.5等模型,有效减少逻辑碎裂与角色走脸(阿里千问可体验)。
- 多镜头连贯生成:单次至多生成16个连贯镜头,最高4K分辨率,时长3分钟,支持多比例,系统自动标记异常。
- OpenClaw自动化流:支持异步批量渲染整部剧集,可同时并行启动数十个工作流。
五阶段端到端工业化管线
- 剧本与角色设计:自动扩写剧本、生成角色三视图并锁定声线。
- 分镜生成与确认:支持单镜逐个确认后再调用底层模型,确保画面精准。
- 多集连载管理:时间轴预览与导出支持长篇连载,多集制作无需重新导入资产。
- 专业编辑与导出:支持自然语言逐帧修改,可导至Premiere Pro、DaVinci及ProRes格式。
VidAU高效电商营销功能
- 链接一键转视频:输入商品链接自动抓取图文生成解说短片,适合上新测款。
- 860+虚拟数字人:覆盖多肤色国籍,超逼真效果替代真人外模,适合跨国拍摄。
- 120+语言翻译与口型同步:单条视频快速拆分转化多语言版本,打破全球分发壁垒。
- 智能换脸+字幕擦除:支持素材二次创作与去重,降低违规风险,提升本地化效率。
专业验证与适用画像
- 实战案例验证:Codeart已产出64集《天界代购店》、60集《最强作死系统》,新用户可领100体验积分。
- 适用用户画像:跨境电商运营、短视频投放团队、多语言账号矩阵运营团队及连续短剧创作者。
可灵AI原生4K:AI视频从参考级到商业交付级的跨越
- 原生4K直出与稳定交付:输出3840×2160非拉伸画面,品牌元素与产品比例逐帧一致无漂移,跨越严审行业交付门槛
- 突破高规格商业场景:金融卡号帧级稳、科技TVC金属冷光4K长时无抖动、3A打斗角色武器轨迹清晰,满足户外大屏等正式4K交付
- 影视质感与微观真实感:攻克Lip Sync口型同步细节,多图定制长镜头画面自带说服力,皮肤纹路、毛发、瞳孔血丝等可信瑕疵呈现精准
- 重塑服装行业标准:4K分辨率是攻克面料质感的临界点,精准捕捉针织纤维、真丝光泽、蕾丝与苏绣细节,动态台步褶皱真实且零偏色
- 打破后期循环与降本增效:稳定4K素材免于后端补救让后期回归创作,单条成本12-36元,10分钟出片,效率提升90%
- 技术跃升与优化空间:评判标准从追求完美渲染转向呈现可信瑕疵,仍需优化极端光照下面料光泽、西装版型及国风刺绣工艺适配
| 维度 | 1080p时代表现 | 4K原生直出表现 |
|---|---|---|
| 画面说服力 | 需加这是参考画面前提 | 电影质感经得起推敲 |
| 特写能力 | 不敢推特写易暴露失真 | 材质颗粒与瑕疵经得起放大 |
| 后期流程 | 前端不稳致后端补救循环 | 素材稳定打通全链路创作 |
| 行业应用 | 仅限手机端与信息流可用 | 支持户外大屏等正式交付 |
| 服装细节 | 停留于电商短视频初稿定位 | 质感真实达商业严审可用标准 |
4.3 视频创作生态与行业动态
创作者生态演进与权力结构变革
AI新榜(20260330) | AI新榜(20260331) | 可灵AI(20260401) | 机器之心(20260403) | 智能涌现(20260403) | AI新榜(20260404) | 量子位(20260404) | AI故事计划(20260407) | APPSO(20260408) | 可灵AI(20260408) | AI新榜(20260413) | 硅星人Pro(20260414) | AI新榜(20260414) | "MiniMax 稀宇科技"(20260423) | 钛媒体AGI(20260423) | 可灵AI(20260428)
- AI颠覆影视准入与分工体系:瓦解决定“谁能拍”的传统体系,冲击制作工种,重构工业链条中间层,一人独立完成电影模式将成现实
- 竞争壁垒转向叙事与生命体验:工具经验贬值,内容壁垒转向生命体验厚度与叙事直觉,AI与实拍同为演绎假定情景
- 低成本爆款验证情感共鸣:《北境行者》6人18天1万元抖音3500万播;《纸手机》无真人参演全网曝光超2.3亿,获评最有人味片子
- 里程碑标杆获行业权威认可:《纸手机》等作品亮相2026北影节AIGC单元,斩获最佳长片、最佳音乐、短剧年度关注等多项大奖
- 多模态工具重构创作边界:可灵omni3支持智能分镜,口语化描述生成复杂长镜头,单镜头3至5次生成达标;各模型各司其职精细化分工
AI视频工具差异化优势对比
-
谷歌Veo:口型匹配能力强
-
可灵AI:伪纪录物质感极佳
-
Seedance 2.0:手持镜头真实感优越
-
Midjourney:生成艺术感底图
-
东方美学成出海差异化路径:水墨国风MV融合古典意蕴,《A Dollar Story》获最佳动作短片,AI公司定位创作基础设施参与者
-
情绪经济驱动IP变现与治理:2024年情绪经济规模达23077亿元;“咕咕嘎嘎”两月超5000人付款,社区视其为公共资产引收费争议
-
混合模式与人设运营构筑新壁垒:“半自动半手搓”口碑优于纯AI,AI脱口秀月涨粉18万,AI重生及公益短剧全网播放达数百万级
-
平台级生态建设与出海格局:B站与高校共建创作者生态服务超500万用户;出海呈差异化格局,欧美拉美及东南亚各具垂类受众偏爱
4.4 AI影视信任危机与行业阵痛
AI影视信任危机与创作门槛转移
- 事件始末:爱奇艺上线“纳逗Pro艺人库”被误读为形象授权,引发张若昀、于和伟等多位艺人辟谣维权,随后澄清仅为意向对接。
- 信任危机根源:技术已就绪但公众对AI替代恐惧远超实际进展,一次表述模糊即引爆全行业危机,沟通精度成平台核心能力。
- 定价对象转移:龚宇指出AI先改变内容本身,报价从20万降至200块,定价对象从生成内容转向人和团队的审美与创意。
- 门槛倒挂现象:AI将影视成本降至传统模式约10%,但未降低而是转移了创作门槛,从资金资源转向全流程把控与审美判断。
- 导演能力重塑:传统片场分工被压缩为一人多能,理想团队为4至5人单元,AI导演需前置剪辑与技术评估,审美成核心竞争力。
- 转型战略:爱奇艺首次定位“社交媒体平台”,计划2025年上线2.5万部短剧与3.5万部漫剧,创作者拥有IP资产及私域流量。
海外参照与行业博弈:
| 事件 | 核心冲突 | 应对策略 | 市场布局 |
|---|---|---|---|
| SeeDance 2.0发布 | 遭好莱坞强烈抨击 | 暂停发布后集成至CapCut | 面向非美日市场(非洲、南美、中东、东南亚) |
| 纳逗Pro艺人库 | 艺人恐慌维权,信任赤字爆发 | 紧急澄清仅限意向对接 | 强调具体授权需单独谈判,流程与传统一致 |
AI 短剧监管治理与合规挑战
- 平台治理行动加速:红果短剧下架AI短剧「桃花簪」并暂停出品方权限,Q1累计下架1718部违规漫剧;微信3月处置违规短视频3800条(仅处置1个账号),显示违规高度集中于少数创作者
- 监管进入常态化:国家广电总局部署在先、微信等平台跟进落实,形成"行政指令+平台自律"双层治理架构,微信已发布六期"AI魔改"治理公告
- 经典IP成滥用重灾区:AI换脸、改配音、篡改剧情等方式解构经典影视作品,利用其高公众认知度吸引流量传播
- 侵权认定面临技术瓶颈:AI盗脸侵权比名人换脸更隐蔽,平台对普通人肖像缺乏数据库比对能力,侵权认定仍依赖权利人主张和举证
- 治理将长期拉锯:出品方持续在改编、融合、微调方向"打擦边球"规避审核,参考"红旗法案"教训,技术治理必然经历"边发展、边治理"的博弈过程
AI短剧产业链供需悖论与价值链重构
- OPC模式主导产业链:平台提供算力按量计费及交易基建,不承担获客成本,创作者自主引流,单人浏览器内闭环生产。
- YourChannel爆款验证OPC模型:《波斯复仇记》上线72小时实现约50万美元GMV,验证独立创作者规模化变现可行性。
- 传统模式与OPC个人创作者模式对比
4.5 AI视频电商带货实操工作流与模型参数化
AI视频带货实操:模型选型与工作流闭环
| 长片 | Kling | — | 支持更长视频时长 |
双模型分工架构(最优解)
- 锁画面赋运动:Image2负责静态画面精确控制,Seedance 2.0负责运动导演,形成锁定视觉再赋予运动管线
- Topview平台整合:在同一管线整合双模型,静态生图确认后一键切换生成视频,分镜可单独修复无需整条重跑
提示词控制法则
- Image2五层架构:角色/产品→场景(物理参数光照)→构图(景别画幅)→文字渲染(字/大小/颜色/位置)→风格(仅一个主风格)
- Seedance 2.0三铁律:时长与指令密度匹配(5秒禁堆叠复杂运镜)→一个镜头只做一事(核心动作+一种运镜)→参考图堆叠按全身>面部>场景
- 反冗余原则:提示词从描述风格转向下达精确坐标指令,禁用空洞赞美词,UGC真实感来自约束而非自由
参数化批量生产SOP
- 爆款五维拆解:拆为镜头语言、场景设计、主体动作、情绪节奏、声音设计,严格标注可控参数和随机参数
- Excel矩阵量产:5人物×5场景=25组合写入参数表批量跑,10分钟出25条,比死磕单条调20遍效率高10倍
- 海量生成策略:只控镜头描述、场景变化、主体变化三件事,其余全交模型,生成20张挑5张远胜死磕调1张
四大跨境电商场景
- TikTok带货视频:6宫格分镜逐格生成视频,高效拼接为15秒内短视频
- 数字人UGC带货:替代真人达人出镜,直接实现达人成本归零
- Instagram Live图:制作1-4秒微动效(禁用缩放),增强静态图片生命力
- 品牌创意短片:有参考视频优先走Video Agent拆解生成,无参考则走双模型管线
成本结构与关键杠杆
- 成本大幅下探:通过Topview Ultra Plan降至$0.1/秒(720p),单条6秒视频成本仅$0.6
- 核心杠杆是废片率:决定最终效能的核心杠杆不是单次生成成本,而是通过管线化将废片率降至最低
竞争终局判断 AI视频生产成本趋近于零时,脚本质量即人的判断力才是唯一壁垒。最值钱的资产是提示词资产库、爆款脚本库、品类选型数据等可跨平台迁移的语料库。
5. 视频生成底层技术与工具
5.1 视频生成前沿技术
数字人与视频理解前沿
机器之心(20260331) | 极市平台(20260402) | 蓝色光标(20260408) | 财联社AI daily(20260401) | 机器之心(20260423)
-
动态CFG调制:文本音频错峰出行,早期听文本搭动作框架,中后期交音频保唇形同步
-
FramePack防漂移:推理时持续注入参考图作为身份锚点,支持30秒以上长视频生成
-
JoyAvatar-Flash应用:30FPS流式生成,支持无限时长直播,已服务超7万商家,新秀丽案例公域流量提升超60%
-
数字人交互框架UniLS(CVPR 2026):首个双轨音频端到端驱动说话与倾听面部动作,解决倾听“扑克脸”痛点
-
解耦训练策略:分离内在运动先验(无音频自回归)与外部音频调制(交叉注意力+LoRA),避免说话强监督压制倾听分支学习
-
倾听自然度刷新SOTA:FDD降至17.12,F-FID降至4.304(提升44.1%);说话精度同步SOTA(LVE 5.83、MHD 1.89)
-
UniLS高效推理:RTX 5090下达560.6 FPS(参数421.3M),代码已开源,超90%用户偏好其表情自然度与口型同步质量
视频理解模型对比
| 模型 | 核心创新 | 关键指标 |
|---|---|---|
| VideoChat-Flash | 层次化特征压缩(每帧16 token) | 万帧准确率99.1%,单张3090可部署 |
| Video-o3 | 主动感知推理:扫全局→定关键→看细节 | 推理速度提升32.9%-46% |
| UniAVGen | 音视频联合生成 | 仅130万样本,唇部同步全面超SOTA |
Veo 3.1系列分层定价
| 版本 | 分辨率 | 定价 | 定位 |
|---|---|---|---|
| Veo 3.1 | 1080p+ | 标准 | 最高画质 |
| Veo 3.1 Fast | 1080p | 中等 | 速度与画质平衡 |
| Veo 3.1 Lite | 720p | $0.05/秒 | 降本不减速,适合高批量短视频 |
- AI非遗全链条:蓝色宇宙联合双柏县推《查姆》AI短剧(首期8集),构建“采集-创作-传播-文旅”闭环
- 文旅智脑平台化:中枢系统嫁接AI伴游、文创衍生等多元应用,比单点技术输出具更高商业壁垒
InfoTok:信息论驱动的自适应视频分词
- 核心问题:传统视觉分词器采用固定压缩率,对零信息纯白边框与动态街景消耗等量 Token,造成大量计算冗余
- 核心机制:InfoTok 基于香农信源编码定理,用 ELBO 衡量视频信息复杂度,自适应分配 Token 数量(复杂多分、静态少分)
- 数学基础:期望 Token 数以熵为下界,最优分配遵循 N_x ∝ -log p(x) 原则,ELBO 路由在紧致时期望 Token 数与熵差距趋于零
- 性能突破:2.3 倍压缩率下重建质量全面超越 ElasticTok,推理速度快 11 倍;节省 20% Token 即可实现无损重建
- 基准测试:在 TokenBench 和 DAVIS 基准上的所有压缩级别中一致占优
- 即插即用:架设在 NVIDIA Cosmos Tokenizer 之上,ELBO 可从任何预训练分词器廉价计算,β 参数控制平均压缩水平
- 学术背景:斯坦福、英伟达 Cosmos 团队、新加坡国立大学联合论文,被 ICLR 2026 接收为 Oral
CoInteract:空间结构化协同生成实现物理一致的人物交互视频
- 空间结构化协同生成范式:在 DiT 骨干中引入辅助 HOI 结构流,让模型同时生成 RGB 视频与交互空间结构,从根本上解决手部畸变和物体穿透问题「极市平台」
- 双流协同架构:RGB 流与 HOI 结构流共享 DiT 主体参数,通过统一 3D RoPE 实现跨流空间对齐;非对称协同注意力训练让 HOI 结构先验在训练时蒸馏进共享参数,推理时完全移除 HOI 分支实现零额外计算开销
- 人体感知 MoE:四专家模块(Shared/Head/Hand/Base)通过空间监督路由分配 token,面部和手部专精专家以仅 1.04× 推理成本解决解剖学敏感区域生成瓶颈
| 专家模块 | 功能定位 | 隐藏维度 |
|---|---|---|
| Shared Expert | 通用特征快捷通道 | 原始维度 |
| Head Expert | 面部高频细节专精 | 256 |
| Hand Expert | 手指关节与握持姿态专精 | 原始维度 |
| Base Expert | 躯干与背景处理 | 原始维度 |
- 性能全面超越:交互合理性指标 VLM-QA 达 0.72,超越 SkyReels(0.54)33%,用户盲测三项维度均排名第一;消融实验证实 HOI 结构流贡献最大(移除后 VLM-QA 暴跌 33%)
| 方法 | VLM-QA↑ | HQ↑ | FaceSim↑ |
|---|---|---|---|
| SkyReels | 0.54 | 0.694 | 0.678 |
| AnchorCrafter | 0.50 | 0.620 | 0.572 |
| CoInteract | 0.72 | 0.724 | 0.696 |
- 关键启示:结构先验嵌入优于后处理修复,非对称蒸馏是零成本获取结构知识的关键设计,可迁移至其他需要辅助监督的生成任务
原生音视频同步生成:双流DiT联合建模与毫秒级对齐
-
双流DiT联合架构:视频与音频各自保持独立自注意力,通过双向交叉注意力跨模态通信,结合时间一维RoPE保障帧级对齐;起于独立高斯噪声并行去噪后,经各自VAE解码器重建为像素与波形
-
VAE双通道并行:采用视频VAE(3D编码器压缩时空表示)与音频VAE并行压缩声学特征,统一框架处理异构数据
| MoE策略 | 路由粒度 | 适用场景 | 代表模型 |
|---|---|---|---|
| 词元级MoE | 单个输入词元 | 空间/时间复杂度不均区域 | — |
| 时间步级MoE | 去噪时间步 | 高噪声阶段(布局)与低噪声阶段(细节)分工 | Wan 2.2 |
- 免训练对齐与微调:同步引导技术(推理阶段修改匹配流损失,放大运动剧烈区域权重)无需重训即可提升口型;LoRA注入注意力层助纯视频模型适应音频任务;MMAudio用Synchformer帧级对齐音视频表示;起音检测器借视觉线索预测声音事件时间戳并注入主干
| 评估维度 | 核心指标 | 衡量内容 |
|---|---|---|
| 视频质量 | FVD | 生成特征与真实视频分布差异 |
| 视听时间同步 | DeSync | 基于Synchformer量化秒级时间错位 |
| 视听空间对齐 | 空间AV-Align | 声音是否源自正确空间位置 |
| 音频质量 | FAD / KAD | 生成音频与参考音频分布差异 |
-
前沿挑战:人类可察觉25ms音视频错位,毫秒级同步为核心瓶颈;现有指标无法充分捕捉感知同步质量,评估体系亟需迭代(FAD忽视立体声);流式生成需因果时间建模,KV缓存成长序列瓶颈
-
应用落地:视听世界模型从纯视觉转向包含声音的生成式模拟器,基于画面深度合成房间混响,为具身智能体提供声学导航环境;Google Veo 3制作含对话配乐的电视广告;OmniHuman-1从单图+音频生成带手势的全身说话视频;Adobe Firefly一键生成踩点背景音乐;ElevenLabs提供游戏NPC低延迟实时语音
5.2 长视频与多镜头生成
OneStory:自适应记忆驱动的多镜头视频叙事
- 核心范式:将多镜头视频生成重构为 next-shot 自回归任务,基于已生成镜头逐个生成后续镜头,而非一次性输出
- 模型初始化:以预训练 image-to-video 基础模型初始化,统一支持 text-to-multi-shot 与 image-to-multi-shot 两种模式
- 自适应记忆双模块:Frame Selection(语义驱动筛选历史帧)+ Adaptive Conditioner(重要性感知的 patch 粒度压缩)
| 现有方法 | 固有缺陷 | OneStory 对策 |
|---|---|---|
| 固定窗口法 | 窗口滑动后丢弃早期镜头信息 | Frame Selection 语义筛选,实现全局上下文建模 |
| 单关键帧法 | 难以传递复杂叙事细节 | Adaptive Conditioner 动态分配 patch 粒度 |
- 压缩策略:重要信息保留细粒度 patch,次要信息强压缩,在不显著增加计算成本下实现全局跨镜头上下文建模
- 叙事一致性:保持人物身份、环境主体、故事主线三类跨镜头一致性;空间定位在大全景→特写切换时保持角色位置准确
- 数据构建创新:放弃"总脚本+分镜头"格式,仅保留带前文指代关系的分镜头 prompt,本质是教会模型"前文指代"这一叙事核心能力
- 训练-推理流程:训练时以前两个 shot 为条件生成第三个 shot,推理时按 shot-by-shot 逐步自回归推进
- 泛化与鲁棒性:支持外观变化(如换装)下的人物一致性保持,在 out-of-domain 场景中展现良好泛化能力
- 关键洞察:跨镜头叙事的核心瓶颈在信息筛选与压缩效率而非生成能力本身——记住什么比记住多少更重要
- 出处:Meta 与哥本哈根大学联合提出,收录于 CVPR 2026(arXiv:2512.07802),第一作者安照崇
FreeLOC:无需重训练的长视频推理校正(CVPR 2026)
西湖大学张驰团队提出 FreeLOC,通过推理阶段对 Transformer 不同层做分层自适应修正,无需重训练即可提升长视频生成质量。长视频退化的根因是两类 O.O.D 问题:位置 O.O.D(帧间相对位置改变)和上下文 O.O.D(attention entropy 升高、注意力分散)。
- 两大核心模块:TSA(时序选择性注意力)控制上下文长度并保留长程关联,VRPR(多粒度位置重编码)替代截断/分组处理
- 分层策略是关键:逐层探测敏感度后按层分配模块,而非统一处理
| 配置方式 | 图像质量 | 美学质量 |
|---|---|---|
| TSA 单独 | 65.87 | 57.05 |
| VRPR 单独 | 61.88 | 54.13 |
| TSA + VRPR 统一处理 | 65.19 | 56.34 |
| FreeLOC(分层适配) | 67.44 | — |
| 随机分配 | 63.90 | — |
- 跨模型验证:Wan2.1-T2V-1.3B 和 HunyuanVideo 上,4 倍长度(321/509 帧)图像质量领先 Direct 8.2 分,美学领先 11.8 分
- 动态程度差距达数量级,且视频越长优势越明显
- 关键洞察:长视频退化本质是 O.O.D 而非模型能力不足,推理修正可替代重训练;逐层探测思路可迁移至长上下文 LLM 和图像生成优化
MagicWorld:光流约束+历史记忆破解视频世界模型长时稳定性
MagicWorld(浙大+vivo蓝图实验室)针对视频世界模型长时间自回归生成中的误差累积问题,提出光流约束+历史记忆+多步训练联合框架,在 RealWM120K-Val 评测达 0.8547(最高),推理延迟 15 秒。核心解决运动漂移与长时不稳定问题。
- 光流运动保持:在 latent 空间利用光流进行帧间 warping 对齐,高运动区域赋更大权重
- 历史缓存检索:将 latent 特征写入缓存池,通过相似度匹配选取历史状态注入当前生成
- 多步聚合训练:模拟完整多步交互 rollout 后聚合蒸馏损失,引入视觉+运动双奖励加权
- RealWM120K 数据集:以全球多城市街景视频为主体,配有多模态标注与深度图
OmniRoam:轨迹可控的长视频生成新范式
OmniRoam(UC Irvine、UC San Diego、CityU HK、UPenn、Adobe Research 联合研究)提出轨迹可控的长视频生成范式,核心突破是从"片段生成"走向"连续过程生成",在 641 帧长视频条件下验证有效性,轻量级预览模型约 7 秒生成 81 帧全景视频。
全景视频统一表示
- 消除视角自旋转:引入 canonical panoramic coordinate system,仅保留平移分量简化轨迹建模
- 全局空间约束:全景表示提供稳定空间基准,作为长视频一致性的结构基础,解决透视表示的结构漂移
两阶段生成架构
| 阶段 | 功能 | 关键技术 |
|---|---|---|
| Trajectory-Controlled Preview | 路径规划与场景结构确定 | 轨迹解耦为 flow(方向)与 scale(步长)独立建模 |
| Long-Horizon Refinement | 高分辨率长视频生成 | visibility mask 选取锚点,各 segment 独立生成后拼接 |
- 轨迹解耦优势:方向与步长分离比直接预测相机位姿更利于梯度传播
- 误差累积缓解:各 segment 独立高分辨率生成,支持从低分辨率到 720p 提升
评测体系与关键指标
- loop consistency:要求沿闭环路径生成后回到起点且保持中间过程合理变化
- 评测维度:通过 CLIP 相似度衡量长期空间记忆能力,构建真实与合成结合的全景视频数据集
核心洞察与应用潜力
- 一致性优先于长度:长视频生成的核心矛盾是"一致性"而非"长度"
- 设计分离关注点:两阶段框架分离路径规划与视觉质量,全景表示消除视角自旋转提供稳定基准
- 3D 重建潜力:生成视频可提取关键帧输入 3D Gaussian Splatting 进行场景重建,支持交互式应用
5.3 视频编辑与自动化创作工具
Freebeat AI:音频一键转视频MV的创意工具
- 音频转MV自动化:Freebeat AI 核心能力是音频节拍分析与视觉画面自动同步,将视频制作从降维为音频驱动的自动化流程
- 精准节拍对齐:AI 自动识别音乐节拍与重低音鼓点,画面转场与音频逐帧精准对齐,解决音画同步核心难点
- 角色一致性方案:上传参考图锁定角色形象,解决 AI 视频人物一致性痛点,支持虚拟歌手、IP 连载等场景
- 多模型聚合策略:后台集成 Runway、Kling 等十余个主流 AI 视频模型,单一入口覆盖写实/赛博朋克/电影感等多种风格
- 歌词自动提取:一键提取人声并生成带特效的歌词排版,省去手动字幕工作
- 快速产出:单支视频产出约 3 分钟;支持粘贴音乐链接一键出片,无需本地导入
目标用户与场景
| 用户类型 | 核心诉求 | 应用场景 |
|---|---|---|
| 独立音乐人 | 零剪辑基础出 MV | 新歌发布配视觉 |
| 自媒体创作者 | 音频配画面提升传播力 | 播客/音频内容可视化 |
| 营销团队 | 快速产出宣传物料 | 替代高价外包 |
CutClaw:多智能体协作的视频自动剪辑系统
CutClaw 是基于多智能体协作的 AI 视频自动剪辑系统,能根据一句自然语言指令从数小时原始素材中生成专业级短视频,并实现画面切换与音乐节拍的精确同步。代码已全面开源(GitHub: GVCLab/CutClaw),论文编号 arXiv:2603.29664。
四智能体协作架构
| 智能体 | 职责 | 核心能力 |
|---|---|---|
| Playwriter | 全局叙事规划 | 以音乐结构为时间锚点分配场景,对齐用户指令与画面 |
| Editor | 逐帧精细检索 | 在局部素材池中执行细粒度检索与微调(FGST) |
| Reviewer | 多标准审查门控 | 审计主角存在率、视觉美感、不重叠约束,不合格打回重选 |
- 技术路径:采用自下而上的分层架构,将长视频转化为结构化场景片段与音乐段落,突破 MLLMs 上下文窗口限制
- 视听同步突破:首次将音乐节拍结构(Downbeats、Pitch Changes、Spectral Energy Changes)作为时间锚点融入剪辑决策,无需人工打点即实现画面切换与节奏严密同步
- 碾压级评测表现:24 小时素材基准上,2000 份盲测获 49.8% 视觉质量投票和 53.0% 视听和谐度投票(得票率达第二名两倍以上),48.8% 用户认为其剪辑质感“非常像人类专业剪辑师”
- 关键洞察:多智能体分工将复杂联合优化拆解为编剧-剪辑-审核流水线,既解决计算瓶颈又模拟专业剪辑团队工作流程,近半数用户无法区分 CutClaw 与人类剪辑师作品
Buzzy:对话式视频精修工具与Agent灵感系统
- 三代产品迭代:ZMO.ai(2021,AI模特图/GAN,MAU 700万但付费低)→ Creati(2024.4,图片+视频创作,ARR 2000万)→ Buzzy(AI视频编辑Agent)。
- 创始人及团队:CEO Ella Zhang(张诗莹)为AirPods创始团队核心成员,曾任Google AR产品系统架构师;核心团队来自Adobe、小米、商汤。
AI视频Agent:Buzzy核心能力
- 定位:AI视频界的Photoshop,核心能力是通过自然语言对话精准修改已有视频(非从零生成),支持多轮精修、元素增删、运镜重塑等。
- 编辑能力与技术亮点:支持一句话替换指定物体(反光/液体/动作保持物理一致);连续对话调整光影(全局自适应联动);平稳航拍改穿越机(支持Motion Blur);单机位补多视角(灯光/服装/细节对齐)。
- Agent灵感系统:滚动即提示(Scrolling is the New Prompting),丢视频链接自动解析风格与运镜;基于语义匹配,7×24全平台扫描学习偏好。
Buzzy vs Runway Aleph(2025.7)对比 | 维度 | Runway Aleph | Buzzy | | 核心思路 | 一句话改视频(开创者) | 一句话改视频(完整实现) | | 单次时长 | 最长5秒 | 更长(未披露上限) | | Agent能力 | 无 | 全平台素材扫描+风格匹配 | | 实用性 | 几乎为零 | 已开放公测 |
目标用户与商业模式
- 目标用户策略:放弃结款周期长且倾向自研的B端大客户,聚焦“大C小B”(C端创作者+中小商户),视频比图片传播力更强、需求更刚性。
- 移动端优先战略:解决非专业用户创作场景在移动端但工具集中在PC端的痛点,Buzzy提供App实现从素材到编辑再到发布的全链路手机闭环。
- 商业模式范式转移:现阶段靠订阅覆盖Token消耗;未来Agent覆盖创作全流程后转向效果分佣制;用户沉淀的审美与工作流可抽象为可交易的Skill资产。
- 行业判断:视频编辑交互正从工具操作转向自然语言对话;AI视频竞争焦点从生成质量转向编辑精度,解决“最后5%”方能掌握主动权;注册即送1000积分。
6. 多模态模型底座与训练推理加速
6.1 图像生成底层技术与推理加速
扩散模型缓存与推理加速策略
- 核心创新:MeanCache 首次将扩散模型缓存推理从依赖波动剧烈的瞬时速度,转为采用更稳定的平均速度
- 技术桥梁:引入雅可比-向量积(JVP)与起点锚定恒等式,利用前步信息修正瞬时速度,无额外推理开销
- 调度优化:将推理过程建模为多重图寻优问题,通过峰值抑制最短路径算法自适应求解最优缓存策略
- 生成加速表现:
| 模型 | 加速倍率 |
|---|---|
| FLUX.1[dev] | 4x |
| Qwen-Image | 4x |
| HunyuanVideo | 3.6x |
- 工程落地:框架免训练且轻量化,已支持 ComfyUI 工作流,获阿里 Z-Image 团队官方推荐
- 学术传承:前作 LeMiCa(NeurIPS 2025 Spotlight)解决缓存基础问题,MeanCache 重点攻克高倍率加速时的轨迹漂移
- 核心挑战:工业推理预算仅20-30步,现有特征缓存在低步数下因特征相似性下降导致纹理错乱与颜色漂移
- TC-Padé框架(阿里安全+浙大):用Padé有理函数替代泰勒多项式预测层间残差,低步数大跨度间隔下稳定性更优
- 步感知策略:早期保留完整计算避免过度外推,中期用Padé逼近预测,后期捕捉细粒度变化趋势
- TSI动态判别:轨迹稳定性指标自动判断是否跳过计算,平稳时加速、不稳定时恢复完整推理
- 无需训练即插即用:可与量化技术叠加;已被CVPR 2026录用,已应用于阿里安全大规模合成训练样本
跨任务性能对比
| 任务 | 模型 | 加速比 | 关键指标表现 |
|---|---|---|---|
| 文生图 | FLUX.1-dev | 2.88x | FID/CLIP接近原始,PSNR/SSIM/LPIPS优于对比方法 |
| 视频生成 | Wan2.1-1.3B | 1.72x | 保真度显著优于已有缓存方法 |
| 类别条件生成 | DiT-XL/2 | 1.46x | 质量保持稳定 |
C²FG:时间自适应 Classifier-Free Guidance 动态引导
- C²FG零成本适配:不改变模型结构与训练流程,仅修改推理阶段引导计算方式,实现即插即用。
- C²FG理论证明:理论证明score差异随扩散时间呈指数衰减,理论契合实际动态调整需求。
C²FG核心实验数据
| 模型/场景 | 指标 | 原方法 | C²FG | 变化幅度 |
|---|---|---|---|---|
| SiT-XL/2 | FID | 1.80 | 1.51 | ↓0.29 |
| SiT-XL/2 | IS | 284.0 | 315.0 | ↑31.0 |
| DiT-XL/2 | FID | 2.29 | 2.07 | ↓0.22 |
| DiT-XL/2 | Recall | 0.57 | 0.59 | ↑0.02 |
| 512×512高分辨率 | FID | 6.81 | 6.54 | ↓0.27 |
| U-ViT文生图 | FID | 5.37 | 5.28 | ↓0.09 |
- C²FG少步数优势:20步低计算预算下提升比50步更显著,兼顾生成质量与推理效率。
- C²FG多维度提升:不牺牲Precision换取Recall,跨文本生成图像、像素空间等多任务泛化有效。
- C²FG极限与兼容:极限场景下叠加interval guidance,SiT-XL/2 FID从1.42进一步降至1.41。
CFG-Ctrl核心机制与表现
- CFG-Ctrl定义:清华团队(CVPR 2026)将CFG定义为控制理论问题,引入switching与滑模控制实现非线性反馈。
- CFG-Ctrl参数设计:利用参数λ控制收敛方向,参数k控制纠正力度,纠正线性误差放大并确保系统稳定。
- CFG-Ctrl指标表现:多指标(FID/CLIP等)同时提升,打破图像质量与语义对齐的互斥矛盾。
- CFG-Ctrl跨模型验证:在SD3.5、Flux及Qwen-Image验证有效,且模型规模越大优势越明显。
关键洞察
- 机制驱动趋势:生成模型竞争正从规模驱动转向机制驱动,动态引导精细化设计是低成本高回报方向。
6.2 闭源多模态模型发布与行业动态
闭源多模态模型能力跃迁与行业冲击
- 原生多模态架构:文本图像语音预训练共享高维特征免转文字,VCoT实现视觉空间思考,预训练/RL/测试推理实现可预测Scaling。
- 核心能力展示:视觉定位已推送生产环境;工具调用输入照片33秒生成通关游戏;多智能体并行推理处理复杂科数问题。
- 产品集成矩阵:Instant日常快速对话,Thinking深度推理分析,Shopping读取浏览行为生成推荐。
- Benchmark争议:HLE得分58%、FrontierScience 38%,宣称对齐竞品;未开源且被指过度优化,遭Chollet公开质疑牺牲可用性换分。
- 团队与战略:前OpenAI华人科学家组建核心团队;扎克伯格定调Llama 4溃败系基建失败全盘推翻,刻意走闭源小巧路线。
- GPT Image 2泄露:文字渲染等四维度超越前代,中文精准度引发截图危机;DALL-E 2/3将于5月12日停服。
- Claude Design冲击设计:Opus 4.7对话生成可交互原型支持多格式导出,AI替代效应传导至资本市场,Figma股价当日下跌6.84%。
- π0.7验证VLA泛化:仅5B参数通过Prompt展开四层指令结构,组合原子技能解决新任务,开箱即用追平微调专家模型。
- 机器人半马提速:冠军成绩从2小时40分压缩至50分26秒,26品牌300余台参赛,冠亚军差距仅30秒。
- 高德ABot全栈开源:世界/导航/操作三模型加Harness架构,首创物理硬约束与双引擎自进化,WorldArena超Veo 3.1达10%。
- OpenAI GPT-Rosalind:专攻蛋白质化学推理与基因组分析,目标将药物研发周期缩短10-15年,首批合作安进与莫德纳等。
- 群核科技港股上市:成“杭州六小龙”首家IPO企业,印证中美AI分化:美国贴近虚拟世界,中国贴近物理世界。
- 智谱AutoClaw自进化:对话后自动扫描经验经审批写入记忆,进化频率每周1-3次;Skill商店同步上线覆盖全文档场景。
6.3 大模型预训练与推理新范式
Muse Spark 技术架构:预训练重构 + RL 规模化 + 推理优化
- 预训练重构:底层彻底重建技术栈(架构+优化+数据),同等性能计算量比 Llama 4 Maverick 减少一个数量级以上,预训练、RL、测试时推理三条线均实现可预测 scaling
- RL 规模化:RL 计算量增加时首选正确率和 16 次尝试成功率呈对数线性增长,在未见测试任务上泛化能力同步提升,且未丧失推理多样性
- 思考时间惩罚触发相变:模型先长时间思考提升能力,再学会"思想压缩"用更少 token 解题,压缩后进一步扩展思路获得更强性能
- 多智能体并行协作:通过扩展并行智能体数量(非单一智能体延长思考)处理难题,相同延迟下多 agent 并行性能超越单 agent
- VCoT 视觉思维链:将思维链推理引入视觉空间,模型在图像中自主构建视觉元素间的空间和逻辑关系
- Contemplating Mode:对标 Gemini Deep Think / GPT Pro,后台多并行子 agent 处理不同维度由主控融合结果,HLE 达 58%,FrontierScience 达 38%
- 端到端训练路径:预训练→ RL→ 产品部署持续学习,对应 school→ homework→ on-the-job training
- 编程能力差距:SWE-Bench 对比落后于 Opus 4.6 和 GPT 5.4,推理和编程仍有提升空间
- 闭源策略转向:Meta 从 Llama 开源路线转向闭源 Muse 家族,仅 meta.ai 和 Meta AI 应用内可用,未开放 API
6.4 多模态视觉模型训练与推理加速
扩散模型后训练加速与自纠正策略
Sol-RL 与 SOAR:扩散模型强化学习后训练技术
- Sol-RL 双阶段解耦策略:重新定义 FP4 为 RL 探索代理,通过“探索”与“训练”精度解耦提升效率。
- Sol-RL 第一阶段:NVFP4 生成大规模候选池并排序筛选种子,实现高吞吐计算。
- Sol-RL 第二阶段:BF16 仅对筛出种子重生成高保真样本完成策略优化,开销仅约2%。
- Sol-RL 性能表现:等效 reward 收敛提升4.64x,rollout 加速2.41x,在 SANA 等模型优于基线。
| 评估指标 | 基线 SFT | SOAR | Flow-GRPO (RL) |
|---|---|---|---|
| GenEval | 0.70 | 0.78 | — |
| OCR | 0.64 | 0.67 | — |
| Aesthetic | — | 5.94 | 5.87 |
| CLIPScore | — | 0.300 | 0.296 |
- SOAR 技术定位:腾讯混元提出的数据驱动后训练方法,无需奖励模型,直接提取轨迹纠正信号。
- SOAR 核心诊断:SFT 遇早期偏移易失效,RL 丢失中间步骤信号,数据利用率是模型上限瓶颈。
- SOAR 自纠正流程:偏离模拟→构造辅助点→解析纠正目标,实现最高数据利用率与在线自适应。
- SOAR 性能表现:基于 SD3.5-Medium,在无奖励模型下全面超越基线与 RL 方法,主客观评测均提升。
- SOAR+RL 组合策略:先用 SOAR 稳定轨迹防崩塌,再做 RL 偏好探索,避免直接 RL 导致的多维崩塌。
- 适用扩展范围:SOAR 机制可广泛应用于图像、视频、3D 及更广义的世界生成模型。
- 开源信息:Sol-RL 论文 arXiv: 2604.06916,代码已开源;SOAR 论文 arXiv: 2604.12617,相关资源均已开源。
Monet:MLLM 隐式视觉推理范式(CVPR 2026)
- 首次实现 MLLM 在连续隐空间进行视觉推理,无需外部工具,通过生成隐式视觉嵌入在 CoT 中内化视觉思考(基于 Qwen2.5-VL-7B 训练)
- 分布内任务提升 3%~9.75%,分布外抽象推理提升 2.31%,论文已被 CVPR 2026 录用,团队来自北大与 Amazon AGI SF Lab
技术挑战
- 监督信号获取困难:辅助图像 token 数量庞大(成百上千),直接对齐计算开销极高,现有方案被迫压缩至约 10 个 token,导致细粒度信息丢失
- 隐式嵌入难被真正优化:SFT 可被记忆绕过,GRPO 无法计算隐式嵌入生成概率,导致重要性采样权重缺失
核心训练框架
- 三阶段 SFT 训练:①预热(学会利用辅助图像)→ ②对齐隐式嵌入与辅助图像(受限注意力掩码+梯度仅回传至隐式嵌入)→ ③脱离辅助图像独立生成
- 提出 VLPO 算法,解决 GRPO 无法对隐式嵌入施加奖励信号的缺陷,假设采样阶段隐式嵌入服从高斯分布,正确答案最小化 L2 距离
- 构建 Monet-SFT-125K 数据集,经三阶段校正:筛基模型错题→筛强模型凭辅助图像答对题→闭源模型标注关键视觉 token
测试时缩放定律
- 分布内任务:Monet-SFT 即展现隐式嵌入数量增加性能持续上升趋势
- 分布外任务:仅 VLPO 训练的模型展现缩放趋势,暗示强化学习对泛化能力的独特价值
范式意义
- 从工具调度到内化思考的跃迁:常规 SFT 和 GRPO 均无法有效优化隐式嵌入,揭示现有 MLLM 处理非文本模态推理的系统性盲区
- 论文已开源(arXiv: 2511.21395),覆盖裁剪、标定、辅助线等多种视觉操作类型
HERMES:层次化KV Cache记忆实现流式视频理解10×加速
- 核心思路:将KV Cache重新建模为层次化记忆系统,按解码层差异化偏好分配保留策略,无需额外训练或查询时检索即可实现实时视频问答「机器之心」
- 分层注意力偏好机制:浅层(感官记忆)按时间新近性保留;中层(工作记忆)平衡新近性与注意力分数;深层(长期记忆)按查询注意力重要性保留锚点帧
- 三大关键组件:分层KV Cache管理(替代统一淘汰)、跨层记忆平滑(深层→浅层传播重要性信号)、位置重索引(流式用惰性、离线用即时)
- 性能表现:Qwen2.5-VL-7B在StreamingBench提升+6.13%,开放式问答最高提升11.4%;256帧下TTFT约28ms,相比StreamingTOM实现约10× TTFT加速;减少68%视频token仍保持可比性能
- ACL 2026主会录用,training-free、plug-and-play设计,在Qwen2.5-VL-7B/32B、LLaVA-OV-7B等多基座模型上验证通用性
6.5 图像生成策略优化与强化学习对齐
强化学习驱动的图像生成策略优化与对齐
机器之心(20260409) | 机器之心(20260410) | CVer(20260412) | AIGC开放社区(20260424)
- 退火两阶段训练:第一阶段联合优化AR与漂移场,第二阶段冻结AR仅优化漂移场,实现零额外开销复用熵计算。
跨范式MDP动作空间设计
| MDP要素 | 扩散/流模型 | 掩码生成(MaskGIT) | 自回归(VAR) |
|---|---|---|---|
| 状态 | 当前步+部分去噪图像 | 当前步+部分token | 当前步+已生成token |
| 动作 | ODE时间步+引导尺度 | 掩码比例+采样/掩码温度+引导尺度 | 温度+Top-K/P+引导尺度 |
| 状态转移 | ODE求解器(确定性) | 随机采样 | 自回归采样(随机) |
| 奖励 | 仅最终步评估图像质量 | 仅最终步评估图像质量 | 仅最终步评估图像质量 |
性能突破与基准对比
| 模型架构 | 步数 | GenEval | HPSv3 | 性能增益/加速倍数 |
|---|---|---|---|---|
| SD3.5-M基础 | 80步 | 0.63 | — | — |
| Z-Image原始 | 100步 | 0.66 | 7.32 | — |
| GPT-4o | — | 0.84 | — | — |
| TDM-R1+SD3.5-M | 4步 | 0.92 | — | 质量颠覆性提升 |
| TDM-R1+Z-Image | 4步 | — | 9.90 | 质量颠覆性提升 |
| AdaGen四大范式 | 自适应 | — | — | 17%-54%提升或1.6x-3.6x加速 |
| MAR/TransDiff等 | 少步 | — | — | 3.8–5.5×加速,FID/IS反升 |
| 反对称漂移场 | 1-NFE单步 | — | — | FID 1.57,与20步基线持平 |
核心洞察与消融验证
- 调度优于架构:生成瓶颈在策略调度而非模型能力,极低额外计算即可撬动显著增益。
- 对抗奖励建模:引入判别器与策略网络博弈,有效防止刷指标或样本同质化问题。
- 消融实验验证:移除熵参数化致FID从1.57升至1.72证实其关键性;项目已在6B参数Z-Image验证并开源。
6.6 视觉分词器与基础表征预训练
连续分词器极致压缩:双空间协同架构破解后验坍塌
- 研究背景:复旦大学浦剑团队提出 MacTok,入选 CVPR 2026 Highlight,共同一作为曾恒宇和高鑫
- 核心问题:连续分词器在极度压缩下面临强 KL 正则化,编码器向先验妥协产生后验坍塌
- 关键洞察:坍塌根源是缺乏语义引导,无需 CFG 或更改原生架构,注入强语义即可破解优化怠惰
- 图像空间:采用混合掩码(随机+语义),优先遮挡高语义区域,最优比例约 70%以防像素填补
- 表征空间:采用局部 Patch 对齐与全局 CLS 对齐,与图像掩码协同构建鲁棒潜在空间,阻断坍塌
- 极致压缩:单 token 信息密度高,实现 64 倍压缩,MacTok-128 无需改架构即可匹敌主流 1024 基线
性能对比数据
- MacTok-64 (256×256):64 token,gFID 1.44,优于 SoftVQ-VAE (3.65)
- MacTok-128 (256×256):128 token,gFID 约 1.42,逼近 REPA (1024 token)
- MacTok-64/128 (512×512):64/128 token,gFID 1.52,IS > 306.0,同量级领先
TIPSv2:密集 Patch-Text 对齐的视觉语言预训练突破
- 核心突破:谷歌 DeepMind 提出 TIPSv2,解决密集 Patch-Text 对齐问题,在 9 项任务、20 个数据集上全面领先,论文被 CVPR 2026 接收,Apache 2.0 开源。
三大技术创新
- iBOT++:将 Patch 级损失从 Masked Tokens 扩展至所有 Tokens,ADE150 零样本分割 mIoU 从 3.5 飙升至 17.6(+14.1)。
- Head-only EMA:仅对投影头执行 EMA 更新,冻结视觉骨干 EMA,大幅降低十亿参数级训练显存开销。
- 多粒度文本描述:随机交替粗粒度 Alt-text、细粒度 PaliGemma 密集字幕与全局深度 Gemini Flash 描述,防止模型走捷径。
反直觉发现与参数对比
- 反直觉发现:小参数学生模型在密集图文对齐任务反超大 6 倍教师模型,根源在于对可见 Patch 的显式监督。
| 对比维度 | DINOv3 | TIPSv2 |
|---|---|---|
| 教师模型参数 | 6 倍 | 1 倍 |
| 图像数据量 | 15 倍 | 1 倍 |
| 共享评估胜负 | 赢 2 项 | 赢 4 项 |
- 跨模型对比:TIPSv2-g(1.1B)击败参数多 56%、训练数据多 47 倍的 PE-core G/14。
开源矩阵与配套能力
- 模型矩阵:全面覆盖 86M/303M/412M/1.1B 四档参数,均基于 ViT 架构,提供 PyTorch 与 Jax 双框架。
- 配套能力:额外开源 DPT 预测头,支持深度估计(NYU Depth V2)、表面法线、语义分割(ADE20K)即插即用。
- 实机演示:HuggingFace 提供零样本分割、深度与法线预测 Demo。
6.7 阶跃 Step Image Edit 2:轻量级图像编辑模型训练范式
多专家自演化学习与分布匹配强化学习(DARL)
核心突破
- 3.5B 参数量在 KRIS-Bench 轻量级图像编辑模型综合排名第一,超越 12B-20B 级开源模型,单次生图 0.5-2s
- 支持中英文文字渲染、局部编辑、视觉推理、主体一致性、风格迁移
三大训练创新
| 机制 | 核心思路 | 解决问题 |
|---|---|---|
| 多专家自演化学习 (MESE) | 衍生多个细分任务专家分支差异化训练→迭代自蒸馏聚合回基座 | 不增参数实现能力非线性跨越 |
| 分布匹配强化学习 (DARL) | 将模型输出分布与参考分布全面对齐,替代单点奖励信号 | 传统 RL 奖励稀疏方差大 |
| 三级数据质控 | 智能体自动清洗→大模型全局评估→人工精细筛选 | 训练数据质量与分布达标 |
数据工程
- 图像编辑专项数据超 5000 万条(真实场景挖掘+定向合成+高质量开源)
- 文字渲染专项数据 2000 万条(自研排版系统生成),攻克行业文字编辑难点
7. 3D生成与空间技术
7.1 3D生成与空间计算
3D世界生成技术突破与产品进展
新智元(20260405) | 机器之心(20260408) | AI有道(20260410) | 腾讯混元(20260416) | 量子位(20260416) | 财联社AI daily(20260416) | AI前线(20260416) | 智东西(20260416) | 智东西(20260416) | 钛媒体AGI(20260416) | 量子位(20260417) | APPSO(20260417) | 机器之心(20260418) | 袋鼠帝AI客栈(20260418) | JackCui(20260418) | 特工宇宙(20260424) | 新智元(20260426)
- 技术范式重构:Yoroll 颠覆传统流程,通过视频/世界模型先生成 3D 可探索空间,再叠加交互与分支系统构建可玩产品
- 自然语言驱动:Vibe Coding Agent 将开发压缩为单句输入,自动完成场景、角色创建与运行验证,一周产出百万播放爆款
- 双模型与双模式:世界与互动视频模型结合实现电影感与玩法深度;提供最长3分钟文本控制的导演模式与1分钟WASD漫游模式
- 模型矩阵与定价:Marble 1.0主打低成本(150 c)极速测试;1.1主打高画质(1500 c);1.1-Plus支持大空间与可变计费,当前面临画质与空间的零和博弈
- 双输入与编辑:支持上传图视全景或内置 Chisel 定义布局,提供全景编辑与 Expand 无缝扩展,1.1-Plus 扩展约需 10 分钟
- 实测优缺表现:跨场景角色稳定、镜头物体不漂移、指令响应快;但移动旋转卡顿、存物理 bug、导出声音丢失,社区开分5.7
- 架构核心突破:海量长视频训练抗漂移、文本等信号在线注入降开销、统一音视频框架联合生成;几何路由与自增强训练抗空间遗忘
- 混元技术演进:1.0开源至2.0生成完整资产,引入归一化编码与深度法线耦合监督,结合双记忆机制与3DGS/Mesh混合表征
- 四大赛道分化:模拟器(Genie 3)、画质、开源资产(混元2.0)、实时艺术控制(HappyOyster)等,对应视频、工业、具身等不同商业逻辑
- 英伟达Lyra突破:三步流水线实现单图生成持久交互世界,性能全面超越基线,资产直连Isaac Sim用于机器人训练
- 产业阶段瓶颈:目前处于潜力可见但距商用远的GPT-4阶段,核心瓶颈是物理一致性与长时间生成的逻辑连贯性
- 开源生态战略:混元与Lyra等全开源策略,本质是让开发者围绕其硬件与物理引擎构建应用,定义世界生成的基础设施标准
7.2 3D资产骨骼绑定与动画化生成
AI驱动的骨骼绑定与蒙皮生成技术
-
核心痛点:传统方案将骨骼与蒙皮拆分孤立模型,骨骼缺乏形变感知导致关节穿模,串行拼接易产生误差累积
-
S³ Fields统一表示:将几何、骨架、蒙皮置于共享空间联合生成,从根本上消除传统串行方案的误差累积
-
统一生成架构TokenRig:骨骼拓扑与蒙皮权重在同一Transformer中顺序生成,彻底消除多阶段信息断层
-
两阶段生成:先构建稀疏骨架脚手架确定结构,再补全高分辨率几何与动画细节
-
两大关键模块:置信度衰减骨骼场显式建模边界歧义,对偶蒙皮场将权重与关节数解耦实现跨类别泛化
-
离散化方案:采用FSQ-CVAE将高维连续蒙皮权重矩阵压缩为离散Token序列,把回归问题转化为序列预测
-
实验对比:
| 方案 | 骨架拓扑正确性(GW距离) | 蒙皮精度(Skin KL) |
|---|---|---|
| AniGen(统一生成) | 显著领先 | 显著领先 |
| TRELLIS*+UniRig(串行管线) | 基线 | 基线 |
-
量化效果提升:统一生成架构使蒙皮准确率相比现有孤立模型方法大幅提升98%~133%
-
无标注自迭代:引入GRPO强化学习,基于几何与物理奖励函数在无标注数据上微调,骨骼预测性能再提升17%~22%
-
GRPO奖励函数优化目标:
| 奖励函数 | 优化目标 |
|---|---|
| 体积关节覆盖率 | 确保关节位于网格体积内合理位置 |
| 骨骼-网格包围度 | 骨骼结构贴合模型表面几何 |
| 蒙皮覆盖率与稀疏度 | 权重分配精准,避免过度平滑 |
| 形变平滑度 | 保证运动形变自然连续 |
- 泛化能力:覆盖人物、动物、植物、卡通角色、机械臂等多类别,统一网络无需按类别切换
- 核心洞察:3D AIGC竞争焦点转向可交互对象,联合生成优于串行拼接,可驱动结构比外观几何更具实际价值
- 开源信息:代码已在github.com/VAST-AI-Research/AniGen开源,同步提供HuggingFace在线Demo体验
7.3 单图/文生3D模型资产与商业化
Hi3D:单图生成打印级 3D 模型
AI信息Gap(20260401) | AI产品银海(20260413) | 趣谈AI(20260413) | 火山引擎(20260424) | 探索AGI(20260427)
- 核心性能与规格:最高支持1536³分辨率(约36.2亿体素)与200万面高精模型。业内唯一支持文生、单图及多视角图生3D,兼容T/A-Pose姿态、PBR材质、4K纹理及边界框尺寸约束。
- 输出格式与切片对接:原生支持多格式直出,单色打印选STL,全彩打印选OBJ+贴图,GLB用于网页预览,FBX用于游戏,USDZ用于苹果AR。支持一键发送至Bambu Studio等主流切片软件。
- 生成模式与效率:提供通用、人像、纹理单生、浮雕及自动拆件分色打印五档模式。v2.1生成提速且含3次免费重试:纯几何约2分钟,几何+纹理约5分钟,成本仅为传统建模1%。
- 切片格式适用场景对比:STL适用单色打印;OBJ+贴图适用全彩打印;GLB适用网页预览;FBX适用游戏动画;USDZ适用苹果AR。
- 体素精度应用对比:512³适用游戏低模与快速预览;1024³适用一般3D打印;1536³ Pro专精精密零件、艺术雕刻与模具制造。
- 算法与自动补全:采用Sparc3D稀疏卷积与3D VAE,结合多视角先验与原生扩散映射消除误差。仅上传正面照,AI即可推断生成连贯的360°背面细节,实现不可见区域补全。
- 编辑生态与全链路闭环:支持Blender插件上色修改、部件分割与快速复用。打通从图片上传、建模、格式转换到切片软件对接的完整闭环,大幅降低普通人操作门槛。
- 打印成本控制:AI模型默认实心,10cm实心人偶代加工约105元(0.35元/克)。通过切片软件执行壁厚2-3mm的“抽壳”操作,重量骤减,费用可省大半。
- 主流方案竞争对比:Hi3D/Hitem3D无需修模即可生产;Midjourney几何精度不足;Meshy细节偏软;Tripo3D偏向动画游戏;传统投影贴图背面易错位,Hi3D纹理与几何同步生成无此问题。
- 实测验证与行业痛点:成功打印马克杯杯口把手、木质图腾镂空无锯齿、半透明花瓶分离光照及硬币浮雕精密螺纹等微小结构。直击2025年3D打印设备产量激增带来的模型供给不足痛点,已上线火山方舟平台。
Seed3D 2.0:Coarse-to-Fine 几何生成与统一 PBR 纹理架构
字节跳动Seed(20260423) | 火山引擎(20260423) | "财联社AI daily"(20260423)
- 两阶段 DiT 几何生成:粗糙阶段生成拓扑布局,精细阶段引入局部先验与体素化位置编码恢复薄壁及锐利边缘,结构推断能力优异。
- 统一 MMDiT PBR 纹理生成:升级双流统一架构与 MoE 稀疏路由,引入 VLM 先验解决多解性,精准区分多材质属性并清晰还原图文符号。
- 材质边界优化:显著提升金属-粗糙度边界精度,直接改善 PBR 材质在光照下的真实感表现。
- 人类盲评 SOTA:60位专业评测员约200用例盲测,几何与带材质端到端生成偏好率均超50%,纹理偏好率达69%+,全面超越6个主流模型。
- 部件级与具身智能拓展:支持功能性分割补全、关节类型识别及运动范围优化,后续支持多自由度关节绑定,输出 URDF 兼容 Isaac Sim 物理仿真引擎。
- 场景组合生成:文本输入由微调 LLM 推理布局,多视角视觉输入由深度估计与实例分割布局,逐个生成内容并按空间关系组合。
- API 商业化与工程部署:Seed3D 2.0 API 已上线火山引擎面向开发者开放调用,技术报告同步公开,策略类似 OpenAI Sora 直接跳过开源社区阶段。
7.4 AI 3D 商业化生态与行业演进
AI 3D 商业化标杆与行业演进
硅星人Pro(20260403) | Z Potentials(20260410) | 硅星人Pro(20260423) | 机器之心(20260427) | 量子位(20260427)
- 极致生成精度:Meshy 6达扫描资产级,面部肌肉与衣物褶皱精准,硬表面锐利;55%模型零瑕疵,原生支持3MF多材质。
- 极致降本增效:一站式全链路覆盖从白模到动画打印。传统外包耗时2周且需1000美元,现仅需2分钟和1美元,切片通过率高达97%。
- 游戏工业化标杆:三七互娱采用分部件生成,高模完成度超60%,基础雕刻工作量减30%-40%,休闲资产周期缩短50%。
- 3D打印链路打通:与拓竹、创想三维等批量签约;MakerWorld已接入实现直接打印,打通从AI生成创意到实体交付的闭环。
- 平台化第二曲线:软硬件双向解耦演进为生成基础设施;“创意工坊”实现建模到全球发货闭环,从纯订阅转向平台抽成。
- 行业态度拐点:GDC 2026标志行业从抵触恐慌转向务实探索,核心问题已从“要不要用AI”变为“怎么用”。
- AI重塑团队结构:4人团队借多个AI agents并行推进,工作流每隔1-2月重构一次;AAA大作继续存在,中间层被AI小团队取代。
- 基础设施与瓶颈:单次生成从数分钟压缩至2秒,付费转化率升至近10%;但推理成本未近零前,大众UGC生态无法真正爆发。
- 客户结构质变:腾讯、字节跳动等大厂开始在实际AI-native工作流中使用产品,标志从实验期正式进入落地期。
- Viggle爆发式增长:上线4个月Discord社区450万用户、官网600万访问,高峰期每秒超50视频请求,增速超当年Midjourney。
- 产品哲学与飞轮:“Serious Tech, Silly Fun”严肃底层技术驱动低门槛娱乐,通过Discord
/mix秒级生成与TikTok梗引爆增长。 - 3D生成技术架构:World Token编码空间位置与物理关系,数据驱动学习规律,端到端支持生成、编辑与交互一体化。
- 创始人能力矩阵:Viggle楚航深耕3D生成11年,曾任职Google等大厂,创业3年打造JST架构;Meshy胡渊鸣兼具图形学、物理仿真与AI建模能力。
- 当前挑战与边界:复杂拓扑等工业级精度仍显不足,3D训练数据存量较小,大众消费级真实刚需尚待进一步验证。
8. 视频生成平台工具与创作工作流
8.1 视频生成工具与 Agent 客户端
nexu:首批接入 Seedance 2.0 的开源 Agent 客户端
开源AI项目落地(20260402) | GitHubDaily(20260402) | 逛逛GitHub(20260402)
- nexu 是首个接入字节跳动 Seedance 2.0 API 的开源 Agent 桌面客户端,用户在微信/飞书等 IM 中发一句话即可触发视频生成,5-15 分钟返回成品
- Seedance 2.0 核心能力:多模态融合输入、精准多镜头调度、原生音画同步、2K 电影级画质,物理一致性高(人物行走、水流方向符合真实规律)
- 解决排队痛点:替代即梦平台排队 7-8 小时及第三方中转不稳定体验,将视频生成门槛降至“发微信消息”
| 维度 | 详情 |
|---|---|
| 开源协议 | MIT,完全免费 |
| 聊天渠道 | 微信、飞书、Slack、Discord、WhatsApp、Telegram |
| 模型服务商 | Claude、GPT、Gemini、DeepSeek、MiniMax、GLM、Ollama 本地部署 |
| 技能库 | 10000+ Skills,覆盖写作、编程、日历、搜索、多维表格 |
| 隐私策略 | 数据 100% 本地存储,不经第三方服务器 |
| 运行平台 | macOS、Windows |
- 典型场景:电商产品宣传片、内容博主短视频、独立开发者 App 演示视频制作
- 技术栈:基于 OpenClaw 框架封装,TypeScript 实现
Buzzy:对话式AI视频编辑工具
Buzzy(buzzy.now)定位"AI视频界的Photoshop",通过自然语言对话精准修改已有视频,核心是将视频编辑交互从工具操作转向对话范式「AI信息Gap」
| 编辑维度 | 能力描述 | 技术亮点 |
|---|---|---|
| 元素替换 | 一句话替换指定物体(如圆木→iPhone) | 物理规律一帧不崩,反光/液体/动作保持一致 |
| 多轮精修 | 连续对话逐步调整光影、质感、细节 | 全局自适应联动(侧光切入后衣物阴影同步变化) |
| 元素添加 | 向画面添加霓虹灯、积水倒影等 | 新元素"生长"在物理世界中,非贴图叠加 |
| 运镜重塑 | 平稳航拍改为穿越机俯冲等动态镜头 | 支持Motion Blur等电影级效果 |
| 多视角补拍 | 单机位视频一句话补出另一机位画面 | 灯光/服装/人物细节完美对齐 |
- Agent灵感系统:用户将TikTok/Instagram视频链接丢给Buzzy,Agent自动解析风格、运镜、节奏,基于视频语义搜索匹配而非关键词,7×24全平台扫描并推送匹配素材
- 竞争对比:Runway Aleph(2025.7)首次提出"一句话改视频"概念但实用性极低(最长5秒、无Agent能力),Buzzy已开放公测且支持更长时长
- 行业趋势:视频赛道竞争焦点从生成质量转向编辑精度,解决"95%完美视频的最后5%"成为关键;CEO Ella Zhang此前产品Creati一年获1000万用户
HeyGen Hyperframes:HTML 动效渲染为视频的开源 CLI 工具
HeyGen 开源视频渲染框架 Hyperframes,核心能力是将纯 HTML 动效渲染为视频,面向开发者和 AI Agent 设计,实现全链路自动化视频生产。
HTML 原生视频描述体系:用 data-* 属性管理时间轴、轨道和元信息,开发者零额外学习成本
本质是视频编排层:不绑定单一动画系统,支持多种前端框架直接接入
| 支持框架 | 用途 |
|---|---|
| GSAP | 高性能时间轴动画 |
| Lottie | AE 导出矢量动画 |
| Three.js | 3D 场景渲染 |
| CSS Animations | 原生关键帧动画 |
完整渲染管线:HTML/CSS/JS 源码 → 逐帧渲染 → 编码视频,内置音频混合,附带可视化编辑器 UI
确定性渲染:相同输入→相同输出,支持批量生成和 CI 渲染,使视频生产从“手艺活”变为“工程流程”
面向 AI Agent 深度适配:CLI 默认非交互式、参数驱动、纯文本输出,可被 Codex/Claude Code/Cursor 直接调用
自动化工作流:静态照片 → AI 编码器生成 HTML 动效 → Hyperframes 渲染视频 → AI 视频模型生成人脸出镜口播,零人工介入
定位为 Remotion 替代方案:直接支持原生 HTML + 多种动画库(Remotion 基于 React),渲染管线更完整
提供 50+ 模板:涵盖转场、社媒组件、数据图表、视觉特效,支持链接/PDF/文档/表格等多格式素材输入
迭代可控:对不满意部分直接用自然语言指令修改(如“加背景音乐”),类似 AI 写代码的交互模式
模型选择影响输出质量:实测中 CodeX-GPT-5.4 在美感上不如 Claude 和 Gemini
关键洞察:HTML 作为视频中间表示是 AI Agent 自动化视频生产的关键突破点,绕开传统非线性编辑软件的 GUI 交互壁垒,确定性渲染为规模化内容生产奠定工程基础
Utopai PAI:端到端全链路视频生成管线
- 五阶段端到端管线:剧本解析→角色设计→多镜头生成(最多16镜头/4K)→多轮编辑→专业格式导出
- 跨镜头一致性突破:角色/场景/风格全程连贯,渲染后系统自动标记连贯性问题
- 首个获奥斯卡背书的AI视频工具:Roger Avary公开站台,标志AI视频从单镜头炫技进入连贯叙事制作阶段
- 商业验证:2024年营收1.1亿美元,哈登等明星IP已使用,硅谷将其对标皮克斯
- 核心差异化:自研全链路管线而非单一工具,支持Premiere Pro、DaVinci Resolve、ProRes等专业格式导出
8.2 Seedance 2.0 与 LibTV 平台生态
Seedance 2.0 技术突破与 LibTV 平台生态
哩布哩布AI(20260330) | 甲木未来派(20260401) | 火山引擎(20260402) | 花叔(20260402) | 开源AI项目落地(20260402) | AI范儿(20260403) | AI异类弗兰克(20260403) | 船长AI视界(20260403) | AI产品银海(20260410) | AI信息Gap(20260411) | 莫理(20260411) | 优设AIGC(20260412) | 公子龙(20260412) | AI寒武纪(20260413) | 火山引擎(20260414) | 财联社AI daily(20260414) | AIZ小朱(20260415) | 量子位(20260417)
多模态生成与视听叙事突破
- 原生多模态架构:非拼接管线实现音视频同步生成,支持四模态输入,避免串联损失。
- 跨镜头连贯性:服装、发型、面部无突变,长镜头可作参考无缝延长并继承前序动态。
- 叙事与运镜控制:支持铺垫快切与长镜头高潮,全能参考允许同时引用角色、场景与道具。
| 满血版 vs Fast版 | 叙事智能 | 视听运镜 | 选版策略 | 定价差异 |
|---|---|---|---|---|
| 满血版 | 主动补充节奏升华指令 | 复杂运镜流畅转场自然 | 正式交付、复杂运镜 | 基准价(如LibTV 216积分) |
| Fast版 | 机械执行缺乏主动叙事 | 偏塑料感转场生硬易出错 | 简单场景及快速预览 | 便宜15-17%(如LibTV 176积分) |
商业落地验证与成本优势
- 生成效率跃升:首曝率90%(行业20%),15秒镜头平均3次抽卡,漫短剧提效80-90%并降本70-90%。
- 极低生成成本:约0.35元/秒(官方三分之一),TVC制作从周/万级降至分钟/咖啡级。
- 标杆商业案例:总台春晚、北影节42秒一镜到底宣传片、贾樟柯短片及OPPO宣发(60h破2000万播)。
- 四大商业场景:主播口播带货、服装风格一键切换、场景适配、人物替换,直投ROI极高。
双路径合规与角色资产化
- 真人人像授权:活体检测与人脸比对,一次验证终身复用,沉淀为主播形象资产。
- AI虚拟角色:上传图片秒级合规检验,自动拦截知名IP与海外影视角色防范伪造。
- 官方公测门槛:真人功能需千万框架金额加百万保证金,普通创作者借第三方使用。
API生态接入与多模型集成
- 后期与模型矩阵:内置Topazlabs实现4K放大与120fps补帧,集成Kling等多模型覆盖全链路。
- 开放与生态工具:火山引擎公测预置超1万虚拟人像,BytePlus覆盖100多国;LibTV等开源工作流。
- 产业与团队规模:豆包日均Token破120万亿,技术由171人团队(吴永辉主导)研发。
具身智能延伸
- 数据生成应用:数十家头部企业采用生成机器人作业交互数据,支持暴雨大雾等极限工况。
8.3 AI短剧与漫剧工业化平台及产业链
AI短剧与漫剧工业化全流程方法
AIZ小朱(20260330) | 昆仑万维集团(20260331) | AI产品银海(20260402) | AI异类弗兰克(20260403) | 卡尔的AI沃茨(20260404) | 优设AIGC(20260404) | 卡尔的AI沃茨(20260407) | AI大模型工场(20260408) | 特工宇宙(20260408) | 小互AI(20260413) | 船长AI视界(20260413) | 莫理(20260415) | 路人甲TM(20260415) | 船长AI视界(20260415) | 摸鱼小李(20260416) | APPSO(20260419) | 网罗灯下黑(20260419) | AI异类弗兰克(20260420) | 商汤科技SenseTime(20260421) | 曼话AI(20260421) | TRAE.ai(20260422) | 商汤科技SenseTime(20260429)
- 北影节赛事成果:《我合成了全世界》获最具商业价值奖,《家规七则》获最佳叙事创新奖;签约导演@编导李让作品《告别》社媒播放量过亿。
- 创作门槛与成本断崖式降低:AI将创作瓶颈从技术转向导演思维与审美,配合即将上线、支持精细融合编辑的画布功能,创作自由度全面升级。
- 行业应用向多元获客扩展:AI短剧全面渗透保险、大健康、教培与美业,成功将传统科普内容转化为高完播率的商业获客工具。
AI短剧平台核心能力对比
| 平台 | 核心特色 | 价格优势 | 关键技术 |
|---|---|---|---|
| 商汤Seko | 创编一体,1080p满血版 | 标准月会员39元 | 多参考链路推理+三大模型调度 |
| 天工短剧 | 智能分镜跳过传统环节 | 效率升500%成本降80% | 角色多视图推理+四模态输入 |
| 纳米漫剧 | 线性流水线工业化量产 | 定价低即梦VIP通道14% | 30分镜5分钟并发生成 |
| 剧火AI | 剧本中心与自动审查 | 零门槛全额垫付算力 | 8-11项检查自我博弈优化 |
| AniShort | 双轨并行多人协同 | - | 8组分镜并行10余分钟完成 |
| Flova | 主角跨镜头换脸优化 | - | 周期压缩至小时级 |
| OiiOii | 群聊式Agent协作 | - | 内置7个专业Agent |
全景取景法与传统逐张生成对比
| 维度 | 传统逐张生成 | 全景取景法 |
|---|---|---|
| 场景一致性 | 差,每张独立生成易偏移 | 高,同一张图截取 |
| 光影连贯性 | 难以统一 | 自然统一 |
| 操作成本 | 反复抽卡筛选,无限游戏 | 一次生成多次取景,有限游戏 |
剧本中心与镜头中心生产范式对比
| 维度 | 传统AI视频工具 | 剧本中心工具 |
|---|---|---|
| 创作范式 | 镜头中心,逐镜头从零开始 | 剧本中心,自动解析分镜序列 |
| 工序流程 | 抽图/视频/剪辑/配音独立操作 | 设定图+剧本直接生成,自带音效 |
| 角色获取 | 每次抽卡生成,成本高 | 公共虚拟演员库,精选形象选用 |
8.4 AI视频与漫剧创作全流程工作流实操
AI视频与漫剧创作全流程工作流实操与案例解析
船长AI视界(20260330) | APPSO(20260331) | AI大模型工场(20260331) | 卡尔的AI沃茨(20260331) | 船长AI视界(20260331) | 哩布哩布AI(20260401) | AI信息Gap(20260402) | AI产品银海(20260402) | AI寒武纪(20260402) | 公子龙(20260402) | 路人甲TM(20260402) | 哩布哩布AI(20260402) | 火山引擎(20260402) | 船长AI视界(20260401) | 优设AIGC(20260402) | 沃垠AI(20260402) | 探索AGI(20260402) | 莫理(20260402) | 小互AI(20260402) | 开源AI项目落地(20260402) | AIZ小朱(20260402) | 阿枫科技(20260402) | 网罗灯下黑(20260402) | GitHubDaily(20260402) | 逛逛GitHub(20260402) | 船长AI视界(20260402) | 袋鼠帝AI客栈(20260403) | JackCui(20260403) | 特工宇宙(20260403) | APPSO(20260404) | APPSO(20260404) | 船长AI视界(20260404) | 曼话AI(20260405) | 卡尔的AI沃茨(20260407) | 阿枫科技(20260406) | 优设AIGC(20260407) | 优设AIGC(20260407) | 苍何(20260406) | 琢磨事(20260407) | 莫理(20260407) | AI产品银海(20260407) | AI新榜(20260415) | 莫理(20260420) | AI新榜(20260421)
AI漫剧迈入质量与价值深化期,核心瓶颈在场景优化、道具一致性与叙事创意。2025年市场预计达168亿元,AI渗透率提至85%,成本降幅超50%,叙事与创意已成产业核心护城河。
全栈技术与效能突破
- 全栈架构:覆盖模型底座、增强组件、场景方案、服务API、低门槛平台与多级用户的完整生态
- 多模态跨越:支持四模态混合输入,实现多镜头叙事、原生音画同步及2K电影画质输出
- 生成效能:底层优化打破排队瓶颈,单条15秒视频2-3分钟出片,成本降幅达30%
- 生图跃升:GPT Image 2实现高精度文字渲染与风格泛化,无乱码直出复杂排版,进入实用阶段
- 工作流革新:Agent支持无限画布打破工具孤岛,开源部署极速化,桌面级部署压缩至3分钟
平台生态与商业化
- 创作分工:脑洞型LLM主导情节,视频生成受图文约束,后期仍依赖人工节奏把控
- 角色与光影:三视图及主体库彻底解决一致性痛点,10种影视级光影模板提升电影质感上限
- 商业化定价:首月积分体系下视频低至0.24元/秒,豆包日均Token消耗突破120万亿
- 创作者生态:超5000名创作者贡献技能包,个人可凭免费额度低成本跑通工业化全流程
生产范式与场景对比
- 参考生vs图生:参考生四步走,主攻大动态与角色一致性;图生六步走,适用低动态与远景空镜
- 工业化转型:沉淀标准资产转向IP驱动,13人传统团队重构为15人多线并行组,创意价值最大化
- 标准化工具链:可灵、Seedance与Suno等工具串联,单人单月即可产出百万播放级完整科幻短片
- 爆款可复制性:经典IP缝合、反差重塑与AI配音成二创公式,单系列轻松斩获近千万级播放
- 应用双面性:AI核心在于降低门槛而非替代专业制作,当前道具生成一致性与爆款逻辑仍未稳定
- 认知与叙事:流量存亡设定映射注意力经济,真人假扮AI走红,大众期待正从“绝对完美”转向“类人”
9. 3D底层技术与空间重建
9.1 3D重建与动作生成
DancingBox:一台手机捕捉任意物体角色动画
DancingBox 获 ACM CHI 2026 最佳论文提名,首次实现仅用一台手机 RGB 相机对任意物体进行动作捕捉并生成高质量骨骼动画。
核心优势:无需专业动捕设备和演出团队,新手可短时间完成创作。传统方案一段 15 秒动画往往需迭代数天。
系统输入:普通相机(手机)+ 地面标定物(如平坦板)+ 任意演出物体。
技术架构分两模块:
| 模块 | 核心技术 | 输入 | 输出 |
|---|---|---|---|
| MoCap(粗略捕捉) | SAM2 + CoTracker3 + π3 | 2D 物体视频 | 3D 包围盒运动序列 |
| MoGen(精细生成) | ControlNet + MDM | 包围盒序列 | 精细骨骼动画 |
MoCap 工作流:首帧用 SAM2 分割物体部位 → π3 逐帧生成 3D 点云 → CoTracker3 提取帧间追踪关系 → SVD 分解求解包围盒序列。
关键创新——包围盒桥接策略:以包围盒运动序列作为中间表示,解决视觉信号(点云)与动捕数据(骨骼)之间无法直接配对的数据稀缺问题。
MoGen 训练细节:基于 HumanML3D 动捕数据集,从骨骼动画计算包围盒序列,加入随机放大/缩小/丢弃及速度/位置噪声模拟真实场景。训练 ControlNet 向预训练 MDM 注入控制信号,参考 PointNet 用平均与最大值运算保证特征顺序无关性。
代码已开源(GitHub: YYYYYHC/DancingBox)。
M4Human:毫米波人体3D感知基准与隐私友好建模
- M4Human:首个大规模毫米波人体mesh重建基准,999段序列、661K帧、20人、50类动作,开放原始雷达张量(RT)与点云(RPC),配高精度MoCap标注
- RT-Mesh baseline:首次从原始雷达张量直接恢复人体mesh,cross-subject MVE达135.1mm,延迟仅2.74ms,约2.6 GFLOPs满足实时需求
- 原始信号优于后处理:RT在跨受试者/跨动作泛化场景比RPC更稳定,提示雷达感知应重视端到端原始信号建模
- 模态互补而非替代:高分辨率radar-only已超过RGB、接近depth,Depth+RT和RPC+RT融合均带来进一步收益
- 现有数据集三大瓶颈:标注仅停留在skeleton级、动作分布单一缺非原地动态、缺失原始雷达张量
- 隐私友好核心优势:毫米波不记录外貌、对光照不敏感、部分遮挡更稳健,适用智能家居、医疗康复等场景
FloodDiffusion:流式动作生成首次追平非流式SOTA
盛大AI研究院(东京)与东京大学联合提出 FloodDiffusion,首个基于定制化扩散强制的流式人体动作生成框架,入选 CVPR 2026 Highlight。
- 基准成绩逼近非流式SOTA:HumanML3D 上 FID 达 0.057,文本-动作对齐 R@1/2/3 全面最优,与 MoMask(0.045)差距极小
- 推理延迟仅1帧:固定大小活动窗口实现恒定计算开销,支持无限长序列实时流式生成
三项定制化技术改进:
| 改进 | 机制 | 消融验证 |
|---|---|---|
| 下三角时间调度 | 确定性噪声调度替代随机调度,前方帧已完全去噪 | 数学保证流式推理与完整扩散模型似然一致 |
| 窗口内双向注意力 | 活动窗口内采用非因果掩码 | 移除后 FID 从 0.057 飙升至 3.377,R@3 从 0.810 降至 0.625 |
| 连续时变文本调节 | 逐帧文本条件注入,旋转位置编码对齐时序 | 同一文本不同时刻输入产生不同动作 |
隐空间设计:因果 VAE 将 263 维动作压缩至 4 维隐空间(下采样因子4),基于 Wan2.1 适配;DiT 去噪器共享时间嵌入
- 训练-推理完全一致:通过下三角调度和逐帧文本注入从根本上消除不一致,无需推理时手动刷新
- 解决分布坍塌:原始扩散强制直接用于动作数据会坍塌,下三角调度+双向注意力缺一不可
3DReflecNet:非漫反射材质3D重建超大规模基准
- 数据集规模:3DReflecNet含22TB数据、12万+PBR合成实例、1000+真实扫描、700万+多视角图像,覆盖9类语义与22种物理材质
- 算法性能断崖:透明材质NVS的PSNR跌至17-21 dB(漫反射>36 dB),ROMA特征匹配AUC从62.6%骤降至32.1%
- 失效根因:简化特征匹配逻辑与全局光线传输机制的结构性冲突,而非调参或特征提取能力不足
三类材质失效机制
| 材质 | 破坏假设 | 算法表现 |
|---|---|---|
| 弱纹理 | 几何特征假设 | SfM无匹配点,MVS代价体积失判别力 |
| 高反光 | 光度一致性 | 高光点被误认为几何特征 |
| 透明 | 极线几何(光线直线传播) | 三角测量基础崩溃 |
物理参数影响规律
- 粗糙度主导:48种参数组合实验表明,粗糙度是重建质量绝对主导因素,折射率影响微弱
- 全局退化不可逆:引入金属或透明属性导致全局性退化,无法通过参数调优弥补
数据构建管线
- 资产生成:扩散模型生成网格并赋予物理属性,实现无限扩展
- 位姿解耦法:高纹理底座锁定外参 + SAM2分割剥离背景,解决极端材质追踪难题
- 演进方向:现有重建范式已达天花板,未来必须向融合全局光线传输方向底层演进
9.2 3D渲染引擎与底层技术
Spark 2.0:Web端大规模3D高斯泼溅渲染引擎
量子位(20260415) | APPSO(20260415) | 机器之心(20260415) | 智东西(20260415) | 财联社AI daily(20260415) | 极市平台(20260415) | AIGC开放社区(20260417) | AI寒武纪(20260418)
- 核心架构:基于Three.js+WebGL2的3D高斯泼溅(3DGS)渲染引擎,融合连续LoD、流式加载、虚拟内存三项技术,在浏览器端实现超1亿泼溅的跨设备流畅渲染。
| 对比维度 | 传统PLY | SPZ格式 | Spark .RAD格式 |
|---|---|---|---|
| 存储与压缩 | 行式无压缩,10M点超2.3GB | 列式+Gzip,约200MB | 列式+分块可扩展压缩 |
| 加载方式 | 需全量下载 | 需全量下载 | 支持随机访问与渐进流式加载 |
| 渐进体验 | 无 | 无 | 首帧瞬间下载64K块显示粗糙轮廓,Web Worker并行拉取细化 |
- 渲染机制:用数百万半透明椭球体替代三角网格,携带坐标、缩放、颜色等属性,按画家算法由远及近排序混合绘制。
- 连续式LoD:构建LoD泼溅树按预算动态切片,消除离散LoD视觉跳变;内置Tiny-LoD(轻量快速)与Bhatt-LoD(高精度)双算法,均无训练依赖。
- .RAD流式格式:四维结构(三维空间+细节层次)递归划分,元数据JSON索引支持按需加载,按视角动态优先获取可见区域细节。
- 虚拟显存管理:预分配固定1600万泼溅GPU内存池,以6.4万为页单位,LRU策略换出旧块,支持无限大场景防OOM崩溃。
- 统一渲染管线:跨对象全局splat列表生成,CPU双通道基数排序,单条实例化绘制指令一次性渲染,解决多物体穿模问题。
- 性能与实现:排序逻辑编译为Wasm异步执行,结合注视点渲染集中视线中心资源;移动端预算约50万、桌面端约250万泼溅,帧率恒定。
- 可编程扩展:提供节点图系统,支持在GPU上执行重着色、SDF裁剪、扫描动画插值等自定义处理。
- 商业闭环:开源渲染层锁定生态入口,上游Marble创作平台构筑壁垒;前身为内部引擎Forge,技术栈成型。
3DGS从展示介质到生产力工具:LCC格式与行业标准化之路
-
3DGS行业核心瓶颈已从技术转向应用:大规模3D高斯模型移动端渲染早在2024年已由深圳其域创新实现,但模型动辄几十GB难以传输、设备性能门槛极高、与现有工具链几乎不兼容,三大现实障碍制约规模化落地
-
3D世界构建两条路径分化:建模/AI生成路径(李飞飞方向)服务于游戏与创意,但精度与专业方案差距大;现实捕捉路径(Reality Capture)服务于数字孪生、仿真训练等B端场景,商业变现路径更清晰
-
其域创新LCC技术架构:
| 技术模块 | 核心能力 | 关键数据 |
|---|---|---|
| LOD渲染 | 城市级/园区级数据组织与流式加载 | LCC2双轨LOD,秒级打开数亿高斯点 |
| 极致压缩 | 大幅缩减模型体积 | 仅为传统PLY格式的8% |
| 解耦编解码 | 解码与存储分离,独立模块管理 | 可接入不同场景最优编解码格式 |
| 结构化数据 | 结合空间扫描硬件提供工程属性 | 含空间结构、尺度、坐标体系 |
-
专业场景落地突破:影视虚拟拍摄(美剧《Fire Country》使用3DGS扫描街道完成棚内虚拟拍摄)、文旅数字孪生(山东趵突泉)、具身智能训练(GTC大会为英伟达和迪士尼机器人完成模拟仿真)、工业数字孪生(图扑替代传统手工建模搭建工厂数字孪生)
-
LCC定位3DGS的"MP4底层协议":已提供UE、Unity插件,完整打通Isaac Sim机器人仿真训练工作流,全球几乎所有3D高斯应用头部企业均已接入LCC格式,核心策略是将3DGS嵌入已有生产体系而非成为孤岛工具
3D重建从离线管线到空间基础设施的范式演进
- 核心范式转变:3D重建正从离线批处理式场景恢复,转向面向连续输入的空间状态维护,进入在线更新、跨端分发和系统调用链路「机器之心」
| 重建阶段 | 代表系统 | 核心能力 | 关键指标 |
|---|---|---|---|
| 经典离线 | COLMAP(2016) | 特征匹配→稠密重建通用流程 | 通用三维重建标杆 |
| 实时融合 | KinectFusion→BundleFusion | 深度融合→漂移修正 | 实时扫描 |
| 流式重建 | LongStream(港科大/地平线/浙大) | 千帧级长序列流式重建 | 公里级序列,18 FPS |
| 前馈推理 | LingBot-Map(蚂蚁/Robbyant) | 连续视频流恢复位姿与点云 | 前馈推理,近恒定内存 |
| Web渲染 | Spark 2.0(World Labs) | 动态3DGS接入Web | THREE.js/WebGL2跨端 |
- 下游应用生态:重建输出从本地点云/网格文件,转向可在线访问的空间内容,支撑数字孪生(Matterport)、机器人仿真(NVIDIA Isaac Sim)、空间数据采集(Niantic Spatial)等业务系统
- 分发与标准化:Sketchfab(在线展示)、glTF(运行时资产格式)、3D Tiles(大规模空间数据流式加载)、PlayCanvas SuperSplat 2.0(浏览器端3DGS编辑发布)推进3D内容交付基础设施化
- 统一模型趋势:相机估计、深度恢复、点图预测、多视图匹配等环节正被纳入同一类3D视觉模型统一处理,重建模块成为世界系统生成、更新、编辑、探索的基础组件
- 3DGS成为核心连接格式:3D Gaussian Splatting正成为连接重建输出与Web渲染的核心表示,尺度解耦与缓存刷新是实现长序列重建的关键技术手段
9.3 空间重建与维度升维生成
Art3D:艺术意图驱动的2D转3D视差合成
- 首次将"艺术意图"引入自动化2D转3D:提出Art3D框架(CVPR 2026),将视差图从物理参数升级为艺术表达载体,解决纯几何AI方案系统性抹杀院线级立体叙事先验的问题
- 顶级院线3D的"克制美学":超过95%镜头采用保守视差(仅屏幕宽度1%-3%),极限出屏镜头占比低于5%;物理正确只是地基,艺术意图才是沉浸感上限的决定因素
- 纯几何AI的"艺术剥夺"困境:训练时将立体视效师数十年积累的"视觉舒适度边界"和"全局宏观调控"视为数据噪声予以抹杀,导致生成内容引发眩晕或平淡乏味
| 路径 | 名称 | 功能 |
|---|---|---|
| 全局风格 | Global Style | 复刻导演全局叙事思维,把控深度克制感与零视差面保障观影舒适度 |
| 局部笔触 | Local Brushstrokes | 利用语言视觉大模型识别关键区域,充当导演"视觉画笔"制造视觉冲击 |
- DDC-IoU数据质量指标:深度-视差一致性交并比,精准过滤院线原片中视差混乱的劣质片段
- 生成质量量化突破:Art3D生成视差图几何一致性得分达0.83-0.89
- 艺术一致性统计评估体系:通过均值(μ)衡量整体深度缩放贴近院线大片分布,标准差(σ)衡量帧间3D感知一致性,首次实现3D艺术感知的量化衡量
- 核心洞察:任何涉及人类审美判断的AI生成任务都应将专业领域先验从"噪声"重新定义为"信号"
灵视P1:3DGS空间相机的行业落地与范式转移
- 产品定位:其域创新灵视P1空间相机不记录二维图像,而是通过多目相机+激光雷达融合感知+自研3DGS技术,将真实世界自动转化为可交互、可编辑的三维数字空间,在NAB Show横扫智能技术、图形特效、摄影设备、远程制作四项年度大奖,击败Adobe、索尼、富士
| 维度 | 传统方案 | 灵视P1方案 |
|---|---|---|
| 虚拟场景来源 | 人工建模 | 真实世界扫描自动生成 |
| 成本与周期 | 高成本、长周期 | 扫描即得,大幅压缩 |
| 真实感 | 依赖建模精度 | 原生真实感 |
| 可编辑性 | 有限 | 全流程可编辑 |
- 影视制作验证:戛纳获奖电影《狂野时代》将取景地直接扫描为三维数字空间,美术/灯光/运镜全在数字空间推演;Apple TV+《诊疗中》场景提前扫描重建投至LED屏,拍摄即所见即所得
- 广播直播落地:韩国SBS全球首家将3DGS与XR整合进新闻直播,扫描真实场景转为虚拟环境,主播实时切换场景
- 具身智能延伸:NVIDIA GTC展示用真实场景扫描重建的三维环境替代人工建模用于机器人仿真训练,与宇树科技、云深处等具身智能公司合作提供空间感知能力
- 核心洞察:从「记录二维影像」到「记录三维空间」的范式转移,真实世界从「被拍摄对象」变为「可直接被计算、编辑、复用的基础资源」,空间数据正成为连接影视、广播、机器人、仿真的共同基础设施
交叉引用
- ai-agent - AI Agent与智能体
- ai-coding - AI编程与开发
- ai-industry - AI行业与商业
- llm-frontier - 大模型前沿
- embodied-ai - 具身智能与机器人
- ai-products - AI产品与落地