🎬 多模态与AIGC
视频/图像/音频/3D生成、创意工作流
收录数:976 篇
目录
- 1. 视频生成技术
- 2. 图像生成与视觉AI
- 3. 音频与3D生成
- 4. 视频生成商业化与生态
- 5. 视频生成底层技术与工具
- 6. 多模态模型底座与训练推理加速
- 7. 视频生成平台工具与创作工作流
- 8. 多模态推理与视觉理解
- 9. 图像与视觉生成训练优化及加速
- 10. 视觉认知推理与渲染引擎
1. 视频生成技术
1.1 国产视频模型格局
国产视频模型生态格局与底层技术
赛博禅心(20260418) | AI科技评论(20260422) | 雷峰网(20260424) | 趣谈AI(20260427) | 机器之心(20260427) | 趣谈AI(20260430) | AI异类弗兰克(20260505) | 机器之心(20260508) | 船长AI视界(20260515) | 量子位(20260602) | AIGC开放社区(20260605) | AI大模型工场(20260331) | AIGC开放社区(20260609) | 昆仑万维集团(20260615) | 人工智能学家(20260625)
- 统一生成框架:字节Bernini采用"MLLM规划师+DiT渲染师"双阶段分工,在ViT嵌入空间传递语义草图,OpenVE综合得分4.04
- 位置编码消歧:Bernini引入SA-3D RoPE为多素材分配专属索引,解耦片段身份与时空位置,杜绝跨片段特征泄漏
- 音画原生生成:昆仑SkyReels V4自研双流MMDiT架构,通过交叉注意力实现毫秒级音画对齐,支持1080P/32FPS,双赛道全球第一
- 阶梯式强化学习:SkyReels V4覆盖T2V/I2V/音视频对齐全场景Reward模型,结合课程式强化学习,从"像素工匠"跃升至"逻辑连贯"
- 交互世界模型:阿里Happy Oyster支持实时漫游(1分钟)与导演干预(3分钟+),视觉记忆窗口约1分钟,处于像素级实时渲染第一梯队
- 渲染范式演进:传统强约束解方程→神经渲染弱约束推断→世界模型最弱约束直接生成,世界模型从视觉预研等前置环节切入生产管线
- MTSS结构化剧本:腾讯混元提出四流并行(资产/事件/镜头/音频)JSON描述范式,彻底解决传统Caption身份串扰,对小模型提升尤为显著
- 场景资产化:TapNow与开源Jellyfish(3.3K Star)将机位/光线/环境打包为可跨项目复用的3D片场资产,配合统一随机种子,短剧生产效率提升10倍
- CHAI电影标注:CMU与哈佛建5维200+视觉基元标注体系,8B参数Qwen3-VL经后训练反超GPT-5,并赋能Wan2.2精准执行希区柯克变焦等电影技法
- 视频出片工作流:15秒片段通过首尾帧(末帧接首帧)拼接过渡;基于ComfyUI的引擎(如Pixelle 7.6K Star)实现文案到成片3分钟自动化闭环
- Drifting生成范式:MIT提出训练时分布演化新范式,计算向量场推动样本平衡,验证了batch越大效果越好的全新scaling轴
- 交互与数据瓶颈:实时交互需满足快于播放、低延迟、接收新输入三约束;缺乏交互与物理因果的量化评测标准,视频tokenizer成为关键瓶颈
- AI音乐突破:Mureka V9在旋律性(7.25)、编曲(6.98)等维度全球第一,北美客户从Suno全量切换后业务增长超70%
Thinking with Video:视频生成模型的多模态推理新范式
- 核心发现:复旦邱锡鹏团队(OpenMOSS)提出以视频帧为统一媒介进行多模态推理,构建 VideoThinkBench(4149样本)系统评测视频生成模型推理能力,被 CVPR 2026 收录
- 视觉推理突破:Sora-2 通过「画图模拟」动态推理,在 Eyeballing Puzzles 击败 Gemini 2.5 Pro、GPT-5、Claude Sonnet 4.5,在 ARC-AGI-2 与之匹敌
| 评测基准 | Sora-2 | Gemini 2.5 Pro | GPT-5 | Claude 4.5 |
|---|---|---|---|---|
| Eyeballing | 胜出 | 被击败 | 被击败 | 被击败 |
| ARC-AGI-2 | 匹敌 | 欠佳 | 欠佳 | 欠佳 |
- 文本推理潜力:Sora-2 在 MATH 达 92%、MMMU 达 69.2%,但推理过程仅 13.91% 正确,属模式匹配非逐步推理
- 关键警示:关闭 Wan 2.5 提示词改写后文本能力归零,揭示部分模型的推理可能由前置 LLM 完成,存在归因风险
- Test Time Scaling:多次视频生成(5次)+多帧投票,视觉任务准确率从 56% 提升至 90%,Self-Consistency 有效
- 评测区分:研究强调需严格区分「答案正确」与「过程可靠」,正确答案 ≠ 可靠推理
技术能力与竞争定位
- 模型定位:商汤旗舰多模态模型 SenseNova-U1 Pro,业界首个「理解·生成·行动」原生统一基座,2026年7月启动邀请测试
- 自主设计闭环:支持「规划→生成→评估→调整」长程设计循环,从被动生成工具进化为自主设计智能体
- 信息图生成专精:攻克信息图(Infographic)高精度生成难题,实现数据可视化与版式设计的出版级质量
核心能力对比
- 原生分辨率:U1 Pro 领先 GPT-Image-2 一倍,率先突破至 8K vs 4K上限
- 架构与设计力:U1 Pro 具备理解·生成·行动一体化与长程自主评审设计能力,GPT-Image-2 仅偏重生成且长程能力有限
关键场景代差
- 电影分镜:U1 Pro 支持 16000×24000+像素(40-60格含标注),像素量达 GPT-Image-2 百倍
- 出版级版式:支持多栏混排与长文本段落控制,轻松应对杂志跨页、学术海报等复杂商业出版场景
- 信息图生成:U1 Pro 可完成24节气完整标注与四季分区,GPT-Image-2 存在明显内容缺失
战略信号
- 竞争焦点:「设计」正取代「编程」成多模态竞争焦点,U1 Pro 正面硬刚锚定该方向的 OpenAI
- 落地实证:商汤股东大会20余页PPT全由 U1 Pro 一次性生成,首次实现全程自研大模型制作
- 生态支撑:U1 Pro 为短片智能体 Seko 提供创作支持,并作为数字与物理智能融合基座
Runway 商业模式与融资动态
- 投资背景:Runway近期获得新一轮融资,反映了视频生成赛道持续吸引资本关注
- 商业化策略:依托视频生成模型优势,Runway正向企业级服务与创意工具市场拓展
- 行业地位:作为AIGC视频生成领域核心玩家,Runway在模型能力与产品落地方面保持领先
- 竞争格局:视频生成赛道竞争加剧,Runway通过差异化功能提升商业壁垒
1.2 Wan2.7全模态视频编辑
Wan2.7全模态架构与视频编辑体系
通义大模型(20260403) | 千问APP(20260403) | 量子位(20260403) | 智东西(20260403) | 财联社AI daily(20260404)
产品定位与全模态矩阵
阿里 Wan2.7-Video 实现从单一素材生成向全链路创作控制的跃升,支持文本、图像、视频、音频四模态输入,全系列输出 720P/1080P,时长 2-15 秒。
| 产品线 | 代号 | 核心能力 |
|---|---|---|
| 文生视频 | Wan2.7-t2v | 文字描述直接生成视频,支持群像塑造 |
| 图生视频 | Wan2.7-i2v | 基于图像+音频输入生成视频 |
| 参考生视频 | Wan2.7-r2v | 锁定角色外观与音色,最多支持5个主体参考 |
| 视频编辑 | Wan2.7-videoedit | 自然语言指令局部修改,场景切换与风格变换 |
指令驱动编辑(视频PS)
编辑区域自动与原视频光影材质自然融合,粒度达视频PS级别,通过自然语言实现多维度操控。
| 编辑维度 | 实现效果 | 保持不变的要素 |
|---|---|---|
| 角色替换 | 将人物换为参考图角色 | 背景、姿态、嘴型、台词 |
| 台词修改 | 替换角色台词内容 | 情绪口型匹配、音色统一 |
| 行为修改 | 改变角色动作逻辑 | 其他角色和场景不变 |
| 局部增删 | 指令增删元素、替换物体 | 非编辑区域背景 |
| 画风转换 | 一键切换风格(如羊毛毡/水彩) | 人物动作不变 |
运镜控制与多主体参考
- 运镜语言:支持推、拉、摇、移、跟及希区柯克式变焦等数十种技巧,可自然语言修改机位与焦距
- 多主体一致性:业内最高支持5个主体同时锁定外观与音色,实现多人协同动作复刻
- 首尾帧续写:2秒素材无损延展至15秒,精准控制画面构图和光影,解决传统续写刹车感
- 戏核驱动:动画风格解构为造型、线条、空间等独立维度自由组合,风格库可延展上千种组合
- 体验渠道:通义网站、wan.video、阿里云百炼、千问App
1.3 PixVerse V6与其他视频模型
PixVerse 模型矩阵与 V6 技术代际跃升
小互AI(20260331) | Z Finance(20260331) | AI产品阿颖(20260401) | 量子位(20260401) | 十字路口Crossing(20260408) | AI大模型工场(20260409) | "Z Finance"(20260423) | 十字路口Crossing(20260617)
- 全球排名第二:V6登顶Artificial Analysis全球图生视频榜单第二,实现从“像素堆叠”到“物理规律驱动”的范式跃升
- 效率与商业化:最长支持15秒1080P视频,出片压缩至几十秒内,训练成本仅为同行10%,已完成3亿美元融资
物理仿真与视听质感跃升
- 微表情与肤质突破:精准还原毛孔细纹与自然光泽,告别AI硅胶感,实现眼神躲闪等细腻心理传达
- 流体与粒子系统:蜂蜜滴落符合粘稠度变化,越野扬沙与滑雪扬雪具方向性衰减,告别均匀白雾
- 声画与时空协同:滑雪摩擦等环境音效与画面严丝合缝且无机械循环,原生支持延时摄影与慢动作捕捉
模型矩阵与产品布局
| 模型 | 定位 | 核心能力与突破 |
|---|---|---|
| V系列(V6) | 通用旗舰 | 物理声画同步、极限运动无穿模、15秒1080P出片 |
| C系列(C1) | 影视垂直 | 独立训练专攻影视,多宫格分镜直出,强化打斗特效 |
| R系列(R1/R2) | 实时世界模型 | R1实现1080P数秒级交互,R2向亚秒级3D物理世界演进 |
- 分镜直出提速:C1全球首发多宫格分镜直出,一键将九宫格转化为叙事短片,赋能AI漫剧(春节档破25亿播放)
- 极速交互体验:R1内测期日均近万人深度交互,60%用户抛弃官方场景进行UGC创作,实现“创作即消费”新范式
市场格局与产品策略
- 中国厂商领跑:视频生成进入决赛圈,中国在人才密度与技术储备上超越海外,全球顶级模型大概率留在中国
- 定位于小白用户:以“绝对小白”为差异化切入(50%用户此前从未制作过视频),以交互逻辑与产品形态构筑壁垒
- 全球化里程碑:全球用户超1亿(月活超1600万覆盖177+国家),成为联合国AI for Good峰会独家合作伙伴
Stellaris-VL-0.8B 端侧视觉语言模型
- 产品定位:极视角 Stellaris-VL-0.8B,专为端侧与嵌入式设备设计的轻量视觉语言模型,从 4B 压缩至 0.8B 参数
- 三大核心能力:聚焦产业级视觉任务,涵盖开放词汇目标检测(OVD)、指代表达理解(REC)、视觉问答(VQA)
- 轻量化路径:采用轻量 LLM 底座+高性能 ViT 编码器,经知识蒸馏+SFT+RL 全链路后训练压缩至 0.8B
- 边缘推理优化:针对复杂目标推理全链路深度优化,边缘设备实现秒级画面解析,资源占用稳定不上涨
- 连续工作能力:长时间持续任务下内存不持续上涨,适配 7×24 小时固定监控与移动巡检等场景
- 测评表现:在 ODinW13 检测、指代表达式定位、产业综合集 mAP@0.5:0.95 均大幅领先同参数开源模型
- 工业画面识别:在工业复杂画面中实现更低幻觉、更少错检漏检
| 测评维度 | Stellaris-VL-0.8B | 同参数开源模型 |
|---|---|---|
| ODinW13 开放词表检测 | 大幅领先 | 基准 |
| 指代表达式定位 | 大幅领先 | 基准 |
| 产业综合集 mAP@0.5:0.95 | 远超 | 基准 |
| 工业复杂画面识别 | 更低幻觉、更少错检漏检 | 基准 |
- 部署场景:覆盖低空无人机巡检、移动巡检机器人、车载/船载/矿载视觉,兼容存量设备
- 数据安全:支持完全本地离线运行,无需云端协同,满足工业与能源场景的隐私合规要求
- 关键洞察:0.8B 是端侧部署实用甜点;蒸馏+RL 是轻量化关键补偿;本地离线运行在工业场景具备差异化优势
1.4 国产视频模型深度评测
Vidu Q3 参考生:AI视频从单帧画质迈向多镜头一致性
APPSO(20260413) | AI产品阿颖(20260413) | 特工宇宙(20260413) | AI大模型工场(20260413) | 新智元(20260414) | 甲子光年(20260414) | 阿里云(20260414) | 量子位(20260415) | 机器之心(20260415) | 优设AIGC(20260415) | 小互AI(20260415) | 智东西(20260416) | APPSO(20260507) | 甲子光年(20260520)
- Q1 基础叙事:打通图像到视频的时间维度,解决基本叙事连贯问题
- Q2 表演生成:刻画角色微表情、肢体动作与情绪张力,削弱僵硬感
- Q3 系统生产:首次实现16秒声画直出,支持角色、场景、服装等元素跨镜头一致复用
参考生核心能力矩阵
- 多图精准组合:支持最多7张参考图(人物/场景/道具),可通过脚本实现跨图元素精准拆分与重组
- 角色IP固化:单图定妆后即可在多场景多集中保持面容、服装、音色高度一致
- 全要素资产化:从单一“保脸”升级为万物可参考,构建可反复调用的独立素材库
视听一体化系统
| 视听维度 | 覆盖类型 | 核心表现 |
|---|---|---|
| 6大视觉特效 | 粒子/流体/动力学/运镜/转场/光影 | 物理规律推演,深度服务于剧情节奏 |
| 5大沉浸音效 | 环境/动态/氛围/拟音/情绪 | 首次对氛围音建模,支持多轨交叠与声画精确同步 |
- 物理交互真实感:自动补全光影反射、空气颗粒感,解决人物与环境交互时的“穿模”与“两层皮”痛点
- 空间锚定能力:过肩镜头中近远景透视遮挡关系全程恒定,无闪烁穿帮
产能工业化与成本重构
| 场景 | 优化重点 | 成本对比 |
|---|---|---|
| 漫剧短剧 | 跨镜一致性、速度线与打击感 | 1集3分钟1080P仅36元,降本80% |
| 商业广告 | 多版本快速迭代、高端质感 | 10条15秒测试30元,降本80% |
- 生成效率5倍于行业:1080P最低0.2元/秒,较1元+/秒的行业均价降幅超80%
- MaaS极致性价比:API价格仅为行业平均1/3,零门槛接入
- 计费模式颠覆:Video Plan包干制每日最高40分钟额度;Vidu Claw打通微信/飞书一句话出片闭环
市场验证与战略合作
- 国际双榜登顶:力压谷歌Veo等模型,登顶AA基准测试及SuperClue多图/单图参考双榜
- 规模化生产验证:万兴剧厂实测抽卡精确度翻倍,分镜可用率达80%
- 阿里云全面结盟:Vidu接入百炼平台共研多模态世界模型,依托“全球一张网”拓展海外市场
1.5 Wan2.7视频创作控制与扩展
Wan2.7 视频创作控制:续写、动作模仿、运镜与风格编排
千问APP(20260403) | 量子位(20260403) | 智东西(20260403) | 财联社AI daily(20260404)
阿里 Wan2.7-Video 系列定位从素材生成跃升至全链路创作控制,涵盖四大核心模型,支持全模态输入,输出 720P/1080P,时长 2-15 秒。
| 模型 | 代号 | 核心能力 |
|---|---|---|
| 文生视频 | Wan2.7-t2v | 文本直出视频,支持群像千人千面 |
| 图生视频 | Wan2.7-i2v | 基于图像+音频输入生成视频 |
| 参考生视频 | Wan2.7-r2v | 最多5个主体参考(业内最多),精准复刻动作 |
| 视频编辑 | Wan2.7-videoedit | 局部修改、角色替换、场景与风格变换 |
视频编辑(视频PS级操控)
- 局部增删改:指令增删、替换元素,编辑区光影材质自动匹配自然融合
- 角色与台词操控:替换角色保持背景姿态不变;改台词保持口型与音色统一
- 场景与风格转换:一键切换写实/3D/黏土等风格或季节天气,原动作不变
视频续写与运镜控制
- 视频延展:2秒素材最长延展至15秒,首尾帧精细控制消除传统刹车感
- 运镜体系:支持推拉摇移跟升降及希区柯克变焦等数十种复合运镜
- 参数控制:机位、视角、景别、焦距等拍摄参数均可自然语言精准修改
- 叙事联动:运镜可与剧情联动控制叙事张力,保留原动作序列生成新场景
参考生视频与动作模仿
- 多主体参考:最多支持5个主体参考,多宫格参考图可直接转换为动画片
- 动作模仿:支持多人协同动作复刻,同步复现参考视频运镜与特效节奏
- 风格库:覆盖2D/3D、水墨、赛璐璐等上千种组合,自动匹配影片类型
- 全链路创作:支持智能剧本创作和分镜调度,实现从演到导的创作跃升
1.6 CVPR 2026 视频模型趋势:运动建模与动态世界理解
运动优先范式:从像素生成到动态世界理解
AI科技评论(20260512) | 量子位(20260516) | 机器之心(20260520) | 极市平台(20260430) | 量子位(20260528) | AI科技大本营(20260602) | 量子位(20260605) | 量子位(20260607) | 机器之心(20260611) | CVer(20260614) | "Z Potentials"(20260622) | 智能涌现(20260622)
- 自回归路线验证:Sand.ai 押注自回归架构,Magi-1 在 Google DeepMind Physics-IQ 长期霸榜,超越 Cosmos3-Super 与 Sora-2
- 音画同出突破:Sand.ai 率先推出原生音画模型,Single-stream 架构实现声画互促,VidMuse 两月达千万美元 ARR
- 多模态视频推理:复旦提出 Thinking with Video 范式,Sora-2 在 Eyeballing Puzzles 击败 Gemini 2.5 Pro、GPT-5 等 SOTA VLM
- Test Time Scaling:多帧生成结合投票机制,将视觉任务准确率从 56% 提升至 90%
- 推理可靠性瓶颈:Sora-2 在 MATH 准确率达 92%,但文本推理过程全对率仅 13.91%;VideoThinkBench 含 4149 样本专项评测
物理与因果逻辑增强
- Agent 驱动生成:NEWTON 将视频生成重构为 Planner→Executor→Verifier 循环,使 Veo-3.1 在 VideoPhy-2 准确率提升至 37.4%
- 视觉思维链:VChain 利用 MLM 生成因果关键帧并做 LoRA 稀疏调优,免重训增强物理因果一致性
- VLM-as-Teacher:快手可灵设双层监督防作弊,使视频模型在双基准平均提升 16.7 分
- 频域评估突破:PhysInOne 数据集含 200 万标注视频,提出 PMF 指标,微调后模型频域物理保真度升至 3.147
3D 感知与高动态生成
- 纯文本唤醒 3D:World-R1 仅约 3000 条纯文本训练,Small 版 PSNR 提升 10.23 dB,VBench 美学达 65.74
- 周期性解耦:每 100 步切至动态专场用通用奖励,解决纯 3D 空间优化致动态失效问题
- 推理大幅加速:SURF 框架三阶段最优分辨率预览与精修,使 14B 模型生成 5 秒 720p 视频加速 12.58 倍
1.7 视频世界模型长期记忆评测基准
MBench:视频世界模型长期记忆能力的首次系统化评测
机器之心(20260611) | 机器之心(20260615) | 机器之心(20260627) | CVer(20260627)
- MME-CoF-Pro:MME-CoF(CVPR 2026)升级版,类别12扩至16,新增过程级评分
MBench记忆与三维评测
- 三维记忆解构:拆解实体(身份属性)、环境(3D空间稳定)、因果(交互逻辑)一致性
- 触发条件评分:按触发覆盖率与记忆可靠度调和平均计分,重罚静态保守生成
- 核心洞察:无单一模型全维度领先,空间与因果是主要瓶颈,视觉逼真度无法替代记忆
KIVI-Bench知识密集型评测
- 知识双指标对比:新指标(FactP 70.8%/HelpS 69.0%)远超传统视觉指标(38.9%)
- 多模型得分:人工(97.8%/81.9%)>闭源最佳(83.2%/66.6%)>Wan2.2(73.1%/48.4%)
- 系统性错误:实体误描42.6%(型号幻觉)、操作错误40.7%、组件错位15.0%
- 核心洞察:视觉质量与知识准确性属正交维度,扩大视觉规模无法解决程序性知识缺失
MME-CoF-Pro推理一致性评测
- 四大能力组:感知推理(底层)→空间与结构(中层)→物理与因果(中高层)→任务导向(高层)
- 推理生成解耦:Veo-3.1推理RS仅56、Sora-2仅50,Kling生成质量65.1但推理仅13.8
- RS指标机制:人工标关键步骤+Gemini-2.5-Flash逐步判定,验证相关性0.61远超传统0.17
- RS负相关性:RS与最终帧正确率(Pass@5)呈-0.41负相关,仅看最终帧会严重高估推理
- 提示堆叠失效:Sora-2实验显示文字与视觉提示曲线剧烈波动,模型无法稳定利用详细提示
- 视觉提示根因:模型常将标注箭头/边界框误认为画面内容渲染,推测源于训练数据共现偏差
- 文字提示代价:Text Hint提升RS(Veo-3.1+4.5/Sora-2+7.6/Cosmos+6.7),但4D Dynamics全线下降
- 照本宣科:增加文字提示导致模型在动态类别(-1.2至-15.6)凭空分裂多余物体
- 核心洞察:模型擅长“画得对”非“想得对”,核心瓶颈在视觉对齐、指令理解与抗幻觉
2. 图像生成与视觉AI
2.1 图像生成模型进展
视觉感知与伪造检测前沿学术研究
AI产品银海(20260330) | 量子位(20260330) | 极市平台(20260410) | CVer(20260411) | CVer(20260413) | 百度文心(20260413) | 机器之心(20260416) | CVer(20260417) | 极市平台(20260421) | 量子位(20260424) | 新智元(20260424) | CVer(20260424) | AI科技评论(20260427) | 机器之心(20260429) | CVer(20260509) | CVer(20260514) | 机器之心(20260522) | 极市平台(20260604) | CVer(20260622) | 新智元(20260622) | AIGC开放社区(20260623) | CVer(20260623) | 机器之心(20260623) | 量子位(20260623) | 极市平台(20260623) | 极市平台(20260623) | 极市平台(20260626) | PaperWeekly(20260628)
- 超长转录:Unlimited OCR(3B)用R-SWA机制固定KV缓存,40+页连续转录不失忆
- R-SWA软遗忘:生成6000 Token时推理速度提升约35%
- 小模型逆袭:PP-OCRv5仅5M参数,复杂文档达96.8%准确率,超越GPT-4o等千亿模型
- 古文字破译:NabuOCR结合强化学习与配对数据,成功破译5000年前极端楔形文字
多模态与细粒度理解前沿
- 按需动态推理:VideoAuto-R1按置信度触发推理,输出长度减少3.3倍性能不降
- 弱监督定位:CPL++(动态自纠错)与WISER(免训练)大幅刷新视觉定位与检索SOTA
- 区域Token化定位:VLX-Seek-3B用候选区域检索替代坐标生成,强化LLM比较指代
- 多目标线性解码:OPN模块召回候选框后VLM输出区域索引,多目标场景开销线性低增
- 双视觉路径解耦:HFRE主路径保语义对齐,辅助路径提供高分辨率局部细节补足
- 端侧超越大模型:3B模型MSCOCO mAP 45.3超Gemini 3.1 Pro,ODinW13达48.4超Qwen3.5
- 精准拒识防幻觉:显式学习目标不存在时回答“没有”,避免强行指向相似区域减少幻觉
- 解耦可插拔设计:OPN与VLM主体解耦,支持检测器或用户框选等多源定位能力接入
ECCV 2026 视觉感知前沿
- 会议整体概况:录用率27.5%(2883/10473),多篇重磅伪造检测与图像拼接工作已开源
- BCNet伪造检测:ASE掩码抹除语义与NGPE梯度反哺,破解DINOv3语义捷径,覆盖51数据集创SOTA
- AAP篡改检测:非对称锚定范式,真实图用ARL对齐特征防遗忘,篡改图转误差热力图定位
- AAP卓越性能:在SIDSet及跨域OpenSDID取得最佳表现,实现AI伪造检测与定位双重功能
- UniStitch图像拼接:NPT映射解耦维度对齐,MoE三专家动态互补,FFD稀疏控制点解决显存爆炸
- UniStitch兼容性:填补几何法低纹理失效与深度法跨域差的技术空白,兼容SIFT/SURF特征点
遥感视觉感知基础模型与多模态理解
CVer(20260401) | CVer(20260406) | CVer(20260409) | 极市平台(20260421) | CVer(20260429) | CVer(20260517) | CVer(20260518) | CVer(20260531) | CVer(20260605)
- 弱监督与跨域零训练突破:PWOOD仅需10%-30%弱标注即比肩半监督旋转检测;Earth2Ocean无需水下训练实现零成本跨域迁移,平均mIoU提升6+个点
- 开放词汇与频率域创新:OpenDPR将变化检测分解为定位与识别两阶段;F2Net通过自适应频率分解兼顾高频细节与低频全局语义
- 免训练大图分割:Remote SAMsing通过黑色遮蔽+多轮迭代,将SAM2在遥感大图的覆盖率从30-68%跃升至91-98%
核心模型与框架能力对比
| 模型/框架 | 核心突破 | 关键数据 | 预训练/数据规模 |
|---|---|---|---|
| OlmoEarth | 多模态时间序列观测 | 超60%冻结特征任务最优 | 28.5万位置,3卫星+6地图标注 |
| SkySense-VITA | 光学/SAR统一上下文分割 | 18数据集mIoU领先10%+ | Sky-VT-300k,30万+样本/176类 |
| MetaEarth-MM | 五模态任意互转联合生成 | SAR/RGB大域差异任务优势显著 | EarthMM数据集,280万图像 |
| RS-EoT | 语言驱动迭代视觉证据 | RS-EoT-7B多项基准SOTA | 多智能体系统(GPT-5-mini等) |
| Earth2Ocean | 跨域零训练水下分割 | 平均mIoU提升6+个点 | AquaOV255数据集,255类/2万张 |
| PWOOD | 部分弱监督旋转检测 | 仅10%-30%弱标注比肩半监督 | DOTA-v1.0等,支持RBox/HBox/Point |
| OpenDPR | 无训练视觉原型检索 | 聚焦变化定位与类别识别 | 利用DiffusionSat合成原型 |
| F2Net | 自适应频率分解(AFD) | DeepGlobe与Inria均达SOTA | 三分支(VMamba+ResNet+ViT) |
| Remote SAMsing | 黑色遮蔽+多轮迭代 | 大图覆盖率跃升至91-98% | 原生SAM2,免训练扩展 |
图像生成模型前沿进展与工程部署
通义大模型(20260401) | 阿里云(20260401) | JackCui(20260401) | 智东西(20260401) | 新智元(20260401) | 路人甲TM(20260401) | 优设AIGC(20260401) | AI新榜(20260402) | 甲子光年(20260402) | 机器之心(20260405) | AIGC开放社区(20260409) | 卡尔的AI沃茨(20260416) | AIGC开放社区(20260417) | AI范儿(20260417) | APPSO(20260418) | 量子位(20260419) | 优设AIGC(20260420) | 阿枫科技(20260420) | APPSO(20260421) | 赛博禅心(20260421) | GeekSavvy(20260421) | 歸藏的AI工具箱(20260422) | APPSO(20260422) | 机器之心(20260422) | 量子位(20260422) | 数字生命卡兹克(20260422) | AI范儿(20260422) | JackCui(20260422) | 新智元(20260422) | 赛博禅心(20260422) | InfoQ(20260422) | 硅星人Pro(20260422) | 第一新声(20260422) | 小互AI(20260422) | 智东西(20260422) | 人工智能学家(20260422) | 新智元(20260422) | 摸鱼小李(20260422) | AI新榜(20260422) | CVer(20260422) | 量子位(20260423) | AIGC开放社区(20260423) | 十字路口Crossing(20260423) | 优设AIGC(20260423) | APPSO(20260423) | AI产品银海(20260423) | 极市平台(20260423) | CVer(20260423) | 深度学习与NLP(20260422) | 硅星人Pro(20260424) | 船长AI视界(20260424) | 新智元(20260427) | 网罗灯下黑(20260428) | 优设AIGC(20260429) | AI寒武纪(20260429) | AI产品阿颖(20260430) | 硅星人Pro(20260430) | 量子位(20260501) | 硅星人Pro(20260503) | 硅星人Pro(20260505) | 机器之心(20260506) | 量子位(20260506) | AIGC开放社区(20260508) | 机器之心(20260512) | 机器之心(20260514) | 量子位(20260516) | "Z Finance"(20260522) | AIGC开放社区(20260525) | 通义大模型(20260528) | DeepTech深科技(20260530) | AIGC开放社区(20260601) | CVer(20260601) | 机器之心(20260608) | 量子位(20260609) | 商汤科技SenseTime(20260612) | 量子位(20260614) | 深度学习与NLP(20260405) | AI科技评论(20260625) | 深度学习与NLP(20260402) | 深度学习与NLP(20260423) | 机器之心(20260501)
GPT Image 2核心技术突破
- 极限文字渲染:准确率近99%攻克多语种乱码,文字由“画”变“写”,实现大米刻字级极小字号
- 模型代号梗:代号duct-tape(布基胶带),灵感源自艺术品《喜剧演员》,断崖领先第二名代号"小香蕉"
- 团队与研发:13人团队耗时4个月,主力多语言训练由唯一华人研究员陈博远完成,官网博客全由图片生成
- 视觉推理突破:可用图形(非代数)在黑板证明“奇数之和是平方数”,展示超越文本推理的视觉认知
- 指令与重构:单次最多输出8张连贯图像,支持极简提示词复刻UI,一次性生成多层嵌套“画中画中画”
- 架构与交互:演进至单次推理“自回归规划+扩散渲染”并集成自检,Thinking模式支持生成可扫描二维码
主流前沿模型动态
- Wan2.7-Image(阿里):盲测国内第一,支持3K长文本与骨相级面部可控,低显存(<6GB)即可部署
- Uni-1/1.1(Luma AI):自回归统一架构,API成本仅同类半价,高分辨率生成成本降10-30%
- OmniLottie(复旦等):首个多模态矢量动画框架(文生图88.3%),自研Lottie分词器
- DreamLite(字节):0.39B端侧模型,iPhone 17 Pro约3秒离线生成或编辑1024图像
- GPIC(斯坦福):发布1亿张授权全可商用数据集,配套FD DINOv2公平评测基准
工程部署与成本优化
- 轻量化端侧部署:微软Lens(3.8B)与字节Lance(3B)小参数实现SOTA,vivo 0.6B实现手机端实时修图
- 商业级降本增效:阳狮集团借Luma API将1500万美元项目压至2万/40小时,GPT Image 2覆盖80%常规设计
- 开源工具链:魔搭开源Diffusion Templates框架,推Qwen-Image-Bench集及Prompt Reinjection提分7.75%
产业冲击与安全挑战
- 生产范式转移:数字内容成本大减并向“想象力密集型”转变,AI输出延伸至可编辑分层PSD工程文件
- 信任与安全危机:极致逼真感与零门槛结合致伪造泛滥,“有图有真相”体系濒临崩塌
MuSc-V2:多模态零样本工业缺陷检测(TPAMI 2026)
- 核心创新:华科大提出MuSc-V2,利用无标注样本间“互打分”机制实现零样本工业缺陷检测,免训练支持2D图像、3D点云及双模态输入
- 性能跃升:零样本设定下超越多数少样本方法,MVTec 3D-AD分割AP提升23.7%,Eyecandies提升19.3%
- 工程优势:摆脱对视觉语言模型的依赖,兼容任意预训练特征网络,解决推理实时性瓶颈,覆盖MVTec等6大权威数据集
四阶段检测流水线
| 阶段 | 核心机制 | 关键作用 |
|---|---|---|
| 迭代点云分组 | 曲率重分组+渐进式合并 | 生成平滑连贯的3D表面块 |
| 多聚合度邻域聚合 | 多尺度建模+相似度加权池化 | 融合2D纹理与3D形状特征 |
| 多模态互打分 | 正常→低分,缺陷独特→高分 | 跨模态异常增强,2D/3D互补 |
| 样本级受限重打分 | 流形学习重校准+掩膜限制 | 抑制正常波动导致的假阳性 |
关键设计细节
- 2D/3D特征互补:纹理不明显缺陷由3D形状补全,反之亦然,自适应融合双模态评分
- 相似度加权池化:通过exp操作放大高相似度邻域权重,避免传统池化操作稀释微小缺陷特征
- 代码开源:已开源至 github.com/HUST-SLOW/MuSc-V2
前沿生成与编辑架构范式
AI科技评论(20260430) | 机器之心(20260511) | CVer(20260513) | 机器之心(20260603)
- EAR范式:BIGAI与上交大将视觉规划重构为单步图像编辑,跳过文本CoT,在视觉空间直接输出求解图像。
- 能力分层显著:全局约束任务(如N-Queens)表现接近6岁人类,局部路径任务(如Maze)接近12岁人类。
| 模型类型 | Maze Pass@1 | 推理特性 |
|---|---|---|
| 闭源大模型(零样本) | 5.40% | 几乎不具备稳定求解能力 |
| 扩散微调 Bagel | 11.54% | 具有由粗到细去噪优势 |
| 自回归 Janus-Pro | 1.43% | 缺乏原生视觉规划特征 |
UniVidX统一视频生成
- 大一统框架:港科大等提出UniVidX,将逆向渲染、重打光、抠图等15类任务统一为多模态条件生成,被SIGGRAPH 2026接收。
- 三大核心技术:随机条件掩码(全方向泛化)、解耦门控LoRA(防模态干扰)、跨模态自注意力(统一几何光照约束)。
- 极高数据效率:分为Intrinsic(渲染)与Alpha(抠图)双模型,不足千条视频训练即超越多种专用模型。
W-Flow一步生成架构
- 范式突破:斯坦福W-Flow利用Wasserstein梯度流压缩训练轨迹,ImageNet 256×256 FID低至1.29,速度提升约百倍。
- 速度场双运输:前项逼近真实数据,后项防局部塌缩,停止梯度将训练转化为简单回归,摆脱GAN对抗。
- 消融优化:Sinkhorn散度替代MMD(FID 10.40降至7.29);双批次自传输消除偏差(FID 17.57降至7.08)。
TPC-268:首个融合植物分类学的细粒度植物计数基准(CVPR 2026 Oral)
- TPC-268 基准:华科大团队提出首个融合植物分类学层级的细粒度植物计数基准,获 CVPR 2026 Oral
- 数据规模:10,000 张图像、678,050 个点标注、30,000 个边界框,覆盖 242 个物种、268 个可计数类别
- 类别定义创新:可计数类别由「物种名 + 生物组织单元」共同定义,同物种的叶、花、果实视为不同类别
- 分类学层级设计:每个样本关联完整路径(界→门→纲→目→科→属→种),为跨物种泛化提供结构化先验
植物计数的独特挑战
| 挑战维度 | 具体表现 |
|---|---|
| 非刚性形态 | 枝叶花果结构柔性强,个体间形态差异大 |
| 生物多样性 | 不同物种形态、纹理、器官结构差异显著 |
| 细粒度差异 | 相近物种高度相似,需捕捉细微视觉差别 |
| 时变空变性 | 随生长阶段、环境、光照、遮挡变化 |
| 尺度跨度大 | 从显微镜下气孔到无人机视角冠层 |
实验核心发现
| 发现 | 具体结论 |
|---|---|
| 回归优于检测 | 植物实例密集交叠、边界不清,密度图回归更适合数量估计 |
| 局部结构更关键 | 全局注意力模型在未见类别上明显下降,局部结构方法跨物种更稳定 |
| 分类学信息有效 | 加入物种名称或完整分类学路径可显著降低计数误差 |
| 通用模型脆弱 | 通用计数模型迁移到 TPC-268 性能明显下降,反向迁移相对稳定 |
范式意义
- 将视觉计数从「数明确目标」推向「理解复杂生物结构下的数量估计」
- 证明生物学知识能实质性提升视觉模型性能,分类学先验是必要组件而非可选增强
扩散模型安全与图像恢复新范式
PaperWeekly(20260514) | 极市平台(20260604) | AI科技评论(20260608) | 机器之心(20260610) | 极市平台(20260616)
- 隐式决策层定位:扩散模型在欠描述提示下自行决定属性,主要发生在self-attention而非cross-attention层(ICM方法)
- 精准干预优于全层:SDXL上Top 20层干预成功率83.0%/CLIP-I 0.893,优于全层(91.0%/0.779)与随机选层(51.0%/0.932)
- MMDiT架构挑战:FLUX、SD3等多token复杂交互决定生成,传统单token粒度干预完全失效
- SafeRoPE安全机制:将attention语义关系视为多维魔方,通过风险感知旋转调控多token相对位置组合(CVPR 2026)
LearnIR:盲图像恢复(ICLR 2026)
- 后验偏差建模:DPS梯度正比于预测与真实后验偏差,偏差服从高斯分布且有解析闭式解
- DPSC校正模块:训练轻量网络拟合偏差解析均值,作正则项校正采样轨迹消除色偏与结构偏差
- DRM多分辨率模块:高噪阶段下采样捕捉全局结构,低噪恢复原分辨率精修纹理,零额外开销
- 极致性能表现:去雾O-HAZE PSNR+2.27dB;真实人脸阴影PSNR+1.71dB,合成人脸阴影+2.44dB
- 高效部署能力:仅需5步采样(约1.6秒),具备极佳的移动端实时图像恢复部署可行性
DRDD:统一图像修复
- 核心发现:适度高斯噪声可作“域协调器”,缩小不同退化任务间特征分布差距(最优1.1-1.2)
- 解耦架构设计:将反向扩散拆为“残差去除”与“噪声去除”,先域转换再执行去噪
- 极高数据效率:去噪网络仅用非配对干净图训练,仅需25%训练集即可保持极小性能降幅
- 统一修复SOTA:All-in-One-5任务达SSIM 0.916 / LPIPS 0.073 / FID 18.3,全面领先且开源
PRISM:南大 LAMDA 多模态持续指令微调工具包
核心定位
- 南京大学 LAMDA 团队开源多模态持续指令微调(MCIT)研究基础设施,单张 24G 显卡即可完成训练到评估全流程
- 集成 12 种 MCIT 算法、3 套标准基准(CoIN/UCIT/TriGap)、支持 LLaVA-1.5 与 InternVL-Chat 骨干
- 论文:arxiv.org/abs/2605.26110,代码:github.com/LAMDA-CL/Prism
全栈精度调度
- 支持 bf16/fp16/8bit/4bit 四级精度,LLM 主体 8-bit 加载(QLoRA 风格),计算与 LoRA 适配器保持 bf16
- 多模态投影层跳过量化保证信息通路精度;为 SAME、MoE-LoRA 等自定义调优器实现 Linear8bitLt 兼容层
- 24G 单卡同时载入 InternVL 本体 + InternViT 视觉塔 + CLIP vision/text tower,精度切换仅需配置项
插件式架构
- 核心抽象为
CLIntegration接口,定义方法完整生命周期(初始化→前向钩子→跨任务状态持久化) - 新方法在
method/custom/<name>/integration.py实现接口,@CLMethodFactory.register()注册即接入 - 精度控制、骨干适配与方法逻辑完全解耦,新增骨干后所有已集成方法自动支持
研究效率提升
- 子数据集快速验证机制实现一天 5–6 版方法迭代
- 兼容多种持续学习范式:回放、MoE 架构、动态网络、正则化、Prompt-based
- 核心洞察:MCIT 领域瓶颈在工程而非算法,各方法维护独立代码副本导致跨方法对比成本极高,PRISM 将该成本降至接近零
原生视觉语言模型与实时流理解前沿
- 核心创新:NEO-ov 抛弃视觉编码器,仅用两层卷积+GELU 将原始像素直接映射为 token,与文本送入同一 Transformer,实现端到端建模
- 架构设计:注意力头显式拆分 T/H/W 三分支;Native-RoPE 使同帧图像共享时间索引;视觉 token 单元内双向注意力、单元间自回归因果
- 性能亮点:2B/9B 规模刷新原生 VLM 上限;MMMU、HallusionBench 追平顶尖模块化模型;空间智能任务超 Cambrian-S 等专用模型
- 空间智能根因:Pre-Buffer 保留完整「像素-像素」和「像素-词」交互;从 patch 级开始的浅层跨模态交互显著优于编码器模型的深层交互
- 三阶段训练:预训练(~2000万图文对,仅视觉模块)→ 中期训练(~6000万样本,分辨率至4096²,全参数联合优化)→ 监督微调(~600万指令数据)
- 当前短板:OCR/文档理解较弱,缺少专门 OCR 预训练;部分基准与 Qwen3-VL 仍有差距
- 团队:南洋理工 S-Lab、商汤研究院、大连理工;基于 Qwen3-1.7B/8B 构建
- 产品定位:谷歌 Gemini Omni 支持实时视频流输入的多模态理解,能够对动态视频内容(如教授黑板推演公式)进行即时分析与推理
- 核心突破:在黑板公式推演场景中全程识别正确,展示了实时视频理解能力从静态帧分析向动态连续场景推理的跃升
- 与 Vision Banana 的关联:被媒体称为「视频版香蕉」,延续谷歌将感知问题转为生成式范式的技术路线,从单帧图像理解扩展至连续视频流理解
- 技术意义:标志着多模态模型从「逐帧截图+文本推理」向「原生视频流实时推理」的范式转变,对教学、监控、医疗等实时分析场景具有重大落地价值
3D骨架行人重识别(SRID)全景综述
- 首篇SRID系统综述:南洋理工发布,被IJCAI 2026接收,全面梳理2014年至今3D骨架行人重识别技术演进(已开源:github.com/Kali-Hac/3D-SRID-Survey)
- 核心思路:将人体简化为关节点骨架,利用物理结构(身高、臂长)和步态模式(步幅、步频)作为生物特征,规避换装、暗光、遮挡等痛点
- 四大优势:隐私友好(天然脱敏契合GDPR)、极轻量(SimMC仅0.15M参数)、视角不变、外观无关
三大建模范式对比
| 范式 | 核心思路 | 代表工作 | 特点 |
|---|---|---|---|
| 手工特征 | 专家定义骨骼几何与步态时空参数 | Munaro等(ICRA 2014) | 可解释强,泛化有限 |
| 序列建模 | LSTM等时序模型编码姿态演变与步态语义 | CAGEs(TPAMI 2022) | 捕捉时序,依赖序列完整性 |
| 图建模 | 关节构建动态拓扑图,学习部位协同联动 | CTR-GCN(ICCV 2021) | 当前主流,准确率高 |
- 模型性能:Hi-MPC、MoCos等深度学习模型在BIWI、KS20、CASIA-B等5个主流基准上显著超越传统手工特征方法
- 效率优势:图模型MoCos在准确率与计算效率上取得较优平衡,极具边缘设备部署潜力
- 跨域应用:医疗健康(帕金森预测、中风康复评估)、具身智能(虚拟化身运动重定向、手势交互)、跨模态安防认证
2.2 AI设计工具与UI生成
AI设计工具与可视化生成:技术演进与交互范式
莫理(20260406) | 优设AIGC(20260417) | 优设AIGC(20260422) | 路人甲TM(20260422) | AI寒武纪(20260422) | 阿枫科技(20260422) | 曼话AI(20260422) | AIZ小朱(20260422) | 沃垠AI(20260422) | AI产品阿颖(20260423) | 甲木未来派(20260423) | 卡尔的AI沃茨(20260423) | "梦飞 AI"(20260424) | AI异类弗兰克(20260426) | 路人甲TM(20260426) | AI产品银海(20260426) | 新智元(20260426) | 优设AIGC(20260427) | 沃垠AI(20260427) | 莫理(20260427) | 阿枫科技(20260429) | AIZ小朱(20260429) | 网罗灯下黑(20260429) | 饼干哥哥AGI(20260518) | "AGI Hunt"(20260519) | 莫理(20260523) | AI产品银海(20260525) | 路人甲TM(20260525) | AI寒武纪(20260526) | 阿枫科技(20260526) | AI异类弗兰克(20260526) | 沃垠AI(20260527) | 莫理(20260609) | 花叔(20260616) | 十字路口Crossing(20260618)
AI原生设计工作流与闭环
- Lovart定义一站式交付:通过无限画布整合生成、修改到交付,支持直接导出PSD/PPT等可二次编辑文件,3分钟完成传统需1周的商业全案
- Brand Kit破解风格漂移:上传PDF手册约1分钟自动提取Logo/色板/字体,强制约束后续海报/UI等产出100%符合品牌调性
- 商业级精准编辑矩阵:提供Text Edit(文字透视无痕替换)、Touch Edit(局部重绘保光影)、Edit Elements(一键拆分前景背景输出分层PSD)
- 专属字体与样机合成:输入风格描述3分钟生成无上限可编辑矢量字体(成本约2元);Mockup自动贴合不规则物理表面并保留真实反光
核心设计能力与场景工业化
- 打通印刷与电商交付:结合XFUN等工具实现刀版图自动分层编辑,1件起订将打样压缩至最快1天;电商单SKU物料制作从1天压缩至10分钟
- 图层拆分实现PS级精修:美图设计室等工具支持自动拆分文字/主体/背景,单独修改出错图层避免重抽,保留版式骨架快速替换产品图
- 信息图表与白板自动化:一句话提示词即可生成高密度多文字信息图(如食物热量表);飞书等工具突破静态图局限,生成节点、连线可独立编辑的SVG画板
从静态设计稿到可交互工程
- 直接输出代码与高保真原型:阿里QoderWork一键将设计转为React+Vite工程代码;天工设计智能体可从零搭建19页APP UI原型
- 交互可视化密集竞争:Claude等推出代码驱动的通用白板(对标Google收费200美元/月功能),Claude Design发布致使Figma股价跌7%
- Skill资产固化复用:将成功的风格迁移或参考图调教(如洗出AI底图防脸飘)蒸馏为可一键调用的数字资产,永久复用生成同系内容
产业重塑:工具方法论升级
- 结构化Prompt替代随机碰运气:采用“版式分区+配色体系+风格锚定+文字规范”结构化描述,配合高阶六步提示词法,成为稳定产出专业视觉内容的核心方法论
- 能力普惠与角色重构:单工具月费19美元即可替代多角色全年产出;AI向玄学报告等非标视觉领域延伸,设计的核心稀缺能力正式从“执行”转向“判断”
JoyAI-VL-Interaction:流式视频交互范式
- 京东开源JoyAI-VL-Interaction:8B参数量实现94ms平均延迟,将视频AI从轮次对话推进到「持续在场、主动开口」的流式交互范式,监控场景对豆包/Gemini胜率均达100%
三项核心能力:
| 能力 | 机制 | 效果 |
|---|---|---|
| 自主交互 | 模型内部学习决定「何时开口」 | 无需外部规则触发,异常时立即预警 |
| 实时响应 | AdaCodec(关键帧 | Token预算与画面变化成正比,不随帧数线性爆炸 |
| 任务委派 | 复杂任务自动甩给后台大模型/Agent | 前台继续盯画面,后台桥接Claude Code等 |
与Gemini/豆包对比:
| 维度 | 豆包 | Gemini | JoyAI |
|---|---|---|---|
| 交互触发 | 外部轮询 | 一问一答 | 模型内化时机 |
| 摔倒报警 | 晚4-5秒 | 无法监控 | 瞬间报警 |
| 时间感知 | 未响应 | 40秒才开口 | 差1-2秒 |
- 分层长程记忆:短期原始token→中期文本摘要→长期压缩,覆盖~12h上下文,压缩异步运行不堵推理
- 开源完整系统:模型权重+400万条时间对齐交互数据+训练recipe+ASR/TTS/WebRTC部署系统,获vLLM-Omni day-0原生支持
2.3 视觉特效与动态生成流水线
BDO 巨物美学与演唱会 AI 视觉工业流水线
- BDO美学风靡演唱会:巨大沉默物体通过极端体量反差激发敬畏感,从电音圈向主流流行市场扩散
- AI视觉工业流水线:AI辅助概念设计 → UE5高精度3D建模实时渲染 → 时间码系统帧级音画同步
- Anyma × Sphere标杆:拉斯维加斯16K LED穹顶+定制音响,8场门票秒空,制作标准对标好莱坞科幻大片
- Lisa《Bad Angel》技术:360度高精度扫描制作数字分身,实景搭建机械废墟后叠加CG和AI特效
- "全息投影"实为空间错觉:由建模+灯光+时间码系统协同制造,AI是效率放大器而非创意替代者
- 中国巡演预告:2026年5月Anyma携ÆDEN巡演登陆上海森兰无界公园(中国唯一一站)
演唱会AI视觉案例对比
| 项目 | 核心手法 | 技术特征 | 视觉风格 |
|---|---|---|---|
| Anyma × Sphere | 16K穹顶LED+UE5实时渲染 | 帧级音画同步+时间码系统 | 赛博朋克/数字生命 |
| 蔡依林Pleasure巡演 | 充气巨物装置+AI视觉 | 巨物装置与舞台表演融合 | 巨物压迫/沉浸感 |
| Lisa《Bad Angel》 | 360度高精度扫描数字分身 | 实景搭建+CG/AI特效叠加 | 机械废墟/赛博朋克 |
AI短剧工业化生产与LibTV工具平台
优设AIGC(20260615) | 卡尔的AI沃茨(20260617) | 船长AI视界(20260617) | AI异类弗兰克(20260618) | 卡尔的AI沃茨(20260622) | 有机大橘子(20260623) | 袋鼠帝AI客栈(20260623)
工业化生产全链路
- 市场普及:2026年Q1AI微短剧占比超95%,累计上线约12.2万部,爆款单部播放破7亿
- 核心壁垒:行业竞争已从技术能力转向“内容判断力+工业效率”,资产一致性成关键
- 主流平台:LibTV覆盖超300家短剧公司;小云雀2.0联合优酷提供千万算力与200万保底
- 极速出片:Seko无限画布串联“剧本-资产-分镜-生成”节点,3小时即可产出两集短剧
- 商业降本:Seedance 2.0全能模式生成10秒片段约8积分,悬疑题材单集总成本约300元
资产一致性与导演控图
- 角色复用:先拆解剧本生成角色三视图,续集自动沿用上集风格,解决跨镜头“换脸”痛点
- 3D导演台:生成前用3D人偶精准预摆站位、姿态、光源,截图作为参考,终结纯文字盲抽
- 全景云端:单张场景图生成720°全景视角,自由旋转任意角度截图作为新资产
- 镜头衔接:采用片段续接(高一致)与首尾帧参考(强通用),前期结构化降低后期重Roll率
提示词与运镜公式
- 分镜公式:时长+景别+构图+运镜+画面内容,结构化描述显著提升3D纵深感和电影感
- 虚词陷阱:模型难理解抽象词(如欢迎/生气),须替换为具体动作(如手举过头顶挥3次)
- ACT打斗:越肩跟拍锁定目标辅以屏幕震动,公式为3D国漫CG+越肩视角+场景+动作+特效
- 高级运镜:运用贝式英雄镜头(环绕气场)、FPV微距(高速穿越)、荷兰角(倾斜压迫感)提升视觉张力
- 构图辅助:利用九宫格功能自动生成武打等4种构图方案,优于手动布局且支持多画风精修
音频生成与出海变现
- 音频引擎:Seed Audio 1.0单次生成2分钟,可延续几十分钟保持音色一致,支持跨场景泛化
- 变现路径:锁定角色节点批量替换产品赋能电商带货,OPC漫剧短剧出海成下半年业务重点
2.4 图像生成底层架构与范式创新
图像生成底层架构创新与后训练对齐
机器之心(20260409) | 量子位(20260411) | AI科技评论(20260507) | 机器之心(20260509) | AI科技评论(20260512) | 极市平台(20260512) | 极市平台(20260512) | 量子位(20260513) | 机器之心(20260521) | 机器之心(20260523) | 机器之心(20260525) | 机器之心(20260525) | 极市平台(20260525) | 百度文心(20260528) | 机器之心(20260529) | CVer(20260524) | 机器之心(20260530) | AI科技评论(20260602) | 机器之心(20260608) | AI科技评论(20260610) | 机器之心(20260611) | 智东西(20260611) | AI异类弗兰克(20260611) | CVer(20260509) | 极市平台(20260615) | 量子位(20260618) | AI科技评论(20260615) | 量子位(20260625) | CVer(20260625) | 百度文心(20260624) | 量子位(20260627)
统一Tokenizer与表征架构
- 统一视觉Tokenizer:南大&腾讯混元HYDRA用单个ViT同时处理图/视频理解与生成,消除双Encoder特征不对齐
- GSB瓶颈模块:高低维特征投影迫使信息高效压缩,调和ViT高频重建与语义理解矛盾,重建能力媲美CNN方案
- 五任务统一:HYDRA-X扩展视频支持图/视的理解、生成及图编辑五项任务,1.5B规模理解均分63.1大幅领先
- 视频与编辑优化:2帧tubelet attention降算力,逐步patchify提升重建,token阶段交互提升编辑性能
- PAE技术:引入DINOv2修正潜空间几何,gFID达1.03,训练速度较REPA快42倍
- RAEv2架构:采用多层特征聚合(MLS),重建误差降70%,成本不及FLUX一半
- PiD (英伟达):将VAE解码器重构为像素扩散,4K峰值显存降至22.5GB,延迟211ms
- PICO (苹果):提出生成式感知图像压缩,文件体积仅为VVC的30%,文字误差降50%
解码与推理优化
- FlashAR:改串行为对角线解码,步数降至H+W-1,Emu3.5-34B实现22.9倍加速
- LeMiica:将缓存决策升级为全局路径优化,ERNIE-Image实现约2倍无损加速
- MILR:测试时在统一潜在空间无参数更新迭代,使Janus-Pro-7B的GenEval升至0.95
Agent范式与后训练对齐
- Agent赋能文生图:Gen-Searcher引入搜索验证使K-Score提升超16分,GEMS使6B模型超越闭源
- VeRL-Omni:通过异步高吞吐rollout显著提升扩散模型多模态RL后训练效率
- 多教师在线蒸馏(OPD):解决奖励冲突与遗忘,学生模型在极端场景下超越所有单任务教师
空间控制与引导新范式
- 美图PE-Field:将2D位置编码扩展为引入Z轴的3D场,支持3D编辑控制
- 自交换引导(SSG):无需文本或加噪,在模型内部交换token特征实现无条件引导
- 全局精炼生成:字节GRN以“边画边改”替代逐行扫描,彻底解决误差累积,2B超越14B
物理计算生成范式:耦合振子替代神经网络层
- 物理计算原语替代神经网络:Un-0 由前 Databricks AI 负责人创办,以大规模耦合振子系统(Kuramoto 模型)替代神经网络层,将计算与记忆合并,绕过冯·诺依曼架构内存瓶颈
- 五步生成流程:随机初始化相位 → 注入类别标签 → 物理动力学自组织演化 → 快照捕捉相位网格 → 轻量解码器渲染像素(<13% 参数量)
- 训练机制创新:与扩散模型显式指导演化不同,Un-0 仅看最终样本,通过自研「漂移损失」配合 DINOv2 和 AdamW 端到端反推优化物理系统
| 数据集 | 振子数 | 总参数 | FID | 训练算力 |
|---|---|---|---|---|
| CIFAR-10 | 8192 | ~1.6亿 | 持续改善 | 20 B200h |
| ImageNet 64×64 | 16384 | ~3.22亿 | 6.74 | 640 B200h |
- 当前性能定位:FID 6.74 可媲美早期传统模型(DCGAN、iDDPM 等),但落后于最新前沿模型(EDM、GDD);振子数增加时 FID 持续改善且未见饱和
- 千倍能效远景:物理计算(计算记忆合一+噪声容忍)理论上有望降低推理能耗 1000 倍,但当前仍在 GPU 上软件模拟,需等 CMOS 振子电路等专用硬件验证
- 范式意义:Un-0 定位为新路线的「Hello World」,核心在于验证「物理能否替代数字计算做 AI」这一范式命题
2.5 多模态创意工作流与AI生图工业化
AI生图工业化工作流与提示词工程
沃垠AI(20260330) | 赛博禅心(20260406) | 苍何(20260425) | AIZ小朱(20260508) | 优设AIGC(20260510) | 优设AIGC(20260511) | 百度文心(20260512) | 百度文心(20260521) | 优设AIGC(20260622) | 优设AIGC(20260623)
- 跨工具协同工作流:MJ出图→可灵3.0生视频→Claude Code生成代码,30分钟可输出全屏动态Hero页
- GPT+设计软件:GPT-Image2负责0到0.7出方向(布局推理、跨图风格统一),Figma接手0.7到1精修交付
- 反向拆解:复制平台提示词非终点,拆解高手的光影、材质、镜头等词汇结构进行内化写作才是核心
提示词工程与调色体系
- 调色四分类:基础调色、影视工业、情绪类型片、质感风格化,需加“偏向XXX,避免过度调色”防AI走极端
- 提示词平台生态:MeiGen万级分类覆盖I2,PromptHero全球跨社区搜索,核心价值从单纯搜索走向商业场景策展
- 场景定义与模板化:300+城市图鉴拆解为视角、近中远景、情绪等层次;GPT逆向329条案例为JSON组件供调用
- 防风格漂移:GPT品牌提案中,每轮生图复述核心参数(色值、字体、IP)以统一跨图视觉
本地LoRA微调
| 显存 | 推荐配置 | 备注 |
|---|---|---|
| 24GB | rank=64 + AdamW8bit | 较轻松应对量化训练 |
| 16GB | rank=32 + layer_offloading | qfloat8量化,速度慢但可跑通 |
- 配置建议:ERNIE-Image(8B)支持单卡微调;trigger_word设null可自动融入风格;配图加同名.txt标注
- 优化器选择:ROSE优化器在人体结构稳定性上显著优于AdamW
产品功能与工业化探索
- MJ Draft模式:半算力生成24张512×512草图,适合低成本概念探索,选中后点Vary渲染全质量
- ERNIE动漫生成:支持日式赛璐璐等画风指定,可实现多格漫画与跨世界观IP联动
- 硬件跨界:MJ发布全身超声波CT扫描仪(8960传感器×40环),计划2027在旧金山开2000+㎡线下Spa
2.6 CVPR 2026图像编辑趋势:多图一致性与精细可控
图像编辑前沿:多图一致编辑、组合生成与连续可控编辑(CVPR 2026)
- 多图一致编辑(GroupEditing):港科大等提出将静态图组视为“伪视频帧”,复用视频模型帧间一致性,含VGGT、Ge-RoPE和Identity-RoPE三大核心模块。
- 多图组合生成基础设施(MICo-150K):港理工等构建含3大类7子任务27种类型数据集,微调Qwen-MICo实现三图组合接近Qwen-Image-2509水平。
- 连续可控编辑(SliderEdit):基于多模态DiT配置滑杆,提出Partial Prompt Suppression损失实现单指令独立抑制,轻量LoRA即可适配FLUX等模型。
- 统一属性编辑(All-in-One Slider):美图&北交大引入属性稀疏自编码器与Top-k激活,在高维潜空间实现属性彻底解耦,替代传统“一属性一训练”。
- 属性零样本泛化:All-in-One Slider支持已学习稀疏语义组件线性组合,平滑控制未见属性,调整强度因子λ时保持身份与背景完整。
- 高频细节注入(HiFi-Inpaint):字节跳动提出共享增强注意力(SEA)模块与细节感知损失(DAL),解决扩散模型“人-产品”生成中的细节丢失。
- HiFi-Inpaint指标突破:CLIP-I 95.0%、DINO 91.9%、SSIM 63.4%、SSIM-HF 42.9%均为最优,可学习权重因子注入显著优于固定权重。
- HP-Image-40K数据集:含4万张人-产品配对图,经FLUX生成、边缘分割及CLIP+YOLOv8+Intern-VL四步自动清洗流程构建。
- 评估指标创新:提出高频结构相似性(SSIM-HF),填补传统指标无法精准捕捉文字、Logo级高频细节保真度的空白。
2.7 统一多模态遥感图像生成:MetaEarth-MM
MetaEarth-MM:场景中心联合建模的多模态遥感生成框架
- 场景中心联合建模:对多模态联合分布建模,替代传统单向条件分布的逐对翻译,单一模型同时覆盖边缘生成、条件生成、联合生成三类任务,将复杂度从O(N²)缩减为单一模型
| 模块 | 架构 | 核心职责 |
|---|---|---|
| 场景推断模块 | DiT + 分区自适应归一化 | 从双模态带噪观测提取潜在场景表示 |
| 模态感知路由生成器 | DiT + 确定性模态路由 | 以场景为条件,独立预测各模态去噪速度场 |
- 分区自适应层归一化:对不同模态分区独立生成调制参数,适应异质噪声尺度
- 模态路由FFN:为每种模态分配专属分支,避免异质分布间的参数竞争与干扰
- 对称InfoNCE损失:约束同一场景不同模态的嵌入趋于一致,实现场景一致性正则化
- EarthMM数据集:包含280万张图像、220万对对齐样本,覆盖RGB/SAR/NIR/PAN/OSM五模态,分辨率0.5–10m
- 性能优势:跨模态翻译综合性能领先,在SAR↔RGB、OSM↔RGB等大域差异任务上优势显著,联合生成质量优于现有方法
- 基础模型潜力:所学场景表示可应用于生成式数据增强、域自适应、零样本迁移等下游任务
3. 音频与3D生成
3.1 AI音频与语音合成
AI语音合成与实时交互技术跃迁
智东西(20260331) | 莫理(20260331) | 探索AGI(20260331) | AI产品银海(20260331) | 智东西(20260402) | 量子位(20260408) | 花叔(20260409) | 阶跃星辰(20260416) | 财联社AI daily(20260420) | 智东西(20260420) | 机器之心(20260422) | 智东西(20260424) | 硅星人Pro(20260427) | 赛博禅心(20260505) | APPSO(20260508) | AI寒武纪(20260508) | 有新Newin(20260508) | AI范儿(20260508) | "财联社AI daily"(20260508) | 量子位(20260508) | "AGI Hunt"(20260508) | 小互AI(20260508) | 阶跃星辰(20260508) | 阶跃星辰(20260509) | 智东西(20260512) | 智东西(20260512) | AI前线(20260512) | 赛博禅心(20260512) | AI产品阿颖(20260512) | 机器之心(20260512) | 前沿在线(20260512) | 新智元(20260512) | 新智元(20260512) | 新智元(20260512) | Datawhale(20260518) | 深度学习与NLP(20260518) | 通义大模型(20260520) | 高飞的电子替身(20260416) | PaperWeekly(20260525) | 机器之心(20260527) | "Z Potentials"(20260605) | AI信息Gap(20260610) | 小互AI(20260610) | AI科技评论(20260617) | 火山引擎(20260618) | 量子位(20260622) | 有机大橘子(20260623) | 火山引擎(20260623) | AI产品阿颖(20260623) | 夕小瑶科技说(20260623) | 摸鱼小李(20260626) | 小互AI(20260627)
实时交互与同传商业化:Boson单卡支持8路并发(16ms/帧);百度数字人破10万;通义与Google同传字均延迟<2.8秒;AI有声书成本暴跌10-80倍
头部企业模型核心能力与数据对比:
- TML-Interaction:双模型协同全双工交互,前台响应0.40秒,FD-bench得分77.8
- OpenAI Realtime-2:推理级实时语音智能体,得分升至96.6%,支持128K窗口
- 阿里 Qwen3.5-Omni:全模态原生音视频理解,压缩至约7 token/s,支持10h音频
- 字节 Seed Audio 1.0:全要素长音频直出,单次提示词生成2分钟多角色场景
- 面壁 MiniCPM-o 4.5:端侧全双工流式语音,9B参数,1.0s窗口,支持12GB端侧
- 阿里 Wan Streamer:单Transformer全双工音视频对话,模型侧延迟约200ms,总交互延迟约550ms
级联与端到端架构对比:
| 维度 | 传统级联流水线 | Wan Streamer端到端 |
|---|---|---|
| 模型构成 | 4–5个独立模块串行 | 单Transformer统一处理 |
| 模态耦合 | 文本中转,延迟累积 | 无中转,模态直接耦合 |
| 全双工交互 | 难以实现 | 原生支持 |
| 模型侧延迟 | 各步骤累加 | 仅约200ms |
Wan Streamer核心架构与部署局限:
- 核心架构:block-causal attention(块内双向、块间因果),每160ms流式单元
- 生成机制:音视频在连续latent空间用条件flow matching联合生成,全栈因果设计
- 部署拆分:训练单模型,部署拆分为双GPU的Thinker-Performer流水线,共享KV-cache互不阻塞
- 多维对标:唯一在感知视频、输出视频、全双工、端到端、<1s响应五维全达标模型(优于GPT-4o与Gemini Live)
- 当前局限:处于概念验证阶段,分辨率仅192p尚未开放(arXiv:2606.25041)
3DReflecNet:复杂材料3D重建基准与全链路性能崩塌诊断
- 首个大规模复杂材料3D重建数据集:港中深王方鑫团队提出3DReflecNet,含12万+合成实例与1000+真实物体,总规模超22TB,覆盖22种材料和2700+真实光照条件。
- SOTA方法性能全面崩塌:复杂材料导致全链路受损,核心任务性能呈断崖式下跌(具体对比如下表)。
| 评估任务 | 测试对象 | 关键指标 | 性能表现 |
|---|---|---|---|
| 3D表面重建 | 光滑金属 | PSNR | 仅19dB(漫反射35dB) |
| 3D表面重建 | 透明材料 | Chamfer距离 | 为漫反射的2-8倍 |
| 3D表面重建 | PGSR | Chamfer距离 | 从0.062飙升至0.502 |
| 图像匹配 | RoMa | AUC@20° | 从86.3暴跌至59.1 |
| 图像匹配 | SP+SG | AUC@5° | 从49.7暴跌至15.2 |
- 三大物理根因诊断:镜面色随视角剧变致光度一致性失效;折射打破对极约束致纹理对应失效;现有数据集材料覆盖严重失衡。
- 数据构建双重创新:扩散模型结合GPT-4o生成3D模型突破资产库限制;利用iPhone 16 Pro+跟踪底座+SAM2绕开特征点缺失问题。
- 学术背景:arXiv 2605.10204,CVPR 2026最佳论文候选,由港中深联合首师大、南USC完成。
清华超斯涅尔扫描光场显示(SSS-LiD)
- 技术突破:清华团队在 Nature Photonics 提出 SSS-LiD,以 1080×1920、360Hz 面板配合定制柱透镜阵列,实现 150° 视角高分辨率裸眼 3D
- 性能碾压:对比 Looking Glass 32",视角扩大 3 倍,全视角有效分辨率提升 2–2.5 倍,实现约 480p 裸眼3D效果
| 对比维度 | SSS-LiD | Looking Glass 32" |
|---|---|---|
| 观看视角 | ~150° | ~50° |
| 有效分辨率 | 全视角提升2–2.5倍 | 基准 |
| 伪影 | 更少、更清晰 | 边缘模糊明显 |
- 核心创新一(SS-LLA):受斯涅尔窗口启发,两次连续折射将 52° 投射范围扩展至 150°,同时降低像差和串扰
- 核心创新二(HMS):显示屏与透镜阵列整体高速横向扫描,利用视觉暂留效应实现时间复用,水平分辨率提升约 8 倍、垂直约 3.2 倍
- 底层逻辑:视角与分辨率矛盾本质是系统总信息量硬约束,SSS-LiD 引入时间维度打破瓶颈,提升信息通量
- 产业洞察:AI 生成 3D 内容爆发使裸眼 3D 显示端成为新瓶颈,SSS-LiD 激活显示终端战略价值;目前仍为实验室原型,小型化与成本待优化
音频推理(Audio Reasoning)全景综述:范式定义、四大路径与评测革新
- 范式定义:港中文首篇全景综述将其定义为独立于文本/视觉的研究范式,推理需锚定在连续、细粒度的声学证据上
- 四大路径:Audio-to-Text、Audio-to-Speech、Audio-Visual、Agentic Audio,覆盖感知到决策全链路
| 技术路径 | 核心机制 | 关键挑战 / 发现 |
|---|---|---|
| Audio-to-Text | inference-time / SFT / RL-based CoT 三类方法 | 反直觉现象:CoT 并非总有效,难题可能误导模型 |
| Audio-to-Speech | 传统 sequential 与实时双轨推理 | 平衡推理深度与低延迟(边听边想 / 边说边想) |
| Audio-Visual | 时间轴上对齐双连续信号,判定证据互补或冲突 | 解决音画同步、说话人归属、跨模态消歧等场景 |
| Agentic Audio | 预设工作流 vs LLM动态调用工具 | 兼顾流程可控性与系统灵活性 |
- 文本捷径漏洞:部分模型未实际处理音频也能答对问题,暴露评测体系根本缺陷
- 听清≠听懂:现有系统丢失语气、情绪等副语言信息,长上下文与实时交互是核心前沿
3D生成、几何引导与场景重建
新智元(20260507) | AI科技评论(20260509) | AI科技评论(20260510) | CVer(20260511) | 极市平台(20260518) | 机器之心(20260527) | AI科技评论(20260527) | AI科技评论(20260604) | CVer(20260604) | 雷峰网(20260605) | 机器之心(20260606) | 雷峰网(20260606) | 量子位(20260606) | 机器之心(20260606) | AI科技评论(20260606) | 新智元(20260606) | CVer(20260607) | PaperAgent(20260607) | 极市平台(20260608) | PaperWeekly(20260608) | CVer(20260615) | 机器之心(20260620) | 机器之心(20260625)
- 动态4D重建范式跃迁:最佳论文D4RT将动态重建转为按需查询,单模型统一输出深度、点云及轨迹,200+ FPS较去年最佳VGGT快约9倍
- 单目3D空间理解:LegoOcc仅用单张RGB实现室内3D占用预测,在Occ-ScanNet达59.50 IoU(较基线提升128%),推理22.47 FPS
- 几何引导3D编辑:浙大与哈佛UniGeo在表示、架构、损失三层注入几何约束,在DL3DV等数据集全面超越CameraCtrl等方法
- 大规模物理AI数据:港理工联合Meta发布PhysInOne(CVPR 2026),含200万视频与71种物理现象,规模超现有两数量级,提出PMF评测指标
- 自监督位姿估计:LA-Pose从1000万段未标注驾驶视频学习潜在表示,Waymo基准位姿精度超基线10%+,大幅降低标注数据需求
- 复杂材质重建基准:3DReflecNet(22TB数据集)揭示SOTA在透明、反光材料的断崖式失效(透明材料PSNR下降19.3%),建评价体系
- 多视角6D姿态估计:AlignPose利用多视角特征-度量对齐实现未见物体6D姿态估计,在YCB-V等基准比单视角提升约11%
- 3D骨架行人重识别:南洋理工首篇SRID综述(IJCAI 2026),仅依赖3D坐标(SimMC模型仅0.15M参数),具隐私保护、抗视角变化优势
- ABot-Earth生成式3D地球模型:高德首发原生3DGS生成框架,支持Z14-Z19六级LOD实时交互,以4K卫星影像为输入,美学评分超Google Earth
- CameraSquad多视角视频生成:首次实现多轨迹并行生成(SIGGRAPH 2026),支持最多6条轨迹同步并反投影构建动态3D点云,旋转误差降至1.52°
- FreeOrbit4D零训练重运镜:通过4D重建提供几何支架实现120°-180°大视角变化,VBench六项指标五项第一,单张A40即可运行
- 具身智能成核心叙事:CVPR 2026最热方向明确向3D视觉倾斜,视觉系统正从静态“看”走向主导物理世界的“行动”
影眸科技 Rodin Gen-2.5 与商业化进展
- Rodin Gen-2.5:全球首个千万面级 3D 生成模型,引入类 LLM「先思考再生成」逻辑(Thinking Effort 五档可调,4 秒百万面至 80 秒千万面),上线首月订阅用户与 ARR 环比增速均扩大 400%
- 核心技术:原生 3D 路径(CLAY 框架,50 万量级数据即可训练),12K 原生 3D 贴图、3D ControlNet 比例/形状控制、递归分件(BANG)、自然语言语义编辑;可控性在预训练阶段写入,构成技术壁垒
- 融资与商业化:完成数亿元融资(凯辉基金、上海国投先导领投),一年半内第三轮;ARR 数千万美金,B 端收入超同赛道所有竞品总和,续费率接近 100%,海外营收占比 70%-80%,60 人团队
- 标杆客户:英伟达(黄仁勋 CES Keynote 工作流唯一初创参与方)、Lowe's(1750 家门店超 30000 SKU,单模型成本 <1 美元)、Unity、Figma、Canva
- 战略判断:3D 生成无大厂数据壁垒,场景碎片化使大厂难以深入;底层架构创新 > 数据堆量,可控性写进预训练是真正护城河;企业级路线(Anthropic 式)在应用层更具可持续性
- 具身智能布局:联合上海交大、港大推出 ManiTwin-100K,首个十万级 Manipulation-Ready 3D 物体数据集
3.2 AI音乐生成
AI音乐生成模型竞争格局与技术跃迁
公子龙(20260401) | 昆仑万维集团(20260404) | 机器之心(20260410) | MiniMax 稀宇科技(20260410) | 优设AIGC(20260411) | AI大模型工场(20260415) | 机器之心(20260511) | 昆仑万维集团(20260511) | 昆仑万维集团(20260512) | 夕小瑶科技说(20260522) | AI寒武纪(20260529) | "Z Potentials"(20260603) | "Z Potentials"(20260604) | 智东西(20260604) | 财联社AI daily(20260410)
全球AI音乐核心玩家竞争格局
- Suno:48kHz声波直接建模;估值54亿美元,超200万订阅,年销售额约3亿美元
- Mureka:自研MusiCoT框架推理式创作;日均生成150万首,服务超8000家企业,V8登顶双榜全球第一
- MiniMax:最新发布Music 2.6模型;支持旋律骨架提取、BPM/Key精准控制及Cover全风格置换
- ElevenLabs:实现单曲内流派无缝切换与快嘴说唱;全正版授权可商用,Creative与API最高降价50%
B端市场迁移:Mureka填补API真空
- 合规与供应痛点:Suno与Udio长期未开放官方API,B端曾被迫依赖无SLA保障的灰产中转
- 企业级迁移加速:Mureka填补合规API真空,Sondo全量切换后核心业务翻倍,海外MV平台消耗增6倍
- 竞争逻辑转变:采购决策从单一模型效果扩展为质量、合规、响应速度与透明定价的综合考量
技术与能力跃迁趋势
- 从随机生成到生产可用:Mureka V9搭载MusiCoT框架,让AI具备作曲家级别的全局规划创作思维
- 人声与拟真度突破:MiniMax保留呼吸感等瑕疵,Mureka解决人声模糊,双双达到直接发布级品质
- 精准控制与局部编辑:支持段落文本控制与情绪推进设定,ElevenLabs实现节拍级片段重绘
商业化趋势与版权博弈
- Suno版权突围:已与华纳和解授权,但与环球、索尼诉讼升级,诉状扩至超6.1万首歌曲
- 战略定位差异:Suno主打创造型娱乐平台,Mureka瞄准B端API与出海合规,ElevenLabs聚焦商用授权
- 成本大幅下降:传统专业歌曲制作成本超10万元,AI音乐降至1元,降幅达99.99%
VLM³:标准VLM+归一化替代三维视觉专家模型
- 核心发现:标准VLM(Qwen3-vl-4B)仅需SFT+两个归一化操作,即可在四大三维视觉任务上媲美或超越专家模型
- Bitter Lesson验证:证明离散token建模可替代连续回归实现三维理解,颠覆领域核心假设
- 关键洞察:三维视觉瓶颈在训练范式而非模型规模,4B模型全面超越8B/32B专家模型
- 极简设计:基于标准VLM架构零修改,仅引入相机焦距归一化与像素空间归一化两个预处理
| 设计要素 | VLM³(4B) | 专家模型 |
|---|---|---|
| 架构 | 标准VLM无修改 | 任务定制网络 |
| 损失函数 | 标准SFT | 专门设计 |
| 数据增强 | 无需定制 | 大量定制 |
| 输出方式 | 离散token | 连续回归 |
- 性能表现:单目深度估计准确率从DepthLM的84提升至90;4B参数在目标级三维理解上超越8B模型
- 四大任务验证:深度估计持平UniDepthV2;像素匹配超越DKM;姿态估计超越VGGT
- 统一框架:三维视觉不再与VLM预训练分离,可在统一框架下实现scaling law
- 工程启发:投入复杂架构前,应优先验证标准VLM+简单预处理能否解决问题
3.3 语音识别与转写
语音识别模型前沿:开源轻量化、多语种统一与极速推理
Z Potentials(20260330) | 智东西(20260403) | 通义大模型(20260420) | 财联社AI daily(20260420) | 阶跃星辰(20260424) | 智东西(20260424)
2025年上半年,ASR赛道在开源多语种、极速推理与长音频端到端方向全面突破,多项模型达到或超越商业产品水准。
| 模型 | 厂商 | 核心架构 | 关键性能指标 |
|---|---|---|---|
| Transcribe | Cohere | 2B参数Conformer | WER 5.42,吞吐525分钟/分,支持14种语言 |
| MAI-Transcribe-1 | 微软 | Azure深度集成 | 速度为前代2.5倍,FLEURS基准25语言WER最低 |
| StepAudio 2.5 | 阶跃星辰 | ASR+MTP-5 | 峰值500 tokens/s,32K上下文,30分钟端到端 |
| Fun-ASR1.5 | 阿里通义 | 统一模型架构 | 覆盖30语言+7大方言,方言CER下降56.2% |
极速推理:MTP技术跨领域迁移
- 架构突破:阶跃StepAudio首次将LLM多Token预测(MTP)引入ASR,打破串行生成瓶颈
- 效率跃升:推理峰值达500 tokens/s,吞吐提升400%,时延降60%,成本骤降90%
- 价格骤降:定价仅0.15元/小时,仅为上代产品的1/10,大幅降低企业调用成本
- 长音频处理:复用LLM原生32K上下文,单次支持30分钟连续音频端到端转写
多语种与方言统一建模
- 覆盖广泛:Fun-ASR1.5单模型覆盖30种语言、七大方言体系及20+地方口音
- 方言大幅提升:基于数十万小时数据训练,典型方言CER相对下降56.2%
- 无需预设语种:支持跨语种自由混合对话,古诗词吟诵字符级准确率达97%
- 智能后处理:支持语义标点预测与ITN文本归一化,显著提升转写可读性
实战短板与商业化进展
- 倍速及高情绪崩溃:MAI-Transcribe-1在二倍速及激烈争吵场景识别精度显著下降
- 非标适配存疑:StepAudio文件上传模式偶现失败,真实复杂场景适应性待验证
- 无标点输出:MAI-Transcribe-1一倍速下零误差,但完全无标点断句,距字幕级体验仍有差距
- 商业化加速:Cohere开源抢占开发者生态,ARR达2.4亿美元,暗示语音AI商业化提速
3.4 AI音频大模型架构与理解
音频大模型架构演进与能力评估
PaperWeekly(20260408) | 机器之心(20260508) | 极市平台(20260509) | 机器之心(20260520) | 极市平台(20260528) | 量子位(20260615) | 逛逛GitHub(20260622) | 新智元(20260628)
音频生成范式与瓶颈突破
- 跨模态通才突破(Omni2Sound):化解数据错位非架构,标准DiT超专家模型,获CVPR 2026 Highlight
- 三阶段渐进训练:T2A预训练→多任务交织→解耦鲁棒性,配合SoundAtlas 47万对齐降本5倍
- Raw波形生成(WavFlow):绕过VAE/Codec,借S=50全局缩放(Amplitude Lifting)直接生成
极速蒸馏与多模态统一(AudioX-Turbo)
- 研发与部署(港科大/清华/Noiz AI):荐A100/H800+CUDA 12.1,支持Gradio与Python API调用
- 权重托管与拓展:HuggingFace托管学生模型+VAE+Synchformer,视频条件需用Synchformer提特征
- 4步极速蒸馏:基于DMD+判别器,4090生成10秒音频仅0.24秒(RTF=0.02),音质部分反超教师
- 统一模态生成:MMDiT骨干支持文/视/音等6种跨模态任务,训练推理更稳定
- 数据规模壁垒:自建IF-caps-Pro达920万样本,远超AudioCaps等基线一至两个数量级
AI沉浸式历史视频爆发
- AI第一人称历史Vlog:创作者Chloe以亲历者视角用AI重建历史现场,YouTube粉丝超320万,单条最高240万播放
- 真实感跨越门槛(2025):手指、衣服穿模、眼神空洞实现质变,服饰/皮肤/光线达肉眼难辨真假
- 内容模式创新:刻画灾难前“平常的一天”,利用信息不对称(观众已知结局)制造共情
- 历史传播介质跃迁:文字→图片→影像→AI沉浸体验,首次让普通人感受到“在历史里”而非“看历史”
- 代表作品数据:泰坦尼克号1912(240万播放)、古罗马公元44年(128万)、都铎伦敦1536年
核心洞察
- 数据重于架构:通才困境与音频贡献缺失均指向数据语义错位,数据工程优于架构堆叠
- 交互落地加速:分布匹配蒸馏将扩散压缩至4步内,打通实时音频交互工具的关键路径
- 多模态协同演进:AI音频极速蒸馏与视频真实感质变共振,正催生“单人+多模态AI重建历史现场”的全新沉浸内容形态
3.5 3D场景与世界模型生成
3D场景生成产品与应用落地
量子位(20260409) | CVer(20260415) | 小互AI(20260427) | 智东西(20260427) | 曼话AI(20260508) | 机器之心(20260521)
| Yo'City | 无边界3D城市 | 语言生成可扩展城市 | 三级层次化结构 |
| GaussianPile | 医学容积重建 | 切片式3DGS看内部结构 | 16-26倍压缩,约8分钟收敛 |
双模型:画质与空间权衡
- Marble 1.1:专注画质优化,消除前代过曝泛白,色彩饱满,适合新用户。
- Marble 1.1-Plus:专注空间扩展,补出更大3D覆盖范围,耗时约为1.1两倍。
- 结构性矛盾:当前技术下大空间与高画质难以兼得,空间越大画质越模糊。
移动端突破:灵光App
- 底层模型:接入蚂蚁灵波开源的LingBot-World-Fast,采用流式传输绕开本地算力瓶颈。
- 交互设计:引入手游双摇杆操控,零学习成本,保留原图光影、雾气等大气效果。
- 实测表现:复杂建筑保留门洞景深,近中远景层次分明,但快速移动时清晰度下降。
3D影视创作闭环:TapNow
- 空间稳定:通过“先建空间再做镜头”解决AI视频空间不稳定及镜头穿帮难题。
- 资产复用:局部修改联动全局,场景与镜位可复用,提升系列内容创作效率。
- 工作流验证:实测全流程跑通30秒AI科幻短片,空间一致性显著优于传统流程。
无边界3D城市:Yo'City
- 层次结构:北大提出City-District-Grid三级框架,仅需自然语言从零生成3D城市。
- 四阶段流程:全局规划(RAG引入语料库)→局部设计→3D生成(闭环评估)→持续扩展。
- 性能优势:语义一致性与视觉质量显著优于Trellis、Hunyuan3D等基线方法。
医学3DGS容积成像:GaussianPile
- 切片式3DGS:显式建模切片有限厚度与焦深效应,解决标准3DGS内部结构失真问题。
- 三步渲染:采样虚拟切片→轴向重参数化调制离焦→加性累积体积强度。
- 核心优势:相比Voxel Grid压缩16-26倍,相比INR/NeRF优化速度快11倍,平均收敛8分钟。
- 应用场景:支持医学影像压缩存储、科学数据浏览及机器人辅助手术中的实时三维感知。
3D场景生成前沿方法:物理仿真与Agent闭环优化
机器之心(20260502) | 机器之心(20260508) | 机器之心(20260609) | DeepTech深科技(20260621)
核心趋势
- 范式跃迁:3D生成正从“能看”迈向“能用”,资产自带物理属性可直接导入仿真或游戏引擎
- 全链路闭环:打通“生成3D资产-物理参数标注-导入机器人仿真”全流程,消除手动标注瓶颈
四大前沿框架技术对比
| 维度 | PAT3D | Scenethesis | PhysForge | 南洋理工方案 |
|---|---|---|---|---|
| 研发机构 | CMU等 | 英伟达&普渡 | 港大&腾讯 | 南洋理工 |
| 核心定位 | 静力平衡优化 | Agent自检闭环 | 关节运动学注入 | 首个内置物理仿真生成 |
| 技术路径 | 层级场景树+可微仿真 | SDF几何对齐 | KVI关节注入去噪 | 生成阶段嵌入仿真 |
框架核心机制
- PAT3D:单目深度估计回投3D布局,执行同层去重叠与父子分离,可微刚体仿真实现静力平衡
- Scenethesis:语言规划提取线索,Judge模块触发“生成-检查-修复”Agent闭环,突破室内场景限制
- PhysForge:VLM输出层级物理蓝图,Diffusion模型联合生成外观与运动学参数
- 南洋理工:生成阶段直接嵌入物理仿真,输出资产可直接接入RoboTain执行机器人训练
核心指标与泛化能力
- PAT3D:18个复杂提示词测试中模拟位移降为0,穿插比例为0,评分达88.5
- Scenethesis:SDF优化将碰撞率从6.1%降至0.8%,场景通过率从72%升至91%
- 泛化突破:PAT3D处理复杂物理层级,Scenethesis成功覆盖海滩、公园等户外场景
PhysDB数据与标注体系
- 资产规模:基于15万Objaverse资产构建,覆盖家用、工业、车辆等七大类别
- 四层标注:场景尺度→部件材质→功能状态机→交互关节轴
- 应用价值:自带结构与运动学属性,可直接接入Unity或具身智能执行操作
3.6 3D生成与空间计算
3D世界生成技术突破与产品进展
新智元(20260405) | 机器之心(20260408) | AI有道(20260410) | 腾讯混元(20260416) | 量子位(20260416) | 财联社AI daily(20260416) | AI前线(20260416) | 智东西(20260416) | 智东西(20260416) | 钛媒体AGI(20260416) | 量子位(20260417) | APPSO(20260417) | 机器之心(20260418) | 袋鼠帝AI客栈(20260418) | JackCui(20260418) | 特工宇宙(20260424) | 新智元(20260426) | 机器之心(20260501) | 沃垠AI(20260506) | CVer(20260510) | DeepTech深科技(20260513) | 机器之心(20260514) | 量子位(20260416) | 机器之心(20260521) | 极市平台(20260521) | 量子位(20260527) | 新智元(20260608) | 新智元(20260617) | 量子位(20260619) | 极市平台(20260624)
技术范式跃迁与竞争格局
- 核心趋势:从“被动文生视频”转向“可交互3D世界生成”,要求模型主动理解空间、物理与因果规律
- 赛道爆发:腾讯、阿里、英伟达、李飞飞团队密集发布,形成3D结构化、长时序模拟、实时交互三大技术路线
大厂与明星产品矩阵
| 产品 | 核心突破 | 性能/特点 | 落地场景 |
|---|---|---|---|
| 腾讯混元3.0 | 生成式与重建式统一 | F1达43.16,一致性94%,支持物理碰撞 | 游戏引擎无缝对接 |
| 阿里HappyOyster | 原生多模态世界模拟 | 最长3分钟/720p,支持文本/语音实时介入 | 影游互动与探索 |
| World Labs Marble | 画质与大规模空间扩展 | 升级1.1与1.1-Plus版,开放API服务 | 开发者商用 |
| 高德DreamX-World | 几何检索记忆机制 | 8×RTX 5090实现16 FPS流式生成,单图10分钟建城 | 3D城市与数字孪生 |
| 英伟达Lyra 2.0 | 解决长时程空间遗忘 | 100%开源,单图生成可漫游3D世界 | Isaac Sim机器人训练 |
物理仿真与底层架构创新
- 理论框架:2D、3D、4D生成是外观+几何+动力学的维度递进建模,4D是终极目标(TPAMI 2026)
- 物理增强:PAT3D引入层级化场景树和可微刚体仿真,实现位移0、穿插0、合理性88.5分
- 状态记忆:HappyOyster将状态压缩为隐状态递归传递并发放元素“身份卡”,解决长视频漂移
- 无限长重建:魔芯StreamCacheVGGT实现O(1)恒定显存下500帧重建,深度误差降至0.123
商业化落地与创作平民化
- 企业级商用加速:腾讯数十家企业合作,高德覆盖全球190+国家,魔芯KOKONI-World(14B参数/2000帧记忆)已创收
- 零代码互动影游:Yoroll接入Seedance,15分钟零代码生成可玩ARPG;LinearGame支持一周开发AI爆款游戏
- 原生3D编辑提效:VASTDeG高斯密度学习化节省一半算力,VGGT-Edit实现5秒单次编辑(120倍加速)
3.7 3D资产骨骼绑定与动画化生成
骨骼绑定与动画化技术体系
CVer(20260403) | 机器之心(20260420) | 量子位(20260422) | 新智元(20260422) | CVer(20260506) | 具身智能之心(20260612)
行业演进与核心洞察
- 标准升级:3D资产生成核心标准从“视觉真实度”转向“可动画性”,要求直入生产管线
- 统一场优于串行:几何、骨架、蒙皮联合优化避免误差累积,消除AIGC资产穿模与脱臼痛点
- 拓扑泛化关键:关节数量解耦特征表达,使同一套算法能统一处理角色、动物与机械臂等任意拓扑
核心模型与参数对比
| 模型 | 核心机制 | 输入 | 性能指标 | 工业价值 |
|---|---|---|---|---|
| AniGen | S³ Fields三场联合建模 | 单张图片 | SIGGRAPH 2026 TOG收录 | 直导Maya/UE,生成即绑定 |
| TokenRig | SkinTokens离散化+GRPO | 3D网格 | 蒙皮准确率提升98%~133% | AI绑定达动画生产级精度 |
| MonoArt | 四阶段渐进式3D结构推理 | 单张图片 | 耗时20.5s(竞品229.9s+) | 直入IsaacSim机械臂仿真 |
| DancingBox | 三模型协同RGB动捕 | 手机视频 | CHI 2026最佳论文提名 | 新手即可自由创作角色动画 |
| SimArt | 聚焦3D铰链物体生成瓶颈 | - | 仅需30% Token高效生成 | SIGGRAPH'26收录,打破算力限制 |
关键技术创新路线
- AniGen三场联合:置信度衰减骨骼场剔除噪声,对偶蒙皮场解决AIGC资产脱臼与穿模问题
- TokenRig统一自回归:单Transformer先生成骨架后生成蒙皮,GRPO强化学习无标注迭代提升17%~22%
- MonoArt特征隔离:部件与运动均在3D空间,利用triplet loss拉开部件特征距离提升稳定性
- DancingBox动捕:SAM2分割+CoTracker3追踪+π3单目点云,从2D视频精准估计3D包围盒运动序列
- DancingBox精细生成:基于HumanML3D构造包围盒,ControlNet向MDM注入信号保证特征顺序无关
3.8 单图/文生3D模型资产与商业化
单图/文生3D模型:产品化能力与技术突破
AI信息Gap(20260401) | AI产品银海(20260413) | 趣谈AI(20260413) | 字节跳动Seed(20260423) | 火山引擎(20260423) | "财联社AI daily"(20260423) | 火山引擎(20260424) | 探索AGI(20260427) | 趣谈AI(20260518) | 优设AIGC(20260604) | 量子位(20260605) | 智能涌现(20260623) | "Z Potentials"(20260623) | 新智元(20260624) | APPSO(20260625) | 量子位(20260625) | 卡尔的AI沃茨(20260626) | 深度学习与NLP(20260624) | 硅星人Pro(20260629) | "Founder Park"(20260629)
- 路线对比:2D升维存多视角不一致上限(如多头),原生3D(CLAY)仅用50万量级数据即保证一致性,领先一个量级
- 极致效率:原生范式以推理换质量,Rodin五档自适应分配4s至80s算力,极速流程可压缩至5秒出图
- 学术与数据底座:连续多年获SIGGRAPH最佳论文及提名入选MIT课程;亚微米穹顶光场提供训练数据
核心模型与多产品参数
- Rodin Gen-2.5:首创千万面原生模型,Medium档20s追平上代40s
- Hi3D(Sparc3D):生成1536³体素(约36.2亿面),2分钟出图,效率提升约90%
- Fast-SAM3D:训练无关加速框架,边缘高熵精准分配算力,单对象提速2.67倍
- 数美Hitem3D:工业级图生3D,最高200万面原生STL直出打印
- Neural4D 2.5:打通单图到百万面生成、生图、视频与AI材质全链路
- HiCAD 2.0:Three.js零拷贝渲染浏览器原生CAD,支持自然语言生成且开源
可控性护城河与材质工艺
- 核心壁垒:3D ControlNet控形、递归分件(BANG)拆件、语义级局部编辑均写入预训练,非后期外挂
- 极致生成细节:支持边界框/体素/点云多模态输入,自然语言局部编辑避免重抽卡
- 12K原生贴图:参考图光照与纹理一致性补全至几何表面,支持高精度PBR物理材质
商业爆发与具身智能
- 企业级路线:放弃泛C端,B端收入超同赛道总和,续费率近100%,海外营收占比70%-80%
- ARR与融资:上线首月订阅与ARR环比增超400%至数千万美元;完成数亿元第三轮融资,凯辉与上海国投先导领投
- 标杆客户验证:英伟达CES唯一初创参与方;Lowe's 1750店单模型成本从500美元降至1美元内
- 巨头生态闭环:深度接入Unity、字节跳动等,代工费0.35元/克顺应打印设备产量增52.5%
- 具身智能布局:联合上海交大、港大推出ManiTwin-100K,首个十万级Manipulation-Ready数据集
- 高人效精英团队:约60人(研发2/3)一年半完成3轮大额融资,算法顶会殊荣率极高
3.9 AI 3D 商业化生态与行业演进
AI 3D 商业化标杆与行业演进
Z Potentials(20260410) | 硅星人Pro(20260423) | 机器之心(20260427) | 量子位(20260427) | 硅星人Pro(20260610) | 量子位(20260611) | 深度学习与NLP(20260611)
- 商业数据亮眼:ARR达4000万美元(2025年同比翻14倍),毛利85%,LTV/CAC>4,累计用户破千万,欧美市场占比超60%。
- 技术路线转向3D原生:全面从2D升维转向三维空间直接训练生成,核心瓶颈转向资产可用性。
- 雕塑级精度与打印适配:精准还原面部微几何与衣物褶皱,Bambu Studio切片通过率达97%,75个模型测试中55%零瑕疵。
竞争范式迁移:从单点生成到全链路交付
| 比较维度 | 旧范式(单点生成) | 新范式(Agent时代) |
|---|---|---|
| 竞争焦点 | 单点模型质量与生成速度 | 全链路综合交付能力 |
| 核心指标 | 单次生成效果 | 可编辑性、一致性、批量与下游适配 |
| 工具定位 | 单点生成器 | 工作流平台入口 |
Agent产品形态与全链路闭环
- 发布全球首个3D创作Agent:多轮对话驱动全链路可控生产,支持自然语言输入与局部替换。
- 自动化管线护城河:覆盖白模生成、重拓扑至多色打印全流程,画布保留中间产物支持分支修改,显著提升留存。
- 下游工作流深度打通:自动检测修复破洞,直连拓竹、创想等切片软件,消除生成到使用的衔接成本。
- 多格式导出适配:支持FBX/OBJ/GLB等主流格式,覆盖Bambu Studio/Creality Print/OrcaSlicer等平台。
- 游戏场景深度闭环:根据清单批量生成Low Poly资产并自检风格统一,追加新资产自动保持整体一致。
跨赛道技术启示:开辟世界模型新路线
- AI视频消费级爆发验证:Viggle上线4个月Discord用户达450万(增速超Midjourney),峰值每秒超50请求。
- JST架构开辟3D新路线:用World Token直接编码空间位置与物理关系,支持端到端生成与实时交互,区别于2D延伸与3D引擎AI化。
3.10 结构化3D生成:从内容生成到离散组合优化
LegoACE:自回归范式驱动的LEGO结构化生成引擎
- 核心突破:LegoACE(SIGGRAPH Asia 2025)由VAST联合浙大、清华等提出,首创让模型隐式学习砖块组合规则,彻底摆脱人工标注连接点。
- 技术范式:采用LEGO Native Tokenization将砖块编码为位置、旋转、类型三个token,基于decoder-only Transformer自回归生成。
- 数据支撑:构建LegoVerse数据集,包含55,000个模型、9,314种砖块类型(含车轮、门窗等不规则件)、48种旋转变换。
- 条件生成:支持文字(CLIP提取语义)与多视角法线图(DINOv2提取特征),端到端直接输出无需中间格式转换。
- 训练优化:随机截取子序列渲染法线图做数据增强,采用DPO算法以Chamfer Distance为偏好标准进行优化。
- 范式演进:该方法标志着从传统的“内容生成”向更高维度的“离散结构组合优化”跨越,不显式编码连接关系,由模型从数据中自主学习。
与传统方法对比:
| 方法 | 核心思路 | 核心瓶颈 | LegoACE优势 |
|---|---|---|---|
| 体素建模 | 转为带连接关系的三维体素 | 需人工标注每种砖块连接点,扩展性差 | 省去人工标注,推理效率更高 |
| BrickGPT | 将LEGO序列化为文本微调LLM | 仅支持规则方块,难处理不规则零件 | 支持9,314种砖块,含专用装饰件 |
4. 视频生成商业化与生态
4.1 AI视频商业化应用
商业化应用与行业生态格局
探索AGI(20260330) | 量子位(20260403) | 机器之心(20260403) | AI信息Gap(20260406) | 量子位(20260409) | 脑极体(20260410) | 硅星人Pro(20260413) | 雷峰网(20260421) | 智能涌现(20260424) | 可灵AI(20260424) | 硅基观察Pro(20260424) | 可灵AI(20260425) | 可灵AI(20260425) | 莫理(20260426) | AI信息Gap(20260428) | 硅星人Pro(20260501) | AI寒武纪(20260504) | 小互AI(20260506) | 数智前线(20260506) | 花叔(20260506) | 智能涌现(20260507) | 量子位(20260507) | 硅星人Pro(20260508) | AI产品银海(20260511) | 莫理(20260512) | 智能涌现(20260512) | "财联社AI daily"(20260512) | AI寒武纪(20260513) | 优设AIGC(20260513) | 船长AI视界(20260513) | AI异类弗兰克(20260514) | 路人甲TM(20260514) | 量子位(20260516) | 新智元(20260517) | 网罗灯下黑(20260517) | 小互AI(20260518) | 花叔(20260517) | 公子龙(20260518) | 沃垠AI(20260518) | 莫理(20260518) | 优设AIGC(20260518) | AI科技评论(20260519) | AI异类弗兰克(20260519) | APPSO(20260520) | 优设AIGC(20260520) | 新智元(20260520) | AI新榜(20260520) | "财联社AI daily"(20260520) | 开源AI项目落地(20260520) | 火山引擎(20260521) | 划重点KeyPoints(20260521) | "Z Potentials"(20260521) | 阿里云(20260521) | AI新榜(20260521) | 量子位(20260522) | 商汤科技SenseTime(20260522) | 百度文心(20260522) | 钛媒体AGI(20260523) | 莫理(20260526) | 甲木未来派(20260527) | 莫理(20260527) | 花叔(20260527) | 优设AIGC(20260528) | 十字路口Crossing(20260528) | 机器之心(20260604) | AI产品阿颖(20260609) | 莫理(20260610) | AI新榜(20260610) | 量子位(20260611) | 脑极体(20260611) | 袋鼠帝AI客栈(20260611) | 有新Newin(20260611) | 优设AIGC(20260612) | 路人甲TM(20260612) | 莫理(20260614) | 硅星人Pro(20260617) | 昆仑万维集团(20260623) | "AGI Hunt"(20260626) | 路人甲TM(20260602) | "Z Potentials"(20260627) | 光锥智能(20260629) | 甲子光年(20260629) | 硅星人Pro(20260629) | 量子位(20260629) | AI寒武纪(20260629)
核心出片与定向返工
- 出片效率:15秒广告<40秒出片,1分41秒动画约15分钟,Pavo端1分钟短剧一次性生成
- 定向修改:支持上下文记忆与逐镜头定向返工,第二轮直接下局部指令,避免推倒重来
免费API矩阵与模型能力
- 免费矩阵:Agnes(文本)、Image(图)、Video(视频)全球无限期免费,单周调用量达4.66万亿Token
- 模型路由:常规匹配免费Agnes,复杂运镜匹配付费Seedance,支持零成本验证再追加预算
- 能力升级:Video-2.5提效及改善物理运镜乱码,图片支持1K-4K与多参考图跨场景一致,文本上线1M上下文
Pavo工作台与工业化生态
- 平台定位:API降开发者门槛,Pavo降非代码创作者门槛,实现图/视频/短剧/Agent四模块同台协同
- 全链路自动化:Pavo引擎实现剧本到成片端到端衔接,图生直连视频首帧免切换,解决创作最大断点
- 生态协同:告别单点串行,转向多Agent协同专业画布,多人实时并行,图文视频能力可封装为Skill
商业化重构与产能爆发
- Seedance三层模式:顶层API年框单客千万,中层火山/Kickart平台订阅,底层扣子零差价Token变现
- 制作成本探底:视频成本近0.3美元/分钟,火山1080P一分钟2000-3000元,AI短剧降至3-5万元
- 产能与高转化:DramaWave月产200+部ARR达6亿美元,LibTV单日破百万美金,AniShort付费率超64%
- 交付级体验:4K无拼接直出突破严审红线,直接打通商业级交付
市场战略与底层逻辑
- 市场前景:国内漫剧用户预计2026年超2.8亿,市场规模破240亿元,网传Seedance年收20亿被辟谣
- 核心焦点:行业瓶颈已从生成能力转向稳定性与成本,当API成本趋零,竞争焦点全面转向工作流高效性
- 底层逻辑:以免费换取生态规模与真实数据,推动模型迭代并为增值服务蓄水
影石Luna:AI驱动的口袋云台相机品类重新定义
- 战略重构品类:影石Luna放弃复制大疆Pocket路线,以“拍摄助手(Cameraman)”理念切入非摄影师群体,定义便携云台相机新赛道
- 核心方法论:在红海中识别非共识需求反向定义产品,以技术壁垒替代资源壁垒,注重长期主义
路线分野与差异化设计
| 维度 | 大疆Pocket | 影石Luna |
|---|---|---|
| 核心命题 | 把专业云台装进口袋 | 为普通用户做什么 |
| 用户假设 | 摄影师(创作工具) | 非摄影师(拍摄助手) |
| 画质侧重 | 视频为主 | 视频照片并重,强化人像 |
- 横置双摄:模拟人眼布局,收纳紧凑,配件比同类产品短10mm,内置三脚架
- 第一人称套件:镜头随头转动实现“看哪拍哪”,覆盖滑雪、骑行等场景
- 可拆卸图传遥控屏:一体化不易丢失,内置无线麦克风,通过万次可靠性测试
- 3倍光学长焦:等效60mm,精准切入50-70mm旅行摄影“甜点焦段”
软硬生态与技术护城河
- 技术整合:融合ONE R双摄专利、Link AI追踪、Flow云台、Ace暗光画质等多代技术,与徕卡深度合作双摄
- AI软件壁垒:近十年技术积累,从自动拼接迭代至AI运镜,构建“硬件+软件+数据”生态闭环
影像自动化与市场布局
- 寻影(OBSBOT):2016年创立,连续五年50%+增长,全球高端Webcam市占超50%,海外先行后回攻国内
- 产品矩阵:Tail系列(专业电竞/综艺)、Tiny系列(高端Webcam)、Meet系列(主流价位),覆盖150+国家
- 影石市场基座:年营收破百亿,全景相机市占率近九成,Luna Ultra国内限时3999元起
4.2 视频创作生态与行业动态
AI视频创作生态演进与平台竞争格局
哩布哩布AI(20260330) | AI新榜(20260330) | AI新榜(20260331) | 可灵AI(20260401) | 机器之心(20260403) | 智能涌现(20260403) | AI新榜(20260404) | 前沿在线(20260404) | 量子位(20260404) | AI故事计划(20260407) | APPSO(20260408) | AI新榜(20260413) | 硅星人Pro(20260414) | AI新榜(20260414) | "MiniMax 稀宇科技"(20260423) | 钛媒体AGI(20260423) | 可灵AI(20260428) | AI新榜(20260430) | 量子位(20260501) | AI新榜(20260507) | APPSO(20260512) | AI新榜(20260513) | 硅星人Pro(20260514) | 雷峰网(20260514) | 硅星人Pro(20260515) | 可灵AI(20260518) | AI新榜(20260519) | 沃垠AI(20260521) | 优设AIGC(20260521) | 路人甲TM(20260522) | InfoQ(20260518) | 优设AIGC(20260524) | AI新榜(20260526) | AI新榜(20260527) | 公子龙(20260531) | 网罗灯下黑(20260531) | 优设AIGC(20260601) | AI产品阿颖(20260601) | JackCui(20260601) | 卡尔的AI沃茨(20260601) | 沃垠AI(20260601) | AI产品银海(20260602) | AI新榜(20260605) | AI产品银海(20260605) | "梦飞 AI"(20260605) | 量子位(20260610) | AI新榜(20260612) | 网罗灯下黑(20260615) | 莫理(20260615) | AI产品银海(20260615) | 沃垠AI(20260616) | 阿枫科技(20260616) | AI异类弗兰克(20260617) | AI故事计划(20260618) | 硅星人Pro(20260619) | 深度学习与NLP(20260428) | "财联社AI daily"(20260622) | APPSO(20260623) | 曼话AI(20260623) | 优设AIGC(20260624) | AI前线(20260518) | 钛媒体AGI(20260628)
行业生态与平台战略
- 战略转移:2026上半年为转折点,长视频平台从版权战转为基础创作设施,降维打击(腾讯/爱奇艺等)。
- 字节闭环:打通番茄(IP)-火山Seedance(算力)-红果抖音(分发)-巨量(变现),2.0版成行业爆发催化剂。
- 流量扶持:抖音浪潮计划486亿播放,B站倾斜超7亿,加速爆款孵化与二创。
分账大战与变现逻辑
- 白热化竞争:抖音90%版权方分成,快手联合运营最高分账90%,爱奇艺独家会员分成可达100%。
- 情绪变现:由视觉炫技转强世界观构建,全AI生成IP两月播放超15亿,反向催生真人COS。
头部大模型竞争格局
- 快手可灵:ARR超3亿美元(国际70%),原生4K,千万用户,拟200亿美元分拆。
- 字节Seedance:单月ARR破10亿,2.5版直出30秒,单秒成本0.15元。
- 阿里HappyHorse:联合虎鲸落地,Elo 1368登顶无音频榜,声画延迟80ms。
工业化工具链与成本探底
- 平台入局:腾讯成本降60%且产能翻5倍,爱奇艺降90%,芒果开放IP素材库。
- 工具赋能:3D导演台实现姿态约束终结盲猜,多Agent支持5万字剧本拆解。
- 成本探底:AI漫剧压至1000-2500元/分钟,周期缩至10天,3000元可单人完成短片。
供需瓶颈与破壁案例
- 精品稀缺:春节档真人剧上线量仅AI剧1/50但总播放达25倍,瓶颈在工业化流程断裂。
- 个人破壁:Mx-Shell耗3000元10天制作短片双平台破500万,社区300元即可复刻。
AI互动游戏技术范式
- 分层架构:Yoroll提“视频表现层+逻辑层”,AI管画面情绪,传统系统管数值状态机。
- 生成策略:核心剧情预生成缓存,短对白实时生成,交互判定交由传统逻辑。
- 行业冲击:互动影游等叙事品类改造最快,3A竞技最慢。
- 新护城河:行业壁垒从“资产生产能力”彻底转向“生成工作流设计与质控能力”。
4.3 AI影视信任危机与行业阵痛
AI影视信任危机、合规治理与行业门槛重塑
财联社AI daily(20260402) | 阑夕(20260401) | 钛媒体AGI(20260420) | 光子星球(20260507) | 优设AIGC(20260519)
- 监管路径转向源头追溯:国家广电总局统筹部署,微信累计六期公告处置AI魔改视频(3月清理3800条),红果Q1下架1718部违规漫剧,平台对出品方由被动响应升级为主动追责。
- 侵权认定陷入客观困境:出品方微调角色打擦边球规避审核,平台缺乏普通人肖像数据库,“长得像”类主观侵权高度依赖权利人主动举证。
- “AI艺人库”引爆内娱信任危机:爱奇艺“纳逗Pro意向库”被误读为艺人已授权,张若昀等多位艺人紧急辟谣维权,折射出行业对AI替代真人表演的深层焦虑。
- 平台倒逼供给侧精品化:红果取消中小承制方保底转纯分成,大幅下调AI内容分成系数,加速低质内容出清并推动行业分层分化。
- AI重构短剧生产管线:传统多工种协同被以大学生为主的“抽卡师”概率筛选取代,核心能力转向前置剪辑,复杂镜头仍频发跳切穿帮。
- 巨头构建AI短剧完整闭环:字节形成“番茄小说IP→AI模型工具→红果分发”链路,爱奇艺转型社交媒体平台,AI制作成本已降至传统模式的10%。
红果短剧分成系数分层调整
| 内容类型 | 调整前系数 | 调整后系数 |
|---|---|---|
| AI仿真人短剧 | 60 | 40 |
| 3D动画漫剧 | 50 | 40 |
| 2D动画漫剧 | 40 | 40 |
AI生成与人文创作的核心差异
| 维度 | AI生成现状 | 人文创作(《给阿嬷的情书》) |
|---|---|---|
| 情感来源 | 数据训练的模式化输出 | 创作者真实生活体验的沉淀 |
| 文化细节 | 缺乏对地方文化内在理解 | 潮汕方言、侨批文化深度嵌入 |
| 情绪节奏 | 依赖算法优化感官刺激 | 人工判断删减精彩片段以防透支 |
| 成本与表现 | 极低成本但细节频发失真 | 1400万成本,豆瓣9.1分逆袭15亿 |
4.4 AI视频电商带货实操工作流与模型参数化
AI视频电商带货实操:工具选型、工作流闭环与功能实测
饼干哥哥AGI(20260415) | 饼干哥哥AGI(20260427) | 苍何(20260515) | APPSO(20260515) | 袋鼠帝AI客栈(20260527) | 卡尔的AI沃茨(20260615) | 特工宇宙(20260615) | 沃垠AI(20260615) | 船长AI视界(20260615) | AIZ小朱(20260615) | 硅星人Pro(20260617) | AI产品银海(20260524) | AI产品银海(20260613)
商业化实操与模型选型
- 极低成本跑量:单条AI种草视频成本不到3元,挂车可单日爆单200+,GMV超5万美金,脚本质量为核心壁垒
- 矩阵铺量打法:女装、童装等赛道验证可行,义乌老板利用爆款复刻+矩阵发布,AI带货实现月入5万
- 模型按需选型:Grok约0.5元适合跑量;Sora 2约3元真实感强;Veo 3约15元画质最高,但废片率达80%
Agent自动化与工业化创作
- 「自动挡」模式:OiiOii 2.0内置7个Agent自动接力,实现全流程自动化,一句话生成215秒短片,大幅降低操作门槛
- 精准局部控制:素材独立绑定Agent,支持单节点对话精准修改(如调亮月光),且多任务并行耗时与单任务相同
- API基建打包:火山引擎Agent Plan将文本、生图、生视频打包为单一API调用,Max套餐1000元,适合自动化开发
爆款复刻与视觉资产化
- 自动拉片复刻:2-3分钟自动拆解18个维度生成报告,产出分镜提示词并精修合并成片(原视频越精良效果越好)
- 角色资产化:自动生成face id和三视图存库,实测1分钟6分镜角色全程锁死,彻底解决“中途换脸”痛点
- 手绘轨迹运镜:通过“生成图片→画笔标记轨迹→AI生成提示词→模型渲染”四步免费实现精准运镜
提示词工程与避坑指南
- Image2五层法:定角色保外观,场景设物理参数,文字层定字体(拉丁字母准确率约99%),全图仅设一个主风格且适度留白
- Seedance极简原则:提示词上限2000字,过长易致模型在“跟图走”和“听文字”间冲突,必须尽量简短
- 逆向复用提示词:交Gemini逐帧分析现有爆款视频,提取并复用视觉与运镜提示词,删减后作为Seedance提示词
4.5 视频虚拟换衣(VVT)技术前沿
KeyTailor:关键帧驱动的视频虚拟换衣新SOTA(CVPR 2026)
视频换衣与虚拟试衣前沿技术整合
架构设计
- 即插即用架构:不修改DiT原始结构,纯LoRA融合三模块特征实现视频换衣
- PG-VTON免训练框架:将换衣重构为受控修复,基于冻结FLUX.1-Fill单次推理换衣
- 核心学术洞察:预训练修复模型具极强补全能力,无需成对数据监督即可释放试衣能力
推理控制机制
- 双重控制:PIP在扩散早期锚定服装身份,RAA在注意力层增强细节感知
- IKS关键帧采样:VLM解析视角动作,按差异与服装占比筛选高信息量锚点
- GDDE细节增强:VAE提取服装特征,经轻量蒸馏将褶皱等动态纹理注入latent
- CBDO背景优化:全局分支捕捉语义,局部分支融合完整帧以消除帧间突变
对比数据
| 指标 | 模型A | 模型B | 场景/数据集 |
|---|---|---|---|
| VFID↓ | 7.5267 | 14.0587 | ViT-HD |
| SSIM↑ | 0.9066 | ~0.87 | ViT-HD |
| FID↓ | 21.028 | 23.470 | StreetTryon |
数据集与基准
- ViT-HD数据集:15,070个高清样本,覆盖上下全身装,BLIP-2剔除遮挡
- 测试基准:VITON-HD、DressCode、StreetTryon三大多场景认证
学术认证
- CVPR 2026双录用:视频换衣与免训练试衣双赛道全面刷新SOTA
4.6 交互式世界模型与实时多人生成
Agora-1:首个多人实时交互世界模型与仿真-渲染解耦架构
- 首个多人实时交互世界模型:Agora-1支持最多4人同场FPS竞技,人类与AI混合对战,无需游戏引擎或物理规则。
- 仿真-渲染解耦架构:仿真层基于GoldenEye 007内部状态学习游戏动态转移,渲染层(DiT模型)将共享状态转化为视觉画面。
- 渲染层无需提示词:以共享游戏状态为唯一条件生成画面,不依赖文本或图像条件输入,从根本上保证多人交互一致性。
- 底层状态可操控:基于游戏内部状态训练,不仅能生成全新关卡,还能保留源游戏的完整动态体验。
- 无边界即兴生成:玩家越界时模型可即兴生成不存在的空间,而非报错崩溃,体现世界模型的空间理解特性。
- 同期发布Starchild-1:首个实时多模态(视觉+听觉同步)世界模型,可演示钢琴演奏时琴键与声音的精准同步。
- 公司背景:Odyssey成立于2023年,创始人具自动驾驶背景,总融资2700万美元(GV领投种子轮)。
- 当前局限:致敬1997年N64《GoldenEye 007》,当前画质模糊、操控延迟高,概念验证意义远大于实用价值。
多人生成技术路线对比
| 方案 | 核心思路 | 关键缺陷 |
|---|---|---|
| Multiverse | 分屏图拼接 | 本质粗暴,一致性差 |
| Solaris | 序列维度拼接 | 人数增多时上下文爆炸,扩展性差 |
| Agora-1 | 仿真-渲染解耦,共享状态驱动 | 当前画质和操控仍粗糙 |
4.7 AI长视频广告制作工作流:资产前置与分段生成方法论
品牌广告AI长视频全链路实操:资产前置→分镜生成→剪辑拼装
核心工作流:AI单次上限15秒→分段生成→资产前置建库→分镜驱动生成→后期剪辑转场→最后配音频。Laura Geller口红广告(115秒,4个年龄段女性)采用此法实现全AI生成无实拍。
资产前置体系(解决跨段漂移)
| 类型 | 必备产出 | 目的 |
|---|---|---|
| 人物 | 全身三视图+半身+3表情+服装图 | 锁住人脸与穿着 |
| 场景 | 全/中/近三景+360°环视视频 | 统一光线与空间 |
| 产品 | 正/侧/45°/使用态/logo特写 | 确保品牌露出准确 |
| 音色 | 30秒样本+音色ID | 全片统一不可中途换 |
分镜生成三策略
| 方式 | 适用 | 要点 |
|---|---|---|
| 纯提示词 | 开场/全新场景 | 不依赖尾帧,必写禁止项 |
| 分镜模式 | 多镜头快切 | 镜头间无需强连续 |
| 尾帧衔接 | 剧情连续 | 提取前段尾帧续写 |
剪辑转场规则
| 场景关系 | 转场 | 参数 |
|---|---|---|
| 同场景近景别 | 硬切 | — |
| 跨场景 | 叠化 | ≤0.5秒 |
| 情绪转折 | 闪白/黑 | 0.2-0.3秒 |
| 明显拼接断档 | 补过渡镜头 | 不靠特效掩盖 |
音频与剪辑铁律
- 配音顺序:拼素材→修衔接→加字幕→最后配音频,提前配音必返工
- 音量混音:旁白整段一次生成,层级为旁白>对白>环境音>BGM,BGM压至旁白30%以下
- 工具推荐:出图用Image2(质量)或豆包(试错),视频生成用Seedance 2.0或Veo 3.1
4.8 第一人称POV AI短视频:爆款逻辑与制作流水线
情绪代入机制与三步复刻法
情绪代入机制
- 私人记录漏洞:低清晃动的第一人称画面会被大脑归类为私人记忆,绕过理性防御实现瞬间共情
- 四象限击穿:爆款题材集中于亲情、离别、重逢、冒险四类,越日常越能调动观众已有记忆
- 评论区即矿场:提取网友真实经历文字喂给AI生成剧本,其情绪质感与代入感远优于纯虚构
经典爆款叙事与反转设计
- 壁画高潮反转:《渔村里的画家》用车窗内外视角对比生前巨型壁画,抖音斩获434万赞/103万转
- 陪伴升维反转:《当爱豆走进现实》结尾合照变手持小卡,台词“是你创造了我”将恋爱升维至AI陪伴语境
- 形象特征融合:AI男主融合朴元彬、李龙馥等真实爱豆特征,增强受众的视觉熟悉度与代入感
三步复刻制作流水线
- 剧本生成:从最熟悉的日常场景切入,提取真实经历,配合WorkBuddy+Claude+QClaw工具组合
- 分镜预演:打磨包含景别机位、具体方向与质感的光影提示词,逐镜头预演生成
- 镜头三关键:加抖动模拟呼吸感、左右扫视模拟视线转移、配脚步风声构建真实空间感
虚拟IP商业化闭环
- 虚构人物IP化:ssoftblooms凭十几条视频构建Brooke Sullivan,用假采访与虚构八卦形成可信人设
- 视觉做旧:低分辨率模糊噪点模拟千禧年录像质感,用平行宇宙叙事规避真实演职员表风险
- 反差感广告:404product用日常痛点→荒诞产品→严肃广告公式,凭虚构样片承接真实品牌订单
- 短剧降本增效:《当爱豆》等爆款制作成本仅约2000元,单人加单电脑即可完成,门槛大幅降至个人创作者
5. 视频生成底层技术与工具
5.1 视频生成前沿技术
视频生成与理解前沿:音视频同步、交互生成与评测基准
量子位(20260414) | 极市平台(20260423) | AIGC开放社区(20260424) | AI有道(20260518) | 新智元(20260520) | 机器之心(20260523) | 人工智能学家(20260523) | 机器之心(20260524) | AIGC开放社区(20260527) | 量子位(20260611) | 机器之心(20260615) | PaperWeekly(20260616) | 量子位(20260620) | 新智元(20260623) | 开源AI项目落地(20260626) | "Z Potentials"(20260621)
架构范式与交互演进
- 端到端统一架构:摒弃ASR等级联链路,单一Transformer交织处理多模态Token,消除延迟与信息损失
- 全双工原生交互:支持随时自然打断,视频与音频流通过双向交叉注意力联合去噪,解决音画对齐难题
- 时序空间协同优化:Timestamp与RS-RoPE实现统一时间轴映射,CoInteract引入辅助流防物理穿透且零额外开销
前沿模型与性能基准
- Wan-Streamer:定位流式音视频交互,端到端延迟约200ms,达25fps原生同步
- Higgs Avatar:定位实时数字人,单帧16ms,单H100支持8路并发
- MaineCoon:10人团队2个月交付22B模型,验证AI-Native极效研发范式;单卡H100达47.5FPS,稳定运行超30分钟
- JoyAI-VL:定位主动流式监控,平均延迟94ms,预警场景胜率100%
- Hallo-Live:文本驱动流式生成,2×H200实现20.38FPS,端到端延迟0.94s
- LongCat-Video:开源数字人方案,采用8步蒸馏推理,对HeyGen胜率54.3%
数据驱动与未来方向
- 全模态数据构建:OmniVideo-100K破音画断裂痛点,线索跨度144.75s,微调最高提升20.59%
- 多维量化评测:FVD/FAD量化画质,DeSync/SyncNet评估音画时序,AV-Align评估空间一致性
- 六大未来探索:聚焦因果源锚定、AV世界模型、长程记忆、可控生成、Verifier生态与安全治理
5.2 长视频与多镜头生成
长视频与多镜头生成的连贯性技术
机器之心(20260410) | 量子位(20260410) | 机器之心(20260415) | 极市平台(20260416) | 智东西(20260605) | 机器之心(20260606) | 量子位(20260607) | 机器之心(20260607) | AIGC开放社区(20260610)
- 四大代表框架攻克长视频一致性:OneStory(Meta)重构逐镜头生成、JoyAI-Echo(京东)跨模态记忆与加速、VideoClaw(哈工大/阿里)多智能体场记库、OmniRoam 全景轨迹解耦。
- OneStory 自适应记忆:将多镜头重构为 next-shot 自回归,基于 prompt 语义动态筛选历史关键帧并按重要性自适应压缩,实现分钟级十镜头连贯。
- JoyAI-Echo 槽位配对记忆:采用远锚近联策略(前3+近4共7槽位),强制对齐视觉与音频记忆防混淆,配合OmniNFT跨模态对齐(路由/梯度切断/发声定位)解决音视频奖励冲突。
- 三阶段后训练实现7.5倍加速:管线为记忆感知SFT(480p→720p)→跨模态RLHF→DMD蒸馏(多步压缩8步),训练时注入退化模拟增强漂移鲁棒性。
- 多智能体闭环质检:VideoClaw沉淀结构化“场记库”资产(角色关系/场景/版本)支持故事无限续写,并嵌入VLM双重审查与多候选回溯机制。
- 全景轨迹解耦控制:OmniRoam将相机轨迹解耦为方向与步长,生成7秒81帧全景预览,后经高分辨率精修,提出loop consistency验证长视频循环一致性。
核心评测与生态数据:
| 维度 | 数据/成果 |
|---|---|
| JoyAI-Echo跨镜头身份一致性(Self-CIDS) | 0.7793(提升0.0302) |
| JoyAI-Echo语音一致性/准确率 | 0.8129 / 0.8646 |
| JoyAI-Echo音质/提示词遵循偏好 | 81.7% / 80.6% |
| JoyAI-Echo视觉美学/最大分辨率 | 58.8% / 1472×2560 |
| JoyAI-Echo评测基准 | 100个故事、3000个镜头 |
| VideoClaw开源星标/学术成果 | 1.3K / 3篇SIGGRAPH+3篇ACL |
| 开源生态星标 | Pixelle 20.8K / ComfyUI-Copilot 5.2K |
5.3 视频编辑与自动化创作工具
AI视频自动化编辑与精修工具
PaperWeekly(20260416) | AI信息Gap(20260424) | 智能涌现(20260424) | 卡尔的AI沃茨(20260506) | 莫理(20260506) | 饼干哥哥AGI(20260602) | 逛逛GitHub(20260610) | 量子位(20260620)
对话式精修工具:Buzzy
- 定位:AI版视频Photoshop,通过自然语言对话精准局部修改视频,非从零生成
- 编辑能力:支持重打光、运镜重塑、路人消除、商品替换等十余种场景
- 技术亮点:局部修改时保持原片运镜与物理一致性,英文指令成功率达90%
- Agent灵感:跨平台扫描TikTok等爆款拆解风格,基于RLHF训练专用小模型
- 商业化:母公司ARR达2000万美金,全球用户破千万,完成超2000万美元融资
多智能体长视频剪辑
| 系统 | 架构特征 | 核心突破 |
|---|---|---|
| CutClaw | Playwriter规划/Editor检索/Reviewer审查 | 音乐精准卡点,2000盲测获49.8%视觉质量 |
| Crayotter | 两阶段架构(研究推理+ReAct执行) | 工件溯源外化,五维度评测均最优 |
- CutClaw:自下而上解构长视频,自动识别音乐Downbeats,48.8%用户认为像人类
- Crayotter工件外化:将状态剥离为7类可检查工件,实现局部修复无需推倒重来
- Crayotter执行:ReAct调用20+模块化工具,工具失败时仅修复受影响片段
- 强化学习优化:采用GRPO结合可验证信号,显著优于CapCut-Mate和CutClaw基线
代码驱动视频流水线
| 工具 | 定位 | 特点 |
|---|---|---|
| HyperFrames | 底层渲染引擎 | 纯HTML编写,内置15个Skill |
| html-video | 模板封装层 | 21套商用模板,多Agent后端 |
| Remotion | 精品打磨 | React组件,天花板高需多轮迭代 |
- 确定性渲染:同一HTML永远产出同一视频,解决Agent批量生产结果不可控痛点
- 范式转移:视频生产降维为前端开发,形成“渲染引擎→模板层→Agent”分层架构
- 基础设施:Git作为版本兜底防改崩,审美与内容判断力成为核心护城河
5.4 视频目标消除与修复
SVOR:面向真实场景的视频目标消除框架
- 框架定位:小米SVOR系统性解决真实场景下运动抖动、遮罩缺陷、阴影残留三大视频目标消除顽疾
- 竞赛表现:CVPR 2026物理感知视频实例消除挑战赛18支队伍中夺冠,物理感知、人工评分、总分三项均大幅领先
| 模块 | 解决问题 | 核心机制 | 关键特性 |
|---|---|---|---|
| MUSE | 运动抖动致遮罩不完整 | 时间窗口内联合遮罩替代逐帧处理 | 免训练兼容已有方法 |
| DA-Seg | AI分割边界偏差/缺失 | 去噪感知持续补全缺失掩码 | 容错手绘与AI分割缺陷 |
| 课程式训练 | 阴影/反射残留 | 真实背景自监督→合成数据精调 | 两阶段范式跨场景适应 |
- MUSE模块:免训练即可改善已有方法,对快速运动和遮罩边界抖动均具备强鲁棒性
- DA-Seg模块:持续稳定补全缺失掩码,解决手绘或AI自动分割精度不足导致的修复质量下降
- 课程式训练:先学基础时序一致性,再学复杂场景处理,跨场景适应能力强
- 开源信息:基于Apache 2.0协议开源(GitHub xiaomi-research/svor),提供可调用Skill工具
5.5 3D重建与动作生成
3D重建与空间感知技术前沿
量子位(20260330) | 极市平台(20260401) | 机器之心(20260412) | 机器之心(20260416) | 量子位(20260416) | CVer(20260417) | 具身智能之心(20260419) | CVer(20260421) | 量子位(20260424) | 机器之心(20260506) | PaperWeekly(20260514) | 机器之心(20260519) | CVer(20260606) | 极市平台(20260609) | CVer(20260609) | AI科技评论(20260612) | 机器之心(20260626)
前沿技术与代表性模型
| 技术方向 | 代表模型/框架 | 核心突破与数据指标 |
|---|---|---|
| 大规模单图重建 | SAM 3D (Meta) | 构建100万真实图数据飞轮,在SA-3DAO基准较SOTA提升44% |
| 长序列实时重建 | LingBot-Map (蚂蚁) | 万帧20FPS实时处理,GCA机制压缩单帧信息增长量80倍 |
| 长序列一致性 | Scal3R | 全局上下文记忆解决形态错位,Oxford Spires ATE降至4.45米 |
| 毫米波人体感知 | M4Human | 首个大规模基准,原始雷达恢复mesh延迟仅2.74ms,规避隐私风险 |
| 非漫反射重建 | 3DReflecNet | 揭示透明材质破坏极线几何,证实粗糙度为质量绝对主导因素 |
VLM与3D空间感知的深度融合
- 空间感知与VLM融合:SpatialPoint将结构化深度作VLM核心输入,深度误差低至17.2mm(降30倍),零样本泛化机器人任务。
- VLM统一3D理解:VLM³验证三维Bitter Lesson,仅靠焦距与像素双归一化,标准VLM在四大3D任务超越专家SOTA。
- VLM原生深度预测:腾讯DepthVLM附加轻量DPT头,8B版本δ₁=0.876,以O(1)成本0.42秒/图超越同量级专用模型。
极端场景与底层几何突破
- 暗光场景重建:浙大NIRGB-GS利用NIR主导几何、RGB恢复色彩,极暗环境下效果远超基线。
- 几何歧义消除:AmbiSuR利用球谐系数作多义性指示器,DTU倒角距离达0.46,TnT F1-score达0.589全面领先。
- 全相机适配3DGS:影石UniSHARP基于ray-distance统一表示,单图秒级生成高斯点云,覆盖透视至全景全品类。
生成式先验与产业落地
- 生成模型3D先验:VEGA-3D提取时空特征,多视角一致性达97.04%,零额外3D监督超越传统判别模型。
- 空间计算破圈:灵视P1结合多目+雷达与自研3DGS,落地NAB Show四项年度大奖及多部国际影视项目。
5.6 3D渲染引擎与底层技术
3D渲染引擎架构与神经压缩技术
CVer(20260330) | 量子位(20260415) | APPSO(20260415) | 机器之心(20260415) | 智东西(20260415) | 财联社AI daily(20260415) | 极市平台(20260415) | AIGC开放社区(20260417) | AI寒武纪(20260418) | 机器之心(20260425) | 量子位(20260427) | 机器之心(20260525) | 逛逛GitHub(20260527)
| 引擎 | 开发者 | LOD架构 | 场景上限 | 核心优势 |
|---|---|---|---|---|
| Spark 2.0 | World Labs | Splat-based逐点调度树 | 1亿高斯点 | 跨设备兼容,恒定渲染预算 |
| Aholo Viewer | 群核科技 | Chunk-based区块调度树 | 10亿高斯点 | 3亿场景内存仅Spark一半,加载快1倍 |
Spark 2.0 核心架构突破
- 恒定渲染预算:设定50万(移动)-250万(桌面)点,帧率与场景总量无关
- 连续LoD树:消除离散方案切换跳变,内置Tiny-LoD与高精度Bhatt-LoD算法
- GPU虚拟内存分页:LRU策略管理1600万节点池,彻底避免浏览器OOM
- 多物体统一渲染:全局坐标统一→Wasm后台深度排序→单条实例化绘制指令
- RAD流式格式:分块独立压缩,首帧64K splat即可呈现场景粗略轮廓
Aholo Viewer 技术路线与产业工具链
- 区块化调度:以Chunk为单位进行层级切换,缓存命中更优,细节切换更平滑
- 按需加载与裁剪:视锥内按需加载,10亿点级别场景无需一次性装入显存
- 工程化工具链:兼容多格式自动LOD生成,支持射线检测与物理碰撞
- 云端混合渲染:支持3DGS与Mesh同场景串流,打通图/文生3D等业务API
NDGI动态光照神经压缩框架
- 时空解耦编码:2D三平面锁定高频细节,3D特征捕捉光照时序低频变化
- 硬件协同压缩:训练阶段主动模拟BC7编码损失并补偿,无缝兼容GPU采样
- 极致压缩性能:0.68 BPP下达46.69 dB(比NTC高3dB),解码1024×1024仅0.2ms
3D重建演进与产业应用拓展
- 从离线到流式在线:LongStream实现公里级18FPS流式重建,LingBot-Map前馈恢复位姿
- 输出形态升级:从本地文件转向可嵌入空间内容,支撑机器人仿真与数字孪生
- 生产力工具转型:其域创新LCC解耦编解码将体积压至PLY的8%,全面进入影视虚拟拍摄
5.7 阿里云CVPR论文矩阵:Agent落地的三道门槛
阿里云CVPR论文:从感知到交付的Agent落地框架
| 论文 | 跨越的门槛 | 解决环节 | 核心方法 | 关键数据 |
|---|---|---|---|---|
| CodePercept | 看得懂 | STEM图像感知 | 用可执行代码还原图像结构作为验证标准 | — |
| Evo-Retriever | 看得懂 | 复杂文档检索 | LLM作为元控制器动态调整训练课程 | 检索准确率+14.1% |
| CC-VQA | 看得懂 | 知识型VQA冲突 | 以视觉信息为中心判断冲突,无需重训 | — |
| RAPID | 跑得起 | 视频扩散生成 | 自适应复用相邻步骤注意力稀疏计算 | Wan2.1加速1.79×,HunyuanVideo加速2.01× |
| EarlyTom | 跑得起 | 视频理解推理 | 早期压缩视频token,未看完所有帧即推理 | 首Token延迟改善2.65×,FLOPs减61% |
| Wan-Weaver (Oral) | 能交付 | 图文交错生成 | 文本规划与视觉一致性建模解耦训练 | 已上万相2.6 |
| Qwen-Image-Layered | 能交付 | 图像可编辑性 | 端到端图层分解,RGB拆为RGBA图层 | — |
| OMG-Avatar等 | 能交付 | 3D头像/数字人 | 单张图重建可驱动头像,多精度适配算力 | — |
| AnyID | 能交付 | 身份一致性 | 多参考+主锚点+differential prompt突破局限 | — |
| PortraitDirector | 能交付 | 实时驱动控制 | 头姿/嘴型/眼神/表情分层解耦再重组 | — |
关键洞察
- Agent落地三道门槛:需同时满足看得懂、跑得起、能交付,才能真正进入实际业务
- 感知先于推理:多模态模型在STEM任务中频繁出错,瓶颈不在推理而在视觉感知阶段
- 效率优化新范式:发现计算中的结构性冗余(扩散步骤间相似性、视频token冗余)实现无损加速
- 可编辑性决定产业价值:生成结果能否被下游工具继续操作,决定输出是Demo还是工作流
6. 多模态模型底座与训练推理加速
6.1 闭源多模态模型发布与行业动态
多模态模型能力跃迁与架构创新
PaperAgent(20260408) | AGI Hunt(20260409) | 硅星人Pro(20260409) | 腾讯研究院(20260420) | 智东西(20260429) | CVer(20260429) | 夕小瑶科技说(20260429) | 量子位(20260429) | AIGC开放社区(20260506) | 花叔(20260506) | 火山引擎(20260506) | 刘小排r(20260506) | GLM大模型(20260508) | 机器之心(20260513) | 赛博禅心(20260513) | 网罗灯下黑(20260513) | 新智元(20260513) | PaperWeekly(20260513) | 逛逛GitHub(20260513) | 卡尔的AI沃茨(20260513) | AI产品银海(20260513) | GitHubDaily(20260513) | AI寒武纪(20260514) | APPSO(20260525) | 量子位(20260526) | 卡尔的AI沃茨(20260531) | CVer(20260607) | 量子位(20260610) | InfoQ(20260622)
- 谷歌Gemma 4 12B:仅3500万参数视觉嵌入器取代27层ViT,实现设备端高效处理。
- 轻量化与端侧性能突破:小参数模型验证“智能密度”定律,实现极低资源下的性能反超。
- 面壁MiniCPM-V 4.6:1.3B参数仅需6G内存,INT4量化权重仅0.65GB;以2.5%的Token消耗超越同级,单卡吞吐达2624 token/s。
- 阶跃Step 3.7 Flash:196B MoE原生多模态,推理达400 token/s,适合高频Agent场景。
- 视觉Token压缩与计算优化:通过架构创新大幅降低多模态计算冗余。
- MiniCPM-V 4.6 LLaVA-UHD v4:浅层前置压缩结合4倍/16倍混合机制,运算量降55.8%。
- RedundancyLens:训练无关技术(Hollow Attention等)可将50%层的视觉FLOPs降至一半。
- COAST:熵驱动动态分配,仅保留22%视觉token即维持98.64%性能,避免幻觉。
- 快手Keye-VL-2.0:引入DSA稀疏注意力解锁256K长上下文,Prefill成本降低50%。
- 大厂全模态与视觉推理跃迁:向原生全模态演进,视觉理解与推理能力大幅补齐。
- Meta Muse Spark:原生多模态共享特征空间,算力需求比Llama 4低超一个数量级,沉思模式HLE得分58%。
- 字节Doubao-Seed-2.0-lite:首个轻量全模态API,语音关键术语命中率100%;视频能力达Pro版95%但价格仅1/5,总成本降20%。
- DeepSeek V4-Flash视觉原语:将坐标嵌入思维链,信息压缩率7056倍,细粒度计数(88.7分)反超GPT和Claude。
- 多模态商业化与冲击:
- Claude Design:基于Opus 4.7生成可交互原型,致Figma股价当日下跌6.84%。
- GPT Image 2:在文字渲染、中文精准度与指令跟随等四维度全面超越竞品。
6.2 视觉分词器与基础表征预训练
视觉分词器架构创新与 Scaling Law 突破
- VTP三轴缩放:打破纯AE停滞僵局,在计算、数据(100K→100M gFID改善20.14)、文生图泛化上首次验证视觉Tokenizer Scaling Law
- VTP卓越性能:gFID 1.11,rFID 0.36,Zero-shot精度78.2%,Linear probing 85.7%,全面超越VA-VAE及VILA-U等基线
- VTP启发与背景:揭示生成瓶颈在latent space质量,华科×MiniMax联合开源,采用ViT(DINOv3)作64维bottleneck
MacTok 极致压缩分词器
- 极致压缩表现:复旦浦剑团队提出MacTok,仅64 token实现64倍压缩(256分辨率gFID 1.44,512分辨率1.52)
- 基线全面超越:MacTok-128(gFID≈1.42)匹敌REPA基线1024 token效果,远超SoftVQ-VAE(3.65)
- 双空间协同机制:通过图像空间语义掩码与表征空间对齐,从根本上解决KL正则化引发的后验坍塌,入选CVPR 2026 Highlight
连续与离散分词器特性对比
| 类型 | 核心特点与局限 |
|---|---|
| 离散分词器(VQ等) | 需梯度近似引入量化误差,细节受码本限制,极度压缩技术成熟 |
| 连续分词器(KL等) | 原生支持梯度优化且细节丰富,但极度压缩下易发生后验坍塌 |
| MacTok双空间协同 | 结合掩码与对齐从根源注入语义,彻底阻断坍塌路径 |
InfoTok 自适应分配分词器
- 突破固定压缩率:针对静态天空与动态街景分配等量Token的痛点,遵循N_x ∝ -log p(x)证明最优分配以信息熵为下界
- ELBO即插即用路由:用ELBO衡量复杂度按需分配(高少配低多配),架设于NVIDIA Cosmos,通过β参数控制平均压缩
- 极致性能指标:压缩率超ElasticTok 2.3倍,推理快11倍,无损节省Token 20%,霸榜TokenBench
- 豪华学术背景:斯坦福、英伟达Cosmos、新国大联合提出,入选ICLR 2026 Oral且代码已开源
TIPSv2:密集 Patch-Text 对齐的视觉语言预训练突破
- 核心突破:发现对可见 Patch 的显式监督是密集图文对齐关键,颠覆仅对 Masked Token 计算损失的传统范式
- 极致效率:TIPSv2-g(1.1B)击败参数多 56%、训练数据多 47 倍的 PE-core G/14,20 个数据集全面领先
三大核心技术创新
| 组件 | 核心机制 | 效果与数据 |
|---|---|---|
| iBOT++ | Patch 损失从 Masked 扩展至全 Tokens(含可见) | ADE150 零样本 mIoU 从 3.5 飙升至 17.6(+14.1) |
| Head-only EMA | 仅对投影头 EMA 更新,冻结视觉骨干 | 十亿级参数显存大幅降低,性能无损 |
| 多粒度文本 | 交替 Alt-text(粗)/ PaliGemma(细)/ Gemini Flash | 防止模型走捷径,强化空间布局理解 |
性能表现与开源生态
- 统治级表现:在 9 项任务、20 个数据集上全面超越 SigLIP2、SILC、DINOv2 等前沿模型
- 反直觉现象:蒸馏中小模型在密集任务反超大 6 倍教师模型,根因正是蒸馏对可见 Patch 的隐式监督
- 开源矩阵:覆盖 86M 至 1.1B 四档参数,提供 PyTorch 与 Jax 双框架支持
- 配套能力:开源 DPT 预测头,支持深度估计、表面法线、语义分割即插即用
6.3 AI Agent 平台架构与多智能体协作
AI Agent 平台架构与多智能体通信机制
TRAE.ai(20260401) | 人工智能学家(20260408) | 玄姐聊AGI(20260409) | 阿里云开发者(20260409) | 量子位(20260430)
Agent 平台三层解耦架构
- Session 外置记忆:append-only 事件流独立于上下文窗口,通过
getEvents()按需切片读取 - Harness 无状态编排:崩溃后新实例从 Session 日志恢复,底层算法可随时替换而上层接口稳定
- Sandbox 标准接口:降维为通用工具接口,推理可在 Sandbox 就绪前提前启动(p50 首 Token 延迟降约 60%)
多智能体通信基础设施演进
- MAS 瓶颈在通信而非模型:语义漂移与拓扑混乱导致任务链越长偏差越大,传统 L4/L7 代理无法识别
- CFN 语义级通信:思科提出将智能迁移至网络层,Cognitive Sidecar 边车部署,在 HotPotQA 和 MuSiQue 提升超 10%
- CFN 动态路由与安全:RL 学习质量函数实现基于技能的动态拓扑路由,序列记忆识别并阻断危险 Agent 意图
多智能体协作痛点与视觉幻觉抑制
- ACK 风暴问题:1人+6Agent+52个cron构建7x24自治系统,三态通信协议解决分布式系统经典的 ACK 风暴
- 视觉幻觉滚雪球:多智能体纯文本传递导致视觉信息丢失,关键视觉令牌占比从第1轮1.22%骤降至第20轮0.10%
- ViF 即插即用抑制:筛选中层单峰视觉令牌直传原生证据,8基准10款VLM平均提升2.4%~3.8%,已入选 ICLR 2026
端云协同 Agent 系统工程实战
- 端云算力分工:端侧重计算(视频解码、VLM 推理),云端轻决策(叙事编排与字幕撰写)
- 端侧工具链:基于 OpenVINO 优化的 Qwen2.5-VL 本地 VLM + FFmpeg 本地合成视频
- 实测规模:30段手机短视频在英特尔酷睿 Ultra 本地完成全量语义分析,自动生成30秒精剪 Vlog
- 90/10 工程定律:自治系统中 90% 精力花在工程基础设施而非 AI 本身,瓶颈在工程成熟度而非模型能力
6.4 产业级视觉语言模型工程化实践
Stellaris-VL-4B:细粒度定位感知的产业视觉语言模型
- 产业需求洞察:视觉需求呈二八分布,80%为细粒度定位感知,20%为复杂推理,通用VQA模型在定位精度上难以满足产业要求
- 4B参数架构选择:采用经典拼接式架构(视觉编码器+投影器+LLM),4B为端侧性能与延迟的甜蜜点,重心放在后训练优化而非架构创新
- 闭环数据引擎:基于10亿+真实数据,执行清洗→标注→验证→模型反哺四阶段闭环,在ev-dataset-100k产业数据集上实现性能翻倍提升
- 分阶段训练策略:SFT阶段(Full Finetune→LoRA)打基础;RL阶段应用GSPO算法与IoU-based grounding定制奖励函数,强化定位精度并抑制幻觉
- 能力演进路线:任务从闭集演进至开集(OVD/OVS),语义由单词级拓展至短句级(REC),模态从单任务升级为多任务多模态
核心能力与产业表现对比
| 能力维度 | 评测表现 |
|---|---|
| 通用VQA | 小幅领先同量级开源模型,通用能力不退化 |
| 开放词汇检测(OVD) | mAP@0.5:0.95显著优于同量级开源模型 |
| 指代表达理解(REC) | 复杂环境下定位精度大幅提升 |
| 小目标识别 | 抗背景干扰能力增强 |
| 开集场景理解 | 负样本处理能力优化 |
端侧落地与权威认可
- 端侧实时推理:边缘设备实现无需联网的实时推理,适配机器人巡检、无人机等低延迟场景
- 权威认可:入选CCIG 2026图像图形先锋金牌榜,46项基准任务中细粒度感知与推理效率显著领先
6.5 古文字OCR评测基准与VLLM感知短板
Chronicles-OCR:中国古文字识别评测揭示多模态感知悖论
- 业界首个古文字评测基准:腾讯混元联合发布 Chronicles-OCR,覆盖甲骨至草书七体演化,含 2,800 张图像(每体 400 张),已开源
- 多模态模型古文字识别全军覆没:评测 GPT-5 等 28 个主流 VLLM,端到端检测 H-mean 最高仅 16.5,细粒度识别最高仅 27.1%(甲骨文仅 14.0%)
- 阶段自适应标注范式:古早字体(甲骨/金文/篆)采用字符级精细 bbox 与汉字映射;成熟字体(隶/楷/行/草)采用行级逐字转写
- 权威数据源保障:甲骨文源自安阳师范重点实验室,金文/篆书由博士团队整理,成熟字体取自故宫博物院数据集
四大核心任务与最佳模型表现
| 核心任务 | 适用字体 | 最佳表现 |
|---|---|---|
| 跨时代字符检测 | 甲骨/金文/篆 | H-mean 16.5 |
| 细粒度古字识别 | 甲骨/金文/篆 | Exact Match 27.1% |
| 古文转写 | 全部七体 | 楷书 |
| 字体分类 | 全部七体 | 古早 96.7%,成熟 77.0% |
- 揭示感知悖论:模型靠载体纹理分类(龟甲纹理→甲骨 96.7%),但楷行草皆在宣纸上失去区分力(降至 77.0%),证明在看纹理而非读字
- Reasoning 放大幻觉:开启 thinking 模式后表现反而下降(Spotting 从 7.8 降至 2.1),感知基础不稳时推理只会放大不确定性
7. 视频生成平台工具与创作工作流
7.1 视频生成工具与 Agent 客户端
AI 视频生成与编辑产品矩阵及 Agent 编排流水线
开源AI项目落地(20260415) | 歸藏的AI工具箱(20260417) | 开源AI项目落地(20260418) | 新智元(20260420) | 优设AIGC(20260421) | 优设AIGC(20260422) | AI信息Gap(20260424) | 莫理(20260429) | 量子位(20260507) | 十字路口Crossing(20260508) | 沃垠AI(20260509) | 优设AIGC(20260512) | 优设AIGC(20260507) | 硅星人Pro(20260603) | 海外增长圈(20260607) | 袋鼠帝AI客栈(20260611)
产品矩阵与技术路径
| 产品 | 核心定位 | 关键数据/能力 |
|---|---|---|
| OpenMontage | 开源Agent编排 | 49个工具/400+技能,60秒动画1.33美元 |
| HeyGen HyperFrames | 代码驱动渲染 | 纯HTML转视频,替代Diffusion,30分钟出片 |
| 生数科技 Vidu | 百元级广告流水线 | 周期压缩至1天,百元预算产出百万质感 |
| Utopai PAI | 端到端连贯叙事 | 剧本转4K影片,单次16镜头/3分钟连贯 |
| Buzzy | 对话式精准编辑 | 定位视频版Photoshop,单次精准编辑15秒视频 |
| OiiOii/Seedance | 批量化生产 | 并行7个Agent,成本约0.38元/秒 |
| VidAU | 电商素材批量 | 860+数字人,商品链接转视频,120+语言对口型 |
- 双路线并行发展:Diffusion追求单镜头生成上限,代码渲染与Agent编排专注可控、批量化工业流水线
- Agent重塑生产流:HeyGen联合Claude实现“一句话生成20条UGC视频”,压缩传统制作环节
- 长篇连载工业化:Zopia等系统通过集中化资产库解决跨镜头一致性,支撑团队产出64集以上连载动画
- 基础设施争夺:通过开源编排框架(如Hyperframes)绑定数字人、模型生成额度等付费服务
- 商业模式闭环:各产品通过Skill库沉淀审美、解决角色面孔锚定等痛点,提升生成一致性与效率
7.2 Seedance 2.0 与 LibTV 平台生态
Seedance 2.0 技术能力、平台生态与第三方工具集成
甲木未来派(20260401) | 火山引擎(20260402) | 花叔(20260402) | 开源AI项目落地(20260402) | GitHubDaily(20260402) | 逛逛GitHub(20260402) | AI范儿(20260403) | AI异类弗兰克(20260403) | 船长AI视界(20260403) | AI产品银海(20260410) | AI信息Gap(20260411) | 莫理(20260411) | 优设AIGC(20260412) | 公子龙(20260412) | AI寒武纪(20260413) | 火山引擎(20260414) | 财联社AI daily(20260414) | AIZ小朱(20260415) | 量子位(20260417) | AI早餐汇(20260427) | "Z Finance"(20260519) | 火山引擎(20260525) | AI故事计划(20260526) | 饼干哥哥AGI(20260529) | 袋鼠帝AI客栈(20260601) | 火山引擎(20260603) | 火山引擎(20260605) | 火山引擎(20260610) | 智东西(20260616) | 阿里云开发者(20260623) | "财联社AI daily"(20260623) | 火山引擎(20260623) | AI寒武纪(20260623) | 曼话AI(20260623) | 优设AIGC(20260624)
- 多模态输入与一致性:原生支持图、文、音、视四模态输入,2.5版本支持50个全模态素材联合参考;实现服装发型不突变、物理逻辑自洽的专业级跨镜头连贯叙事
- 生成规格天花板:2.5版本单段视频时长翻倍至30秒,支持单段内场景切换;原生支持4K直出与10-bit色深(行业首发),消除多段拼接流程并扩大调色空间
- 精细化控制与Vibe范式:支持文字、图片、音频混合输入,精确控制时间码与运镜;推出“Vibe Creating”范式,弱化参数指令,通过故事情绪与氛围叙事自主生成电影感镜头
- 产品矩阵与算力统治:Seedance系列占据AI视频市场超80%日均算力(可灵约14%);矩阵含2.0(旗舰)、Fast(轻量)、Mini(主打低价0.16元/秒)
生成成本与平台对比
| 平台/版本 | 成本/规格 | 优势与特点 |
|---|---|---|
| 字节官方API | 约1元/秒 | 需高门槛公测,可能排队8小时 |
| 第三方平台(LibTV等) | 约0.35元/秒 | 年费会员折算,无需排队,整合全流程 |
| 效果广告实测 | 30秒30-45元 | 单日可产出上百条,ARPU提升80.2% |
| 2.0 4K版 | 约100元/条 | 原生高清,满足商业交付 |
平台生态与商业化闭环
- API全量开放:正式向企业与个人开放,推动豆包大模型日均Token突破120万亿,并带动企业规模化应用
- 全流程节点生态:LibTV等第三方平台首发集成,支持无限画布与节点化操作,内置Topazlabs一键4K放大与120fps补帧等专业节点
- IP授权与合规机制:火山方舟上线版权商业化平台(授权-保护-分发-变现),获周星驰《喜剧之王》等IP授权;提供真人活体扫码授权及超1万个安全虚拟人像校验
- 多模态全家桶联动:与Seedream 5.0(图像)、SeedMusic 1.0(语音)打通,实现“概念图→视频→配音”的单人全流程制作闭环
- 长片与行业标杆:支撑98分钟电影《回到远古》及贾樟柯AI短片,漫短剧制作综合降本70%-90%,AI视频正式迈入长篇内容生产阶段
7.3 AI短剧与漫剧工业化平台及产业链
AI短剧与漫剧工业化平台生态
AIZ小朱(20260330) | 昆仑万维集团(20260331) | AI产品银海(20260402) | AI异类弗兰克(20260403) | 卡尔的AI沃茨(20260404) | 优设AIGC(20260404) | 卡尔的AI沃茨(20260407) | AI大模型工场(20260408) | Z Finance(20260408) | 特工宇宙(20260408) | 机器之心(20260408) | AI新榜(20260409) | 智东西(20260409) | 梦飞 AI(20260409) | 钛媒体AGI(20260410) | 机器之心(20260410) | APPSO(20260410) | AI前线(20260410) | 量子位(20260411) | 卡尔的AI沃茨(20260411) | 小互AI(20260413) | InfoQ(20260413) | 船长AI视界(20260413) | 莫理(20260415) | 路人甲TM(20260415) | 船长AI视界(20260415) | 摸鱼小李(20260416) | APPSO(20260419) | 网罗灯下黑(20260419) | AI异类弗兰克(20260420) | 商汤科技SenseTime(20260421) | 曼话AI(20260421) | TRAE.ai(20260422) | AI新榜(20260424) | APPSO(20260427) | 智东西(20260427) | 阿里云(20260427) | 千问APP(20260427) | 机器之心(20260427) | AI科技评论(20260427) | 十字路口Crossing(20260427) | AI异类弗兰克(20260427) | 袋鼠帝AI客栈(20260427) | 新智元(20260427) | AI信息Gap(20260428) | 硅星人Pro(20260428) | 第一新声(20260428) | AI前线(20260428) | AI新榜(20260428) | JackCui(20260428) | 商汤科技SenseTime(20260429) | 火山引擎(20260430) | 阿枫科技(20260430) | AI产品银海(20260506) | 路人甲TM(20260507) | AI信息Gap(20260513) | 莫理(20260514) | 甲木未来派(20260527) | 商汤科技SenseTime(20260609) | AI产品阿颖(20260609) | 莫理(20260610) | 阿枫科技(20260611) | 智东西(20260622)
平台涌现与工业化升级
- AI短剧从单点手工作坊跃迁至Agent驱动的流水线,美图“开拍”、Seko、OiiOii、纳米漫剧等密集上线,实现一句话生成至成片直出。
- 各平台内置多Agent(编剧/导演/分镜)模拟影视工业管线,并融合Seedance 2.0、SkyReels等底层模型智能调度分发。
核心突破与一致性解决方案
- Seedance 2.0将AI视频可用率从30%提升至90%以上;原生音画同步解决口型对齐难题,免除繁重后期修正。
- 平台通过角色多视图锁定、四视角锚点及资产库跨集复用,系统性攻克跨镜头场景与角色外观跳变问题。
- 全景虚拟取景法:先生成720°全景图作背景,再进行多角度机位截取(如过肩反打),将场景生成转为稳定取景。
产能效率与商业化数据对比
| 平台/工具 | 核心优势 | 产能实测与成本 |
|---|---|---|
| 商汤Seko | 零提示词3分钟出片,100集连贯生成 | 月费39元;单部抖音播放破2.5亿 |
| 巨日禄AI | 自动化漫剧流水线 | 15天产出80集;成本约0.24元/秒 |
| 阿里HappyHorse | 原生多模态音视频联合生成 | API定价1.2元/秒(1080p) |
| Seedance 2.0 | 90%可用率与高保真音画同步 | 实测约1元/秒(1080p) |
底层模型竞技与Sora关停启示
- Sora因算力黑洞(日烧1500万美元,留存仅10%)全面关停,证实高昂算力性价比与合规是视频赛道的生死线。
- 阿里HappyHorse-1.0(15B参数统一Transformer)突袭登顶榜单,支持7种语言唇形同步,单H100仅需38秒生成。
- 行业路线明确分化为追求叙事美学的“电影级内容引擎”与追求光照材质的“物理拟真”,但超现实复杂物理模拟仍有缺陷。
商业获客与应用破圈
- AI短剧正成为传统行业(保险、教培、大健康)的高转化获客标配,预计2026年成为全行业基础设施。
- 爆款频出验证商业模式:AI短片《告别》全网播放破亿入围北影节,巨日禄漫剧占据2025年度榜单近50%。
7.4 AI视频与漫剧创作全流程工作流实操
AI视频与漫剧创作全流程工作流实操与案例解析
船长AI视界(20260330) | APPSO(20260331) | AI大模型工场(20260331) | 卡尔的AI沃茨(20260331) | 船长AI视界(20260331) | 哩布哩布AI(20260401) | AI信息Gap(20260402) | AI产品银海(20260402) | AI寒武纪(20260402) | 公子龙(20260402) | 路人甲TM(20260402) | 哩布哩布AI(20260402) | 火山引擎(20260402) | 船长AI视界(20260401) | 优设AIGC(20260402) | 沃垠AI(20260402) | 探索AGI(20260402) | 莫理(20260402) | 小互AI(20260402) | 开源AI项目落地(20260402) | AIZ小朱(20260402) | 阿枫科技(20260402) | 网罗灯下黑(20260402) | GitHubDaily(20260402) | 逛逛GitHub(20260402) | 船长AI视界(20260402) | 袋鼠帝AI客栈(20260403) | JackCui(20260403) | 特工宇宙(20260403) | APPSO(20260404) | APPSO(20260404) | 船长AI视界(20260404) | 曼话AI(20260405) | 卡尔的AI沃茨(20260407) | 阿枫科技(20260406) | 优设AIGC(20260407) | 优设AIGC(20260407) | 苍何(20260406) | 琢磨事(20260407) | 莫理(20260407) | AI产品银海(20260407) | AI新榜(20260415) | 莫理(20260420) | AI新榜(20260421) | AI新榜(20260515) | 曼话AI(20260517) | 船长AI视界(20260410) | "梦飞 AI"(20260605) | 优设AIGC(20260613)
模型与工具竞局
- Seedance 2.0:四模态混合输入,原生音画同步直出;生成15s/2K视频约2-3分钟,豆包日均Token破120万亿
- PixVerse V6:极速物理仿真,微表情与材质细节逼真;1080p生成约2分钟,成本约0.04美元/秒
- OiiOii/Flova:多Agent零提示词协作,全链路自动化;个人最快30分钟出一集,视频成本低至0.24元/秒
- nexu(LibTV):聊天窗口发指令出片,无限画布并行;对接IM端5-15分钟收成片,并发6-8任务免排队
生产范式与架构演进
- 「参考生视频」闭环:精简为「生成资产→场景图→参考生+主体库→剪辑」四步,取代传统六步图生模式,支持大动态运镜
- 多智能体协作标配:内置编剧、分镜等6-7个专业Agent,将剧本自动拆解为画面、声音等结构化板块,彻底摆脱盲盒抽卡
- 工作流全自动化:以无限画布串联剧本与视频生成节点,Agent结合一句话指令即可自动调度全流程成片
六层提示词体系与导演思维
- 六层Prompt架构:镜头类型→主体轨迹→环境反馈→材质互动→光影氛围→技术规格(如35mm anamorphic)
- 核心原则:Prompt越像导演给摄影师的指令效果越好,本质是模拟专业影视制作分工体系而非堆砌描述性词汇
- 方法论启示:建立领域专业知识(如影视镜头语言)的结构化表达框架,比追逐新模型更有价值
- 低成本抽卡策略:GPT Image 2输出多宫格干净线稿作故事板参考,结合480p试跑+1080p出片大幅降低算力成本
降本增效与商业化数据
- 制作周期指数级压缩:黑客松36小时完成3分钟动画短片(效率约为传统1/300);11分钟科幻短片周期压缩至一个半月
- AI漫剧市场爆发:2025年预计达168亿元(同比增超80%),渗透率达60%-85%,单集制作成本降低50%-75%
- 团队结构重塑:重构多线并行架构,大幅缩减占比超75%的「抽图执行岗」,直接削减每日约500元排队隐性损耗
8. 多模态推理与视觉理解
8.1 多模态推理范式与视觉语言模型前沿
多模态推理范式与能力评测系统性反思
PaperAgent(20260330) | 字母AI(20260401) | AIGC开放社区(20260408) | 新智元(20260410) | PaperWeekly(20260413) | AI有道(20260414) | AIGC开放社区(20260424) | 雷峰网(20260424) | ScienceAI(20260430) | 机器之心(20260430) | 花叔(20260430) | 智东西(20260430) | Datawhale(20260430) | AI寒武纪(20260430) | PaperAgent(20260501) | 机器之心(20260504) | 极市平台(20260507) | AI科技评论(20260512) | CVer(20260513) | 机器之心(20260515) | AI科技评论(20260515) | PaperWeekly(20260515) | "Z Potentials"(20260517) | CVer(20260527) | 量子位(20260614) | CVer(20260616) | CVer(20260625)
多模态模型正经历从自然语言描述向代码化、原语化感知的范式转移,统一离散架构与深层视频理解成为核心突破口。
感知与推理新范式
- 感知瓶颈超越推理:上交大证明扩展感知收益优于推理,8B模型超越72B及GPT-5等旗舰
- 代码驱动感知:利用可执行Python代码替代自然语言描述图像,克服三维空间描述模糊性
- 视觉原语推理:DeepSeek将坐标与边界框作为CoT单元,解决指代鸿沟,大幅领先GPT-5
- 高熵感知解码(LEAD):高熵状态保留连续潜变量避免过早锁定,显著降低全基准幻觉
- 单Token视觉动作:Meta提出ATLAS,用单一Functional Token承担视觉操作与推理
评测系统性反思与短板
- 视觉基准“海市蜃楼”:顶尖模型无图不报错反而脑补,超74%视觉基准题被判定无效
- 代码工具辅助推理:模型多步推理中主动调用代码裁剪/放大图像,取得多项SOTA
前沿评测基准与盲区揭示
| 评测基准 | 核心机制 | 揭示盲区与结果 |
|---|---|---|
| Video-MME-v2 | 非线性计分与首错截断 | 暴露纯视觉推理盲区,最强模型真实分数仅49.4 |
| v-HUB / VideoNet | 无对白与专业动作测试 | 深层幽默理解严重依赖文本,动作多选题准确率仅70% |
| 视频生成推理 | Sora-2思维链内嵌 | MATH达92%媲美VLM,但仅13.9%推理过程完全正确 |
统一架构与多模态扩展
- 离散统一架构:美团LongCat-Next采用RVQ实现跨模态统一离散化,理解与生成同登顶
- 视觉Token极致压缩:DeepSeek多级管线将视觉KV cache压缩至约81~90条目(超7000倍)
- 时空分割大一统:中山×美团X2SAM统一7类分割任务,训练成本降低36.5%,指标提升14.2
- 跨模态连续拓展:嗅觉(NOSE正交注入达SOTA)、手语(SignThought隐变量思维链)
8.2 视频理解模型与评测
视频理解前沿架构与垂直领域突破
量子位(20260413) | 机器之心(20260421) | 量子位(20260426) | 机器之心(20260428) | InfoQ(20260520) | 机器之心(20260526) | 极市平台(20260529) | 机器之心(20260603) | 机器之心(20260604) | 量子位(20260608) | PaperWeekly(20260625)
架构与训练范式创新
- 原生工具调用:Video-o3采用全局初探-局部放大机制,让模型自主决定“看哪里”,推理延迟降低40%+
- 定位理解互融:VideoTemp-o3统一时序定位与问答,支持主动裁剪片段并多轮修正,打破多模块串联割裂
- 全帧率范式:OV2-8B引入视频Codec码流,按真实语义变化分配Token,时间定位较均匀采帧+9.7分
- 免训练记忆外挂:VAM将长视频转为分层记忆库(仅保0.06%帧),Agent式多轮检索有效压制幻觉
- 任务解耦训练:Video-o3与VideoTemp-o3均采用掩码策略,分离定位与答题梯度,冷启动屏蔽错误定位
医疗垂直领域突破
- uAI Nexus MedVLM:手术安全评估准确率89.7%,是GPT-5.4的5.5倍,时空动作mIoU为其47倍
- MedGRPO强化:4B/7B小模型加RL即超通用大模型,器械定位提升14%,手术步骤识别提升52%
- 专精评测基准:开源MedVidBench含53万条指令对,覆盖内镜/腹腔镜/开放手术等三层评测粒度
前沿性能与流式处理
| 模型/框架 | 核心优势 | 关键性能表现 |
|---|---|---|
| OV2-8B | Codec码流全帧率开源 | 18项视频任务均分62.5,空间推理63.5分 |
| VAM | 免训练分层记忆外挂 | OVO-Bench第一(68.41分),MM-Lifelong第二(17.11%) |
| AURA | 统一式流式交互架构 | StreamingBench 73.1%,端到端延迟仅312.2ms |
| VideoTemp-o3 | 统一Agentic定位与理解 | MLVU/VideoMME等多模态长视频基准全面领先 |
| OmniVTG | 语义覆盖迭代与理解反哺定位 | 2124小时视频超35万查询对,零样本全面超SOTA |
Video-MME-v2:组级非线性评分揭示视频理解评测失真
南京大学傅朝友团队发布 Video-MME-v2 评测基准,引入组级非线性计分机制,精准暴露传统逐题准确率指标的严重虚高现象,揭示多模态模型真实智力边界。
三层递进评测架构
- Level 1 信息聚合:提取跨帧、音频、字幕等分散线索,为高级认知提供事实底座
- Level 2 时序理解:捕捉动作序列、状态变化及事件逻辑,超越静态画面识别
- Level 3 复杂推理:结合世界知识进行多步推断,最接近人类真实理解水平
组级非线性评分机制
- 能力一致性组:同知识点4题连环发问,采用(N/4)²计分公式,蒙对1题仅得6.25%
- 推理连贯性组:多步推理实施首错截断机制,中间出错后续不计分,清理伪正确
- 防污染设计:超80%视频发布于2024年后,纯文字可猜答案的题目一律剔除
核心发现与能力短板
- 高分泡沫破裂:传统Acc掩盖碎片化识别缺陷,非线性计分精准挤出分数水分
- 纯视觉盲区:无字幕纯视觉设定下,部分模型开启Thinking反而出现性能退化
- 层级递减规律:模型从Level 1到Level 3呈显著性能衰减,高层薄弱源于底层误差累积
| 测评对象 | 传统Acc | 非线性得分 | 折损幅度 |
|---|---|---|---|
| 人类专家 | 94.9 | 90.7 | ~4.5% |
| Gemini-3-Pro | 66.1 | 49.4 | ~25% |
| Gemini-3-Flash | 61.1 | 42.5 | ~30% |
8.3 视觉理解前沿技术与评测基准
视觉理解前沿:多模态统一架构与垂直领域评测基准
极市平台(20260331) | 极市平台(20260413) | 机器之心(20260424) | 量子位(20260424) | 商汤科技SenseTime(20260429) | 新智元(20260429) | APPSO(20260429) | AI异类弗兰克(20260429) | 商汤科技SenseTime(20260506)
- 连续图文交错生成:业内首次在回复流中同步输出文字与图片,文字与视觉逻辑连贯,无需外部工具调用即可保持风格高度一致
- 应用跃升为 AI 设计师:小浣熊接入 U1 实现「一图读懂」,自动完成深度语义理解、逻辑重构与专业排版,打破传统 AI 纯粹执行绘图的局限
- 国产算力极速适配:壁仞、寒武纪、昆仑芯等 10 家国产芯片厂商(覆盖 GPU、加速卡路线)在 U1 发布日即完成 Day 0 适配
核心争议:生成能否增强视觉理解?
学界对生成预训练是否提升理解存在分歧,DeepMind Vision Banana 支持正向,而多篇大规模实验指出生成存在反噬风险:
| 模型/路线 | 团队 | 核心机制与结论 |
|---|---|---|
| Vision Banana | DeepMind | 生成即理解,分割 mIoU 0.699 超越 SAM 3,深度估计精度超 Depth Anything |
| UniHetero | 美团 | 语义生成提升理解(MMBench +1.6%),但像素级扩散致崩盘降至 0.61 |
| Janus/BAGEL | DeepSeek/字节 | 解耦路线:用独立编码器隔离理解与生成的相互冲突 |
| UniTok | 统一路线 | 通过增大表征容量硬扛多任务冲突 |
垂直评测基准:极端场景与专业细粒度
多模态模型在极端低光及复杂构图场景下能力短板明显,催生全新评测体系:
| 基准名称 | 核心贡献 | 关键数据 |
|---|---|---|
| EgoNight | 首个夜间第一人称视觉综合基准 (ICLR 2026) | 3658 组 QA,GPT-4.1 准确率仅约 30.9% |
| PortraitCraft | 首个理解+生成双赛道人像构图基准 (CVPR 2026) | 5万真实人像,含 13 个细粒度属性标注及 VQA |
- 夜间视觉退化规律:感知类任务(如图像识别)退化幅度显著大于推理类任务,夜间理解瓶颈首要是低层视觉信号缺失
8.4 多模态检索与长文档理解范式
多模态检索与长文档理解新范式
CVer(20260330) | 量子位(20260406) | 极市平台(20260415) | 机器之心(20260429) | CVer(20260510)
- 伪监督策略:无正确候选时标记最高排名为伪正例,有效解决召回率问题,多维度提升3.8%~10.9%
- 纠偏行为模式:通过SFT+GRPO训练,模型裁切频率从2.4%跃升至13.3%,学会策略性调用工具
- 开源数据支撑:UniDoc-RL框架提供12,621个SFT样本与5,537个RL样本,代码与数据全面开源
多模态与视频检索优化
- 生成与判别范式冲突:MLLM压缩为单向量会破坏原生链式推理,如CIRR数据集R@1从100%暴跌至62.33%
- 诊断-生成-校准闭环:ReCALL通过自我诊断、生成纠错三元组与分组对比学习,重新内化细粒度推理
- 先想象后检索:DreamPRVR引入扩散模型生成全局语义背景,利用概率变分采样器结合10步截断去噪提纯
- 异步注意力融合:寄存器增强注意力块(RAB)使视频Token获取全局上下文,寄存器仅关注视频Token减冗余
- 双路径表征对齐:TARA用生物基础模型(BioCLIP)指导大模型学习类别树,实现多粒度分层识别且零额外推理开销
核心性能与效率对比
| 模型 / 范式 | 核心指标 | 性能表现 |
|---|---|---|
| Doc-V* | 相比RAG变体 | 平均提升49.7%(80页场景领先10个点) |
| UniDoc-RL | 相比基线VRAG-RL | 性能提升17.5%以上 |
| ReCALL (CIRR) | R@1 | 55.52% (+8.38%) |
| ReCALL (细粒度子集) | R@1 | 81.49% (SOTA) |
| ReCALL (FashionIQ) | 平均R@10 | 57.04% (SOTA) |
| DreamPRVR (ActivityNet) | SumR | 156.1 (SOTA) |
| DreamPRVR (Charades-STA) | 推理延迟 | 4001ms/1334视频 |
| TARA (iNaturalist) | 各层准确率 | 粗到细全面提升 |
9. 图像与视觉生成训练优化及加速
9.1 图像生成底层技术与推理加速
扩散模型推理加速与长视频生成校正
机器之心(20260401) | 机器之心(20260410) | 极市平台(20260410) | AI科技评论(20260414) | AI科技评论(20260417) | AI科技评论(20260425) | 量子位(20260612)
特征缓存与残差预测加速(免训练)
- MeanCache:联通/南大用区间平均速度替代瞬时速度防漂移,FLUX.1/Qwen-Image加速4x,HunyuanVideo达3.6x
- TC-Padé:阿里/浙大用Padé有理函数替代泰勒展开预测残差,低步数大跨度更稳;FLUX.1-dev加速2.88x
- 步感知调度策略:MeanCache多重图寻优防漂移;TC-Padé早期保完整防外推、中期Padé预测、后期抓细节,TSI指标动态跳步
视频专属加速(帧间异步去噪)
- RhymeFlow 异步调度:清华/GigaAI按帧间运动连续性让不同帧走不同去噪步数,关键帧完整算,非关键帧少算
- 三大协同模块:内容感知非均匀关键帧采样 → 渐进式异步去噪(节奏点同步) → 轨迹投影插值补齐
- 盲测高保真:Wan2.1等模型上1.5x-1.8x加速,叠加SAP达1.93x;82人双盲测试中62.5%用户无法区分差异
动态CFG引导优化(免训练即插即用)
- C²FG 指数控制:vivo/上交大证明score差异呈指数衰减,用指数控制函数替代固定CFG;SiT-XL FID降16%(1.80→1.51)
- CFG-Ctrl 滑模控制:清华段岳圻团队将引导定义为控制问题,引入非线性反馈防高频发散;多维度指标同时提升
- 高guidance稳定性:传统CFG线性放大易振荡发散,滑模控制在SD3.5/Flux/Qwen等大模型下优势越显著
长视频推理校正(免重训修复O.O.D)
- 退化根因诊断:西湖大学张驰团队定位长视频质量下降本质为位置O.O.D与上下文O.O.D两类问题
- FreeLOC分层适配:逐层探测敏感度,自适应分配TSA(时序选择性注意力)或VRPR(多粒度位置重编码)
- 4倍长度验证:Wan2.1/HunyuanVideo上图像质量领先Direct方法8.2分,美学质量领先11.8分,动态程度差距达数量级
9.2 图像生成策略优化与强化学习对齐
图像生成策略优化:从强化学习对齐到可微损失函数
机器之心(20260409) | 机器之心(20260410) | CVer(20260412) | 机器之心(20260416) | 量子位(20260423) | AIGC开放社区(20260424) | CVer(20260427) | CVer(20260503) | 机器之心(20260506) | AI科技评论(20260507) | 机器之心(20260515) | 极市平台(20260515) | CVer(20260530) | 机器之心(20260529)
蒸馏架构与工程加速
- 权重方向感知:南开WaDi发现蒸馏中方向变化是范数22倍,因果验证方向是核心驱动而非范数
- LoRaD参数化:推广RoPE至任意偶数维,对权重列施加块对角旋转矩阵,正交旋转天然保范数
- LoRaD优化:旋转矩阵低秩分解AB交替优化(学生秩256/虚假秩32),秩超阈值致FID退化至12.75
- 多任务蒸馏:DiffusionOPD两阶段解耦避免奖励冲突,理论证明闭式KL等价PPO梯度
- 精度调度加速:Sol-RL利用FP4快速探索、BF16精训,收敛提速最高4.64x,rollout加速2.41x
- 熵信号加速:Drift-AR用逐位置预测熵驱动AR投机与视觉解码,3大模型实现3.8-5.5x加速
- 在线自蒸馏:D-OPSD通过学生采样与教师引导双分支,解决少步模型微调遗忘,兼顾新概念
- 指标可微化:FD-Loss将FID变为可微损失零推理开销;FDr₆揭示最强模型仍达1.89
核心方法性能对比
| 方法 | 核心指标 | 关键优势 |
|---|---|---|
| TDM-R1 | GenEval 0.92 | 突破不可微奖励瓶颈 |
| MILR | GenEval 0.95 | 隐空间推理,零参数更新 |
| SOAR | GenEval 0.78 | 无需奖励模型,数据驱动纠偏 |
| AdaGen | 提升17%-54% | 统一四大生成范式 |
| FD-Loss | FID 0.77 | 推理零开销,指标变损失 |
| Drift-AR | FID 1.57 | 熵信号统一加速 |
| DiffusionOPD | 超越联合RL | 多任务解耦避免奖励冲突 |
WaDi技术与下游加速
- 消融对比:LoRaD仅83.8M参数(比LoRA/DoRA少31%、FT少90%)即达SD1.5单步FID 10.79
- 下游加速:结合ControlNet/Reversion推理分别加速86.26%与88.89%,DreamBooth保真度优于FT
- 核心洞察:RoPE旋转机制跨域迁移至权重空间建模有效,LoRaD正交旋转比加性更新更匹配蒸馏
9.3 阶跃 Step Image Edit 2:轻量级图像编辑模型训练范式
多专家自演化学习与分布匹配强化学习(DARL)
性能突破
- 轻量碾压:3.5B参数在KRIS-Bench综合排名第一,超越12B-20B级开源模型
- 极速响应:单次生图仅需0.5-2s,以轻量资源成本逼近大模型表现
- 能力全覆盖:支持中英文渲染、局部编辑、视觉推理、主体一致性、风格迁移
三大训练创新
| 机制 | 核心思路 | 解决痛点 |
|---|---|---|
| 多专家自演化(MESE) | 衍生细分任务专家分支差异化训练,迭代自蒸馏聚合回基座 | 不增参数实现能力非线性跨越 |
| 分布匹配强化学习(DARL) | 模型输出分布与参考分布全面对齐,替代单点奖励信号 | 传统RL奖励稀疏且方差大 |
| 三级数据质控 | 智能体自动清洗→大模型全局评估→人工精细筛选 | 保障训练数据质量与分布达标 |
数据工程
- 图像编辑数据:超5000万条(真实场景挖掘+定向合成+高质量开源)
- 文字渲染数据:2000万条(自研排版系统生成),攻克行业文字编辑难点
9.4 扩散模型预测目标反思:JiT 直接预测原图(CVPR 2026)
JiT:从噪声预测到图像预测的范式重构
- 核心反思:何恺明团队指出主流扩散模型“预测噪声”的范式可能是错的,提出应直接预测干净图像
- 理论支撑:自然图像集中于低维流形,预测噪声需拟合无规律的高维空间分布,导致模型容量需求极高
- 极简架构:JiT采用纯像素输入+标准ViT直接预测原图,无VAE、Tokenizer、CLIP对齐及额外损失
- 高维崩溃现象:低维下各预测目标表现相当,但在高维空间下预测噪声彻底崩溃,FID指数级飙升
- 反直觉发现:输入端加瓶颈层降维反而提升生成质量,契合流形学习过滤噪声的本质
- SOTA性能:在ImageNet 256×256和512×512上分别达到FID 1.82和1.78,完全不依赖复杂组件
预测目标范式对比
| 预测目标 | 目标分布 | 容量需求 | 高维Patch表现 |
|---|---|---|---|
| 预测噪声 | 均匀弥散高维空间 | 极高,易崩溃 | FID指数级飙升 |
| 预测速度场 | 一半流形一半外 | 较高 | 逐渐恶化 |
| 预测原图(JiT) | 集中低维流形 | 低,天然擅长 | 扩展至64×64仍稳健 |
研究脉络与意义
- 脉络传承:从ResNet→MAE→JiT一脉相承,坚持极简架构与“预测目标”的本质探索
- 范式启示:暗示当前扩散模型复杂的工程技巧,可能只是在补偿错误的预测目标
10. 视觉认知推理与渲染引擎
10.1 ReasonBrain:假设性指令图像编辑推理框架(ICML 2026)
ReasonBrain:假设性指令图像编辑推理框架(ICML 2026)
- 框架定位:首个专攻“假设性指令”推理的图像编辑框架,能理解需结合物理规律的隐含意图(如“冰块融化”),实现从执行命令到理解意图的跃迁
- Reason50K数据集:51,039个样本,涵盖物理/时间/因果/故事四大场景,采用反向生成策略(LLM生成指令→扩散模型生图→混合评分筛选)
- 细粒度推理提取(FRCE):视觉分支双维度捕捉局部纹理与全局关系;文本分支通过ID控制器锚定目标物体解决语义歧义
- 跨模态增强器(CME):双向交互机制(视觉+文本导向),通过交叉注意力融合细粒度线索与编辑指导,强化语义一致性
- 轻量融合策略:FRCE+CME特征与多模态特征高效融合,仅通过LoRA微调适配,无需修改原始MLLM和扩散模型架构
关键性能对比
| 评估场景 | 关键指标 | 表现 |
|---|---|---|
| 因果推理 | Ins-Align | 0.501→0.858(大幅跃升) |
| 推理编辑 | IP(身份保留) | 9.72(排名第一) |
| 常规编辑(Emu Edit) | CLIP/DINO | 全面领先 |
| 常规编辑 | CLIP/DINO | 全面领先 |
Spatial-TTT:参数即空间记忆的流式视频空间理解范式(ECCV 2026)
核心创新与范式转变
- 动态空间记忆:将模型参数作为动态空间记忆,在流式视频推理中通过 TTT 持续更新 3D 空间状态
- 范式转变:从“保留历史上下文”转向“维护可持续更新的内部世界状态”,无需死记每帧
- Agent 基础设施:为机器人、自动驾驶、AR 设备提供从流式感知到持续世界状态建模的路径
- 开源背景:代码已开源(github.com/THU-SI/Spatial-TTT),入选 ECCV 2026,一作为清华博士生刘芳甫
极致性能与效率优势
- 核心性能:仅 2B 参数在 VSI-Bench 得 64.4 分超越 GPT-5、Gemini-3-pro
- 领先优势:MindCube-Titty 以 76.2% 领先 Gemini-3-pro(63.9%)12 个百分点
- 效率极限:可处理 120 分钟流式视频,峰值显存仅 11.9GB,节省超 40% 显存与计算量
三大核心设计及协同效应
- 混合 TTT 架构:TTT 层(75%)负责长程信息写入快速权重,锚定层(25%)维持跨模态对齐
- 架构协同机制:TTT 层用 Large-chunk 更新提升 GPU 利用率,锚定层用标准注意力防更新边界打断
- 空间预测机制:对 Q/K/V 加入轻量级 3D 时空卷积,编码局部几何,学习时空上下文预测关系
- 两阶段渐进训练:阶段一用密集场景描述形成全局 3D 意识,阶段二用数百万条 spatial VQA 强化规划
- 消融协同效应:去掉混合架构降 10.5 分(至53.9),去稠密监督降 3.1,去空间预测降 2.3,多模块协同显著
北大MIPL两篇ECCV 2026:细粒度多图感知评测与免训练HOI检测
- DiCoBench:首个细粒度多图感知评测基准,通过视觉线索引导模拟人类主动视觉对比能力。共765个样本(约2K分辨率),覆盖差异线索与共性线索共8个子任务,样本量较BLINK、TreeBench提升约2倍
- 感知-推理鸿沟:人类准确率98.3%,Gemini-3-Pro仅58.1%,落后人类40.2个百分点;推理任务大模型得分普遍仅20%左右,开源模型存在严重的"视觉线索丢失"问题
| 对比维度 | 差异线索 | 共性线索 |
|---|---|---|
| 感知层 | 微观属性改变、实体替换、位置重组 | 实例重识别、跨域类别对齐 |
| 推理层 | 微观不一致因果推理 | 无视觉重叠的跨图功能关系推导 |
- AgentHOI:免训练智能体式HOI检测框架,将检测重建模为"开放语义推理+精确空间定位",协同调度MLLM与视觉定位基础模型,零训练条件下超越多种全监督方法
- 核心机制:通过上下文感知多轮推理(初始识别→交互再挖掘→动作重分配)解决交互发现不完整;融合语义、空间、外观多维度线索解决定位歧义
- 强泛化验证:在HICO-DET基准及分布偏移场景(风格迁移、图像退化)中均展现强鲁棒性
- 关键洞察:感知瓶颈根因是训练数据缺失而非架构限制;"模型编排"可在零训练条件下超越监督方法
视觉鲁棒性·文生图安全·多模态感知三篇论文(TPAMI + ECCV 2026)
- 三篇顶会论文:TPAMI/ECCV 2026录用,覆盖视角鲁棒性(VIAT)、文生图安全(T2I-SPO)、RGB-T视觉定位(RGBT-GroundBench)
视角鲁棒性 VIAT (TPAMI)
- 核心问题:视觉模型高度依赖特定观察视角,改变摄像机方位或俯仰角即可导致预测错误
- 建模方法:首次面向三维视角鲁棒性,建模为分布式极小极大优化问题
- 两条微调路径:VIAT-FP(面向CNN/ViT全参微调)、VIAT-PEIT(面向多模态大模型低秩自适应微调)
- 高效视角生成:GMVFool学习高斯混合对抗视角分布,较ViewFool提升约160倍优化效率
- ImageNet-V+基准:近10万张对抗视角图;Swin-B准确率达79.25%,较标准模型提升55.25%
- ViewRS认证:基于随机平滑技术,提供可证明的视角鲁棒性认证指标
文生图安全 T2I-SPO (ECCV 2026)
- 打破零和困境:突破安全防御与生成质量互斥,实现安全与质量双赢
- 数据对齐去偏:LibraAlign-HF生成高保真harmful-safe图对,从源头避免「安全即退化」偏置
- 多维标注数据:LibraAlign-100K覆盖7类NSFW与634种有害概念
- 四层协同机制:双维标注→复合奖励函数(SPO)→难例挖掘(动态聚焦)→统一评测(UAS)
- 双效领先指标:I2P等基准防御领先,PickScore/HPSv2质量超越基座
RGB-T视觉定位 RGBT-GroundBench (ECCV 2026)
- 首个大规模基准:2万+图像对,3.8万+目标实例,推动视觉定位走向多模态
- 细粒度标注体系:包含场景、光照、天气、目标尺度、遮挡程度等多维评测标注
- 核心评测发现:弱光和小目标显著降低模型性能,多模态输入带来更稳定提升
- RGBT-VGNet基线:非对称模态适配+语言感知跨模态交互+视觉特征融合
- 落地场景:面向无人机巡检、智能监控、自动驾驶、机器人感知、应急救援
渲染范式与跨模态图像融合前沿
- 奖项概况:Ben Mildenhall(World Labs)与Pratul Srinivasan(谷歌DeepMind)因2020年NeRF论文获2025 ACM Grace Hopper奖(限35岁以下,奖金3.5万美元)
- 核心机制:NeRF输入5D坐标(位置与视角),输出体密度与颜色,仅凭几张2D照片学会3D场景的连续表示
- 范式革命:以连续可微隐式场替代传统离散基元(网格/点云),开创neural fields通用框架,渗透医学、天文、计算物理等领域
- 产业延伸:技术落地沉浸式地图、3D电商及城市场景可视化,Mildenhall现于World Labs押注空间智能
| 评估维度 | 传统图形学方法 | NeRF方法 |
|---|---|---|
| 表示方式 | 离散网格/点云/体素 | 连续可微隐式场 |
| 几何与光影 | 依赖手工建模与材质光照 | 纯MLP网络自动隐式编码 |
| 场景复杂度 | 表现受限于基元精度 | 理论具备无限分辨率 |
红外与可见光跨模态融合技术(FusionINV)
- 核心范式:将融合从信息叠加转为分布对齐,令融合图像贴近可见光分布,无需训练即可兼容现有下游视觉系统
- 双路反演:分别对红外与可见光图像执行DDIM反演,以红外潜变量为主体,利用可见光线索(注意力特征)调节去噪方向
- 分阶段注入:早期注入红外特征以保留结构,中期引入可见光特征恢复自然外观,后期模型自主去噪实现细节协调
- 核心洞察:预训练扩散模型具备将任意模态内容“重穿”可见光外观的能力,实现内容结构与视觉外观的解耦
| 评估维度 | 关键结论 |
|---|---|
| 实验设置 | 基于SD v1.5,单卡RTX 3090,T=50步,小权重CFG保留文本交互 |
| 感知质量 | 在FMB数据集上PAQ2PIQ、LIQE指标达最优 |
| 下游适配 | MSRS语义分割(Grounding DINO+SAM无微调)实现平均最优 |
10.2 视觉生成的推理-执行解耦架构
Unified Thinker:思考与执行解耦的视觉生成推理架构(ACL 2026)
- 核心瓶颈:开源视觉生成模型缺乏独立推理规划能力,堆参数无法解决逻辑幻觉问题
- 解耦架构:浙大&阿里提出 Unified Thinker(ACL 2026 Oral),Thinker负责意图拆解并输出可执行计划,Generator专注高精度像素合成
- 设计动机:紧耦合训练不稳定,外挂LLM Planner导致语义-视觉错位(LLM认为合理的描述,扩散模型可能无法执行)
- 数据工程:构建HieraReason-40K(4万样本),引入结构化推理轨迹:意图拆解→逻辑具体化→视觉转译
- 编辑法则:Prompt严禁描述未改变区域,极大减少语义漂移
| 训练阶段 | 算法 | 优化目标 |
|---|---|---|
| 推理导向 | GRPO | 多条路径+视觉质量反馈 |
| 生成导向 | 随机采样 | 复杂指令保真度 |
- 实验表现:RISEBench和WiseBench显著优于开源基线,时间演化和空间定位接近闭源模型水平
- 跨模型迁移:Thinker挂载未训练底座(Qwen-Image、BAGEL)仍有效提升逻辑执行准确度
- 开源信息:代码已开源(GitHub: LivingFutureLab/UnifiedThinker)
10.3 AesFormer:美学照片重构任务与美学理解-执行解耦架构(ICML 2026)
美学照片重构:从表层修饰到结构级重构的范式跃迁
- 美学照片重构新任务:北大彭宇新团队首次定义,从调色美颜升级为构图/视角/姿态的结构级重构,被ICML 2026接收
- AesRecon数据集:从互联网拍照教学视频挖掘,获取9071对严格语义对齐的「普通原片→出彩成片」人像样本
VCMP四阶段语料挖掘流水线
| 阶段 | 核心任务 |
|---|---|
| 出彩成片定位 | 在视频中定位最终展示的高质量成片 |
| 原片匹配 | 为成片匹配语义一致但效果欠佳的原片 |
| 去干扰处理 | 去除字幕、图标、辅助线等遮挡元素 |
| 拍摄事件对齐 | 过滤非同一拍摄事件的照片对 |
- 解耦架构设计:美学规划器AesThinker(生成方案)与美学编辑器AesEditor(像素执行)分离
- AesThinker训练:基于Qwen3-VL-8B,采用冷启动SFT + 美学引导GRPO,沿七个递进摄影维度分析
- GRPO三类奖励:格式奖励、语义对齐奖励、美学创意奖励(鼓励探索多样化优化路径)
- AesEditor执行:基于Qwen-Image-Edit-2511,按规划方案执行像素级重构
- 专用训练不可替代:GPT-4o+通用编辑器未能稳定提升甚至下降,证明美学理解与执行均需专门训练
- 性能表现:全面优于开源模型,多数指标超越Google闭源商业模型Nano Banana Pro
- 开源地址:arxiv.org/abs/2605.22126,GitHub: PKU-ICST-MIPL/AesFormer_ICML2026
10.4 移动端神经渲染:Arm GPU 架构转型与 MegaLights 落地
移动端神经渲染管线与 Mali GPU 架构演进
- 核心范式转变:移动端图形瓶颈从"算力不足"转为"功耗受限下的算力分配",神经渲染管线成为突破功耗墙的最可行路径
- AI重塑渲染管线:神经网络从游戏逻辑组件转为渲染管线模块,承担低分辨率渲染后的超采样与帧率提升工作
- 神经渲染技术组件:
| 技术模块 | 功能定位 | 效果收益 |
|---|---|---|
| NSSD(神经超采样与降噪) | 低分辨率渲染后 AI 恢复细节 | 降低 GPU 负载,保图像质量 |
| NFRU(神经帧率提升) | 神经网络生成中间帧 | 提升流畅度,降渲染开销 |
| MegaLights(UE5.5光照) | 大量实时动态光源+光追阴影 | 移动端实现主机级光照 |
- 功耗预算重分配:基础渲染节省的功耗,转而用于更复杂的光照与场景效果,与 PC 端 DLSS/FSR 同源但属移动端首次完整落地
- MegaLights 首登移动端:UE5.5 动态光照系统支持大量实时动态光源,突破传统限制光源数量与预计算烘焙模式
- 光源升级为玩法核心:演示项目《光影新生》中,光源同时承担氛围、导航和交互提示功能,将光照从装饰升级为核心玩法
- Mali GPU 神经化转型:Arm 下一代 Mali GPU 将集成专用神经加速器,GPU 负责图形计算,加速器负责 AI 推理
- 从图形到协同处理器:移动 GPU 正从"图形处理器"向"图形+神经协同处理器"范式转变,并将纳入今年推出的 Arm CSS 平台
- 插件化降低迁移门槛:现有 UE 项目可通过插件逐步引入神经渲染,无需自建 AI 渲染框架
交叉引用
- ai-agent - AI Agent与智能体
- ai-coding - AI编程与开发
- ai-industry - AI行业与商业
- llm-frontier - 大模型前沿
- embodied-ai - 具身智能与机器人
- ai-products - AI产品与落地