Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
多模态大模型
多模态大模型
技术
涵盖视觉与语义特征的大模型,本文针对其在视频领域动态/静态信息纠缠的痛点进行研究
6 次提及
6 个连接
首次出现: 2026-05-27
最近出现: 2026-06-26
关系图谱
关系 (6)
使用技术 (5)
DeSa2VA
Bernini
my16
Uni-LaViRA
X2SAM
应用于 (1)
具身智能
相关文章 (6)
1.
CVer - 首次!兰州大学在顶刊TPAMI上发表论文
2.
量子位 - 字节开源统一框架Bernini:给DiT配个“大模型军师”,AI视频编辑先理解再动手
3.
机器人前瞻 - 雷军发微博庆祝!小米机器人拿下两个冠军
4.
具身智能之心 - 具身导航,是否一定要训练一个VLA大模型Uni-LaViRA给出的答案是“不一定”
5.
CVer - ECCV2026分割大一统!X2SAM:图像和视频中的分割一切
6.
极市平台 - 从图像到视频的任意分割:X2SAM让MLLM真正看懂像素级时空世界