Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
视觉语言模型
视觉语言模型
技术
多智能体系统中用于视觉理解和交互的基座模型
9 次提及
11 个连接
首次出现: 2026-04-30
最近出现: 2026-05-27
关系图谱
关系 (11)
使用技术 (8)
ViF
PAT3D
PAT3D
BridgeACT
GPT-4V
IGen
KeyTailor
SUGAR
应用于 (3)
多模态理解
具身智能
医疗AI
相关文章 (9)
1.
量子位 - 终结多智能体视觉幻觉“滚雪球”!新国立等提出ViF:无需改造模型,即插即用
2.
机器之心 - ICLR2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互
3.
机器之心 - ICLR2026|CMU等团队让AI生成的3D场景真正「站得住」:PAT3D把文生3D从能看推进到能模拟、能交互
4.
具身智能之心 - BridgeACT指出了人类数据虽然很多,但机器人却几乎用不上的“根因”
5.
具身智能之心 - 如何从人类视频中学习机器人操作?近400篇工作一览数据配置、学习方式、核心挑战!
6.
具身智能之心 - CVPR’26从互联网图片到机器人策略学习的那堵墙被IGen拆掉了
7.
极市平台 - CVPR2026|视频虚拟换衣新SOTA!KeyTailor实现高保真动态细节与背景一致性双提升
8.
具身智能之心 - 为什么人类视频很多,人形机器人却仍然学不会操作?SUGAR给出了答案
9.
DeepTech深科技 - MIT黑客松冠军让AI控制了人的手,被全网传成“AI夺舍人体”,我们和当事人聊了聊