Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
ViT
ViT
技术
ViT,Vision Transformer,将 Transformer 架构应用于计算机视觉的模型结构,广泛用于图像分类、目标检测等视觉任务
10 次提及
11 个连接
最近出现: 2026-06-27
关系图谱
关系 (11)
使用技术 (8)
MODMAP
TIPSv2
OlmoEarth
视觉Token压缩
DIAL
UniMedVL
SAViT
HYDRA
竞争 (1)
ResNet
应用于 (1)
多模态理解
基于 (1)
NuWa
相关文章 (10)
1.
极市平台 - CVPRF2026|博洛尼亚大学开源MODMAP:跨视图调制+跨模态映射,3D异常定位更精准
2.
机器之心 - 终于,学界找到了深度学习的「牛顿定律」
3.
CVer - CVPR2026谷歌提出多模态TIPSv2:新型图像-文本编码器模型
4.
CVer - CVPR2026YOLO之父回归!OlmoEarth:多模态地球观测的基础模型
5.
卡尔的AI沃茨 - 大模型越做越大,面壁智能反手做了个小100倍还能看图的
6.
量子位 - 把VLM塞进隐式世界模型,小鹏机器人新框架让机器人长出物理直觉
7.
CVer - ICML2026UniMedVL:统一医学多模态理解和生成
8.
CVer - 医学顶刊TMI2026!SAViT:高效的医学图像分析框架
9.
极市平台 - CVPR2026Oral|剪枝不用重训练,还能反超基线?华科大开源NuWa算法:边缘部署算力成本砍掉99.7%
10.
量子位 - 单个tokenizer胜任图像视频理解生成!南大&腾讯混元HYDRA打通多模态统一难题