Wesum AI
首页
图谱
主题百科
首页
/
图谱
/
DiT
DiT
技术
DiT,基于 Transformer 架构的扩散模型,用自注意力机制替换传统 U-Net 用于图像和视频生成
15 次提及
17 个连接
最近出现: 2026-06-15
关系图谱
关系 (17)
使用技术 (16)
FLUX.1-Fill
C²FG
Sora
ChangeBridge
Omni2Sound
PAE
Qwen3VL-4B-GR00T
KeyTailor
Leadde
Agora-1
可灵
Bernini
BLM
BWM-Fast
PE-Field
位置编码
应用于 (1)
视频生成
相关文章 (15)
1.
极市平台 - CVPR2026|北大彭宇新团队开源免训练虚拟试衣框架PG-VTON,通过推理控制解锁预训练修复模型“隐藏的虚拟试衣能力
2.
AI科技评论 - 上交大xvivo团队:一个简单改动,让diffusion全面提升丨CVPR2026
3.
AI科技评论 - Sora之父「跑路」背后的五大真相是什么?
4.
AI科技评论 - 独家|华为系帧跃科技完成千万美金天使轮融资,将发布视频产品Leadde
5.
AIGC开放社区 - 字节开源王炸Bernini!轻松拿捏各类视频编辑任务
6.
CVer - CVPR2026武汉大学提出ChangeBridge:遥感多模态控制时空图像生成框架
7.
机器之心 - CVPR2026Highlight清华打破多模态音频生成的「通才困境」:Omni2Sound音频基础模型开源!
8.
极市平台 - 重建好≠生成好!交大&阿里提出PAE:从流形几何重塑VAE潜空间,训练提速13倍、gFID1.03新SOTA
9.
新智元 - VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破
10.
极市平台 - CVPR2026|视频虚拟换衣新SOTA!KeyTailor实现高保真动态细节与背景一致性双提升
11.
量子位 - 抢先李飞飞!世界模型能多人联机玩FPS游戏了
12.
硅星人Pro - 快手拆了可灵,字节拆豆包还会远么
13.
AIGC开放社区 - 字节开源王炸Bernini!轻松拿捏各类视频编辑任务
14.
PaperAgent - 开源第1、闭源第2!同济世界模型登顶WorldArena
15.
AI科技评论 - ICLR2026|美图提出位置编码场PE-Field,让DiT感知和控制3D空间