Wesum AI

多模态理解

场景

多模态理解,整合文本、图像、音频、视频等多种模态数据进行综合感知与分析的技术领域,代表模型有 GPT-4o、Claude 3.5 Sonnet

614 次提及390 个连接最近出现: 2026-06-29

关系图谱

关系 (444)

应用于 (295)

GRPO致境 T 系列LongCat-NextAgent边缘计算文档理解MoE阶跃星辰KV CacheQwen3.5-OmniQwen3GPT-5AI写作代码生成AI金融AIUIWan2.7-ImageAI编程助手Chain-of-ThoughtGLM-5视频生成具身智能人形机器人3D生成GLM-5V-TurboAI安全Seedance 2.0ColaOSAI芯片GLM-4人机交互广告推荐Gemma 4Function Calling豆包 Pro机器人TransformerEgoTouch自动驾驶SEMFGEN-1SFT可灵AIAI教育Muse Spark语音合成Claude Opus 4.6SpatialStackMoT-2BVimRAGAI科研助手知识蒸馏即梦Gemini 3.1 Pro数字人AI客服图像生成Gemini 2.5 ProOMNIMEMStarVLALatent SpaceGPT-4o绝对时间戳编码医疗AI视频理解LatentUMBeing-H0.7Vector Database科大讯飞混元3D世界模型2.0具身智能Chance AIChatGPTGemini腾讯混元 HY-World 2.0机器人控制PersonaVLM超级EvaTool UseOpenAIAgentGPT Image 2Kimi MoonshotAI搜索WALL-BQwen3.6-27BKVL 多模态架构GPT-5.5NotebookLMPRETAI芯片AWE3.0DOVE兔展智能MathForge表征收敛深度求索 DeepSeekTIPSv2机器人豆包大模型2.0TokenDuMateMTSSViTMIMMiniCPM-o 4.5SenseNova U1 LiteLangFlow司法矫正校园心理企业招聘OlmoEarthMixture of ExpertsLLaMA 4SenseNova U1DeepSeek V4Chain-of-ThoughtJanus扫地机器人Anthropic深度求索 DeepSeekViF视觉语言模型OCRMSRLDeepSeekGemini 2.0DeepSeek-V4-Flash视觉基元OpenWorldLibCL-Bench LifeChatGPT心理康复支持GPT-5.5 Instant强化学习Janus-Pro-7B隐式推理豆包大模型大模型APIOmni2SoundQwen-2.5-VLGoogle AI Edge Gallery智能穿戴OneTrackerV2DeepSeek V4.1V4.1MCPBARD-VL全双工实时交互TML-Interaction-Smallv-HUBLLaVA-UHD v4MiniCPM-V 4.6视觉 token 压缩ViT 架构重构Omni-FlowViT前置压缩RAGReasonBrainQwen3-VL-8B连续扩散模型Qwen2.5-VL-7BVision-R1SeePhys ProQwen3.7-Plus-PreviewRLSDCoPDHyperEyesMemEye方舟平台Qwen3.7Thinker-Talker 架构Cola DLMGammaGemini OmniVQAQwen3.5-LiveTranslate-FlashAI办公Qwen3.7-MaxRAEv2Gemini 3.5 FlashHeimaESI-BenchAI无障碍Visual Para-ThinkerAI OSHiDream系列大模型符号主义检索增强场景图DeepSeek Sparse AttentionMiMo-V2.5-Pro视觉推理TextPro-SLMStep 3.7 FlashAndesVLBigQuery ObjectRefsMetaSenseNova-U1-8B-MoT-InfographicM3端侧多模态大模型MiniMax M3MSA智能家居MiniMax-01Attention MechanismCosmos 3Gemma 4 12BGemini Omni FlashDreaming稀疏注意力数据标注Qwen3-VL-2BSiri AISiriLanceSiriClaude Fable 5小浣熊Gemini Pro 1.5长上下文Qwen3-VL-4BSenseNova-U1-8B-MoT-InterleavedKimi K2.7 Code悟界·Emu3.5GaussianDWMQwen3-VLDoubao Seed 1.6Emu3.5Sora-2星火X2-VLUniTouch自监督表征学习Representation ForcingLatent ReasoningClue-Guided QA GenerationQwen2.5-Omni-7BVITA-1.5-7BQwen3-Omni-30BLivisMiniMax-M3VL-JEPAA-TPT时间景观临界闪烁融合阈值Apache IcebergGPT 5.5DeepSeek V3GLM-5.2Claude Opus 4.7MMMUGemini 3.5 ProAudioX-TurboUnisonMindStellaris-VL-0.8BMOSSSAGGraphRAG豆包大模型2.1Seed 2.1 ProSeed2.1豆包2.1ProSeed Audio 1.0豆包 2.1 ProOpus 4.8DepthVLM清研精准小微NEO-ov统一自回归框架Information BottleneckSeed-2.1Seed 2.1自动驾驶低秩自适应微调世界模型TransPrune火山引擎 LAS豆包 Seed 2.1 ProSenseNova-U1 Pro5G-AOctopusU6GHzMoKusAI办公FlinkStream Memory持续微调VLX-FlowWan Streamer v0.1YodaOSVLAOMG-DiTMOSS-VL扩散模型

使用技术 (129)

使用 (13)

合作 (3)

竞争 (1)

发布 (1)

领导 (1)

投资 (1)

相关文章 (614)

下滑加载更多...(已显示 30 / 614