基准测试

事件

基准测试（Benchmark），通过标准化数据集和指标量化评估AI模型性能的测试方法，典型应用包括MMLU、SWE-bench等评测基准

264 次提及200 个连接最近出现: 2026-06-29

关系图谱

关系 (271)

应用于 (94)

通义千问 Max InfoTok AI科研助手 AI安全 Fast-dVLA Agent AI搜索 GLM-5 Gemini 3 具身智能 Mythos ADeLe RLHF SFT MASFactory DeepScientist V1.5 Claude 3.5 Sonnet GPT-5 Mini-R SleepFM Mythos Preview Claude Mythos Vector Database InternVL2-8B MemPalace Transformer LeVERB PaperWritingBench Synergy Qwen2.5 Psi-R2 Claude Opus 4.6 Chain-of-Thought StarVLA LatentUM M2.7 Claude Sonnet 4.6 AI编程助手机器人 Claude Opus 4.6 vidu Q3 Qwen3 DeepSeek R1 Gemini 2.0 Gemini 2.5 Pro AI客服 AI编程助手 Elephant StreamingVLA GPT-Rosalind 图像生成自动驾驶 o3 GPT-5 Harness LLaMA 4 LLaMA 3 Images 2.0 GPT Image 2 Qwen3.6-27B GPT-5.5 MiMo-V2.5-Pro PRET AlphaFold 医疗AI DASES框架 GPT-4o 代码生成 AI对齐 DeepSeek V3 WorldScape 边缘计算代码生成清华大学 SenseNova U1 LDA-1B MotuBrain 元学习 EssenceBench CodeGraph Claude Step 3.7 Flash Claude Fable 5 AI科研助手 ω-EVA Fable 5 CogVideoX1.5-5B GLM-5.2 AI Overviews Opus 4.7 MME-CoF-Pro GPT-5.6 Sol AI安全 Claude Mythos 5 MME-CoF-Pro

使用 (69)

发布 (42)

使用技术 (15)

CSEDB双轨基准 GLM-5 InCoder-32B Thinking GPT-4o Anthropic Google Claude Opus 4.6 Kimi Moonshot DeepSeek R1 GPT-5 Gemini 2.5 Pro Spirit v1.6 Bernini Dreaming V3 Claude Opus 4.6

领导 (14)

曹操出行 Anthropic DeepSeek V3 智谱AI Google DeepMind MiniMax Claude Opus 4.6 智在无界 vidu Q3 M-Flow Deep Research Manifold AI 小米 Cameron Jones

基于 (13)

GLM-5 Claude 3.5 Sonnet Claude Opus 4.6 vidu Q3 Being-H0.7 竞赛 Qwen3 LDA-1B MotuBrain Claude Mythos Claude Sonnet 4 GPT-5.5 Rio 3.5 397B

合作 (10)

原力灵机 Anthropic 字节跳动 AllenAI NVIDIA 灵初智能腾讯 Opus 4.8 阿里巴巴南京大学

竞争 (7)

Qwen3 GLM-5 Claude Opus 4.6 Vidu AI科研助手 Qwen3.7-Max Step 3.7 Flash

创建 (5)

Physion-Eval 上海AI Lab 清华大学 Google Perplexity AI

顾问 (2)

Google DeepMind Satoshi Kurihara

相关文章 (264)

下滑加载更多...（已显示 30 / 264）