基准测试
事件基准测试(Benchmark),通过标准化数据集和指标量化评估AI模型性能的测试方法,典型应用包括MMLU、SWE-bench等评测基准
264 次提及200 个连接最近出现: 2026-06-29
关系图谱
关系 (271)
应用于 (94)
通义千问 MaxInfoTokAI科研助手AI安全Fast-dVLAAgentAI搜索GLM-5Gemini 3具身智能MythosADeLeRLHFSFTMASFactoryDeepScientist V1.5Claude 3.5 SonnetGPT-5 Mini-RSleepFMMythos PreviewClaude MythosVector DatabaseInternVL2-8BMemPalaceTransformerLeVERBPaperWritingBenchSynergyQwen2.5Psi-R2Claude Opus 4.6Chain-of-ThoughtStarVLALatentUMM2.7Claude Sonnet 4.6AI编程助手机器人Claude Opus 4.6vidu Q3Qwen3DeepSeek R1Gemini 2.0Gemini 2.5 ProAI客服AI编程助手ElephantStreamingVLAGPT-Rosalind图像生成自动驾驶o3GPT-5HarnessLLaMA 4LLaMA 3Images 2.0GPT Image 2Qwen3.6-27BGPT-5.5MiMo-V2.5-ProPRETAlphaFold医疗AIDASES框架GPT-4o代码生成AI对齐DeepSeek V3WorldScape边缘计算代码生成清华大学SenseNova U1LDA-1BMotuBrain元学习EssenceBenchCodeGraphClaudeStep 3.7 FlashClaude Fable 5AI科研助手ω-EVAFable 5CogVideoX1.5-5BGLM-5.2AI OverviewsOpus 4.7MME-CoF-ProGPT-5.6 SolAI安全Claude Mythos 5MME-CoF-Pro
使用 (69)
Qwen3MMDuet2DGM-HyperagentsClaude Opus 4.6GPT-5GLM-5MiniMaxGPT-4oClaudeGeminiLLaMA 3深度求索 DeepSeekChatGPTEchoZ-1.0GPT-5.2MetaClawTurboQuantRaBitQCLIPDINOLongCat-NextGemini 2.5 ProAgentLLaMA 4Kimi MoonshotPsi-R2Claude MythosClaude 4.5 SonnetGemini 3.1 Providu Q3面壁智能PRM-as-a-JudgeRoboPulseAnthropicTuriX Superpower阿里巴巴Meta AIOpenAIGemini 3 ProLingBot-MapGO-2GPT-RosalindStreamingVLAAURAAtomVLAGPT-5.5MCPDeepSeek V4Google DeepMindVideoAuto-R1LIVRMotuBrainSenseNova U1GPT-4o1Claude 4.6GPT-4.5LLaMA 3Qwen3.7-MaxGPT-5.4Kimi K2.5MiniMax M2.7Grok 4.20Decitron决策机Claude Sonnet 4Opus 4.7AgentGemini 3.5 Flash通义千问
发布 (42)
GLM-5V-Turbo匹兹堡大学Anthropic百度南京大学S1-VL-32BScale AINVIDIA高德剑桥大学M-FlowGoal2SkillIBISAgentDeepSeek V3深度求索 DeepSeekKimi K2.6GM-100LifePrompt河合塾Einsia AIOpenAI未来式智能商汤科技Qwen3.7X-EraLMarena智元南京航空航天大学浙江大学Recursive SuperintelligencePerplexity AIGoogle DeepMind阿贡国家实验室Artificial AnalysisSAGNEO-ovUC BerkeleySnowflake北京大学友松实验室FORT-Searcher普林斯顿大学
使用技术 (15)
领导 (14)
基于 (13)
相关文章 (264)
下滑加载更多...(已显示 30 / 264)