Wesum AI

基准测试

事件

基准测试(Benchmark),通过标准化数据集和指标量化评估AI模型性能的测试方法,典型应用包括MMLU、SWE-bench等评测基准

264 次提及200 个连接最近出现: 2026-06-29

关系图谱

关系 (271)

应用于 (94)

使用 (69)

发布 (42)

使用技术 (15)

领导 (14)

基于 (13)

合作 (10)

竞争 (7)

创建 (5)

顾问 (2)

相关文章 (264)

下滑加载更多...(已显示 30 / 264