Wesum AI

基准测试

事件

包括SWE-bench、MMLU-Pro、GPQA、IFEval等用于评估模型性能的测试

199 次提及143 个连接最近出现: 2026-04-29

关系图谱

关系 (199)

应用于 (78)

使用 (55)

发布 (18)

领导 (12)

基于 (9)

使用技术 (9)

合作 (7)

竞争 (6)

创建 (4)

顾问 (1)

相关文章 (199)

下滑加载更多...(已显示 30 / 199