每次人工智能研究人员训练新模型来理解语言、识别图像或破解医学难题时,一个根本问题总是浮现:这个模型真的比之前的更好吗?为了回答这个问题,研究人员普遍依赖基准测试——即一系列用于衡量和评估模型性能的标准任务和数据集。基准测试的得分往往直接决定一个模型的学术影响力、资源投入乃至商业化前景。
然而,随着人工智能领域的飞速发展,成千上万的基准测试分布在各式各样的数据集中。开发者应当选择哪些基准?这些基准是否具有同等的可信度与价值?
在去年12月神经信息处理系统大会(NeurIPS)上发表的一篇新论文中,斯坦福大学计算机科学助理教授 Sanmi Koyejo 及其博士生 Sang Truong 领导的团队,对当前人工智能基准测试中普遍存在的系统性缺陷提出了深入分析与警示。
“基准测试确实为科研与产业界提供了重要的公共价值,”Koyejo 表示,“但随着它们在人工智能生态中的地位日益关键,我们必须以与其影响相匹配的严谨态度,对基准的构建过程进行更严格的审查,并落实更透明的说明规范。”
缺陷与后果:当“魔法漏洞”侵蚀可靠性
研究人员将这些缺陷半开玩笑地称为 “魔法漏洞”(Magic Bugs)——戏仿了电影《神奇动物》的标题,但其实际影响却正在人工智能领域引发一场可信性危机。“基准测试中的错误会对整个行业产生巨大冲击,”Koyejo 强调。
存在缺陷的基准会严重扭曲模型评分:不仅可能夸大表现欠佳模型的性能,还会错误惩罚表现更优的模型。其影响往往更为隐蔽且广泛,因为开发者、投资机构与评审委员会普遍依赖基准得分来做出资助分配、研究方向选择以及资源投入等关键决策。这可能导致资源被错误导向能力较弱的模型,甚至使得本应发布的高性能模型因评分失真而被埋没。
例如,在一个要求答案为“$5”的金融问答基准中,系统错误地将“5 dollars”或“$5.00”等合理变体判为错误。这类看似微小的格式不一致,却在评分中带来显著偏差。研究论文中列举了一个典型案例:模型 DeepSeek-R1 在原始有缺陷的基准测试中排名接近末位,而在基准修复后,其排名显著提升至第二位。
人工智能“昆虫学”:用统计与AI追踪漏洞
为了系统性地识别这些“魔法漏洞”,Koyejo 与 Truong 团队结合了经典测量理论与现代大语言模型(LLM)分析。他们首先利用统计方法检测出那些导致大量模型一致出错的异常题目,再借助大语言模型对这些问题进行自动分析与标注,从而筛选出需要人工重点审查的高风险条目。
“我们的‘统计+AI’框架能够有效定位真正存疑的问题,大幅减少了人工审核所需的时间,”Truong 解释道。该方法在九个常用人工智能基准测试中识别缺陷问题的准确率达到了84%。“也就是说,被我们标记的问题中,超过八成确实存在设计或标注错误,”他补充道。
推动改变:从“发布即遗忘”到持续维护
目前,研究团队正积极与多个基准维护组织合作,协助其修正或移除已发现的缺陷问题,以重建基准评分的可靠性与公平性,从而促进模型开发与评估体系的整体改善。
尽管多数研究者认同提升基准质量的必要性,但推进过程仍面临挑战。“反馈不一,”Koyejo 坦言,“很多人承认需要更可靠的评估体系,但往往不愿承诺投入持续维护的精力与资源。” 团队希望推动整个领域从当前常见的“发布即遗忘”模式,转向一个可持续、可迭代的基准管理时代。
展望:更可信的评估,更健康的人工智能生态
通过倡导基准开发者采纳系统化的审查框架并积极修复问题,Koyejo 与 Truong 期待人工智能领域的基准标准能够实现整体提升,进而推动技术更扎实、更可比较的进步。一个更健全的评估体系将带来:
更准确的模型性能评估;
更合理的资源分配与研究方向选择;
整体提升人工智能系统的可信度与公众信任。
“随着人工智能更深地融入医疗、金融、教育等关键领域,”Koyejo 总结道,“提升基准的可靠性将产生深远影响——它不仅推动技术创新,更有助于构建更安全、更稳健、更负责任的人工智能未来。”
项目信息
本研究部分由斯坦福以人为本人工智能研究所(HAI) 资助。其他贡献作者包括涂宇恒、Michael Hardy、Anca Dragan、唐泽宇、Jiravut Boonyaphiphat、Jonathan Perdomo、Chibuike Uwaechia,以及斯坦福教育研究生院的 Benjamin W. Domingue 和 Nick Haber。

