近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
随着人工智能技术的飞速发展,自然语言模型在自动翻译、智能客服、医疗、金融等多个领域展现出巨大潜力。然而,如何准确评估这些模型的性能,尤其是它们的推理能力和解决数学问题的能力,一直是研究者关注的焦点。近年来,虽然已有多个基准测试数据集用于评估语言模型的数学推理能力,但随着模型的快速发展,这些数据集逐渐被攻克,其挑战性逐渐降低。
在此背景下,UGMathBench数据集应运而生。该数据集从在线作业评分系统中精心收集、提取和整理了大量本科数学问题,涵盖了基础算术、单变量微积分、多变量微积分、微分方程、概率等16个科目,共包含5062个题目。与以往数据集不同的是,UGMathBench为每个题目提供了3个不同的随机版本,通过改变数学问题中的数字来产生动态变化的问题,从而更真实地评估语言模型的推理能力。
为了确保评估的准确性和公正性,研究团队还提出了三个关键指标:有效准确率(EAcc)、推理差距(Δ)和稳健性效率(RE)。有效准确率用于衡量语言模型在所有随机版本上都能正确解答的题目比例;推理差距则反映了语言模型在解答不同随机版本题目时的一致性;稳健性效率则进一步捕捉了语言模型在适应相同问题不同随机版本时的能力。
基于UGMathBench数据集,研究团队对23个先进的语言模型进行了全面评估,包括商业闭源模型和开源模型。评估结果显示,即使是具有先进推理能力的语言模型,在UGMathBench数据集上也面临巨大挑战。这一结果不仅揭示了当前语言模型的局限性,也为未来开发具有更高推理能力的语言模型提供了重要参考。
UGMathBench数据集的发布,不仅为语言模型数学推理能力的评估提供了新的工具和方法,也为研究者深入理解语言模型的内在推理逻辑提供了有力支持。目前,该数据集已对外开放下载,研究者和开发者可通过指定链接获取数据集及相关技术报告,进一步探索语言模型在数学推理领域的潜力。
数据集下载地址:
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
https://huggingface.co/datasets/UGMathBench/ugmathbench
技术报告地址:
https://arxiv.org/abs/2501.13766
本文由「aiuc」编辑整理,文章链接:https://www.aiuc.net/56115
该文观点仅代表作者本人,平台仅提供信息存储空间服务。