中科院?自动化所新基准测试: 多图数学推理难倒一?众大:模:型
人工智能的浪潮席卷全球,大模型在各个领域展现出惊人的能力。
看似无所不能的大模型,真的已经征服了所有挑战吗?
最近,一项关于多图数学推理的研究,揭示了大模型不为人知的“弱点”。
中国科学院自动化研究所的科学家们构建了一个全新的测试基准,结果发现,即便是目前最先进的大模型,也在这项测试中“全军覆没”。
这究竟是怎么回事?
让我们一起深入探究。
近年来,多模态大模型在数学推理领域展现出极大潜力,但现有的测试基准大多局限于单图推理,与现实世界中复杂的多视觉数学应用相去甚远。
为了弥合这一差距,中科院自动化所推出了多图数学推理数据集MV-MATH,这项研究已被CVPR 2025接收。
MV-MATH包含2009个从K-12教育场景中提取的真实数学问题,涵盖选择题、填空题和多步问答题三种类型,涉及解析几何、代数、度量几何等11个数学领域,并根据难度分为三个等级。
MV-MATH的独特之处在于它的多视觉场景设计。
每个问题都包含2到8张图片,与文本交错呈现,构成更贴近现实的复杂场景。
为了确保数据集的质量,每个样本都经过至少两名标注者的交叉验证,标注内容包括问题、答案、详细分析以及图像关联性。
此外,MV-MATH还引入了图像相关性标签,将数据集分为相互依赖集(MD)和独立集(ID)两个子集。
MD子集中的图像相互关联,需要综合理解;而ID子集中的图像相互独立,可以单独解释。
研究团队使用MV-MATH对24个主流多模态大模型进行了测试,结果显示,即使是最先进的模型,在多视觉数学任务中也面临巨大挑战。
表现最好的Claude-3.5整体准确率仅为33.9%,远低于人类水平(76.5%)。
其他模型,如GPT-4o(32.1%)、Gemini-1.5-Pro(29.1%)和Qwen-vl-max(26.9%),也均未达到令人满意的水平。
开源模型LLaVA-OneVision-Chat-72B的准确率为26.2%,与Qwen-vl-max相差不大。
值得一提的是,类o1模型QVQ-72B-Preview的性能为29.3%,仅次于GPT-4o,这表明慢思考系统在多图推理任务上也有一定潜力。
更进一步的分析揭示了模型在不同领域、不同难度级别下的表现差异。
例如,Claude-3.5在算术领域的准确率最高,达到54.2%,但在组合几何领域仅为27.0%。
这表明,需要复杂图像理解和推理的领域对大模型来说仍然是难以攻克的堡垒。
研究还发现,对于闭源模型,CoT和few-shot对MV-MATH多图推理并不一定有效,而对于开源模型,CoT和few-shot都会导致性能下降。
在图像关联性方面,大多数模型在MD子集上的性能低于ID子集,这表明处理相互依赖的图像信息对模型来说更具挑战性。
例如,Gemini-1.5-pro在MD和ID子集上的性能差距高达7.8%。
这凸显了当前大模型在处理数学多视觉环境中跨图像相互依赖关系方面的局限性。
图像输入方式也对模型性能产生了影响。
实验结果表明,序列输入比合并输入更有效,这说明保留图像的位置和顺序信息对于多图推理至关重要。
序列输入的优异性能突显了结构化视觉信息在增强模型理解和处理复杂数学场景能力方面的重要性。
最近,OpenAI o1、DeepSeek-R1等慢思考模型在文本推理上展现出强大的性能,引发了广泛关注。
视觉大模型的慢推理范式仍未确立。
这项研究通过大量实验证实,MLLM在复杂多视觉感知与图像交叉理解上仍然存在困难,在多图数学推理上还有很大的改进空间。
这项研究的意义在于全面评估MLLM在多视觉场景下的数学推理能力,推动多图数学推理的进一步发展。
它揭示了当前大模型在处理复杂视觉信息和进行高级推理方面的不足,为未来的研究指明了方向。
那么,如何改进模型架构、优化训练策略,让大模型真正掌握多图数学推理能力,将是未来研究的关键所在。
我们是否需要重新思考模型的设计理念,或者探索更有效的训练方法?
这值得我们深入思考和探讨。
(内容来源:郑州日报)
作者: 编辑:窦梓轩
越牛新闻客户端
越牛新闻微信
绍兴发布微信
越牛新闻微博
绍兴发布微博
新闻热线
0575-88880000
投稿信箱
zjsxnet@163.com