9 天前

We-Math 2.0:一种用于激励视觉数学推理的多功能MathBook系统

Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, et al
We-Math 2.0:一种用于激励视觉数学推理的多功能MathBook系统
摘要

多模态大语言模型(MLLMs)在各类任务中展现出令人瞩目的能力,但在复杂数学推理方面仍面临挑战。现有研究主要聚焦于数据集构建与方法优化,往往忽视了两个关键方面:全面的知识驱动设计与以模型为中心的数据空间建模。本文提出 We-Math 2.0,一个统一的系统,通过整合结构化的数学知识体系、以模型为中心的数据空间建模,以及基于强化学习(RL)的训练范式,全面提升 MLLMs 的数学推理能力。We-Math 2.0 的核心贡献包含四个方面:(1)MathBook 知识体系:我们构建了一个五级分层的知识体系,涵盖 491 个知识点与 1,819 条基础原理;(2)MathBook-Standard 与 MathBook-Pro:我们开发了 MathBook-Standard 数据集,通过双路径扩展机制实现广泛的概念覆盖与灵活的可扩展性;此外,我们定义了一个三维难度空间,并为每个问题生成 7 个渐进式变体,构建了面向鲁棒训练的高挑战性数据集 MathBook-Pro;(3)MathBook-RL:我们提出一种两阶段强化学习框架,包括:(i)冷启动微调(Cold-Start Fine-tuning),使模型对齐以知识为导向的思维链推理模式;(ii)渐进式对齐强化学习(Progressive Alignment RL),通过平均奖励学习与动态数据调度机制,实现跨不同难度层级的渐进式对齐;(4)MathBookEval:我们引入一个综合性评估基准,覆盖全部 491 个知识点,并包含多样化的推理步骤分布。实验结果表明,MathBook-RL 在四个广泛使用的基准上表现与现有基线相当,并在 MathBookEval 上取得优异成绩,表明其在数学推理任务中具有良好的泛化能力。

We-Math 2.0:一种用于激励视觉数学推理的多功能MathBook系统 | 论文 | HyperAI超神经