并将思维链(CoT)与思维编程(PoT)进行混合,训练出了MAmmoTH系列模型,实验结果显示:在9个数学推理数据集上的性能显着优于现有开源模型,平均准确率提高了13%至29%;MAmmoTH-7B模型在竞赛级数据集上比最好的开源WizardMath-7B模型高出25%;MAmmoTH-34B模型超越了GPT-4的CoT结果。
并将思维链(CoT)与思维编程(PoT)进行混合,训练出了MAmmoTH系列模型,实验结果显示:在9个数学推理数据集上的性能显着优于现有开源模型,平均准确率提高了13%至29%;MAmmoTH-7B模型在竞赛级数据集上比最好的开源WizardMath-7B模型高出25%;MAmmoTH-34B模型超越了GPT-4的CoT结果。
MAMMOTH的成功离不开其训练数据集MathInstruct的多样性。这个数据集涵盖了广泛的数学领域和不同的复杂度水平,使得模型能够接触到多样化的数学知识,从而增强其适应能力。尤其是对于大学水平的数学知识,比如抽象代数和形式逻辑,过去的数据集覆盖得并不充分,MathInstruct的诞生正是为了解决这一问题。5. 混合推理的优势 M...
为了测试这个新的数学模型,研究者们使用了一系列的数据集,包括GSM8K、MATH、AQuA-RAT、NumGLUE等,对模型进行了评估。结果显示,相比于之前的方法,MAmmoTH模型能更好地处理领域外的数据集,并能大幅提升开源LLM的数学推理能力。这个新的数学模型MAmmoTH,不仅能够应对各种类型的数学问题,还能够在不同的数据集中都取...
智东西9月19日消息,据新智元报道,上周,滑铁卢大学、俄亥俄州立大学、香港科技大学、爱丁堡大学的研究人员联合开源了一个专为“通用数学问题”定制的大模型MAmmoTH和一个指令调优数据集MathInstruct。据介绍,MathInstruct由13个具有中间原理的数学数据集编译而成,其中6个为新数据集,混合了思想链(CoT)和思想程序(PoT),...
2023 年俄亥俄州立大学提出的大语言模型数理性能优化的文章,在训练数据集上做了一些探索,取得了超过现有开源 SOTA 方案(比如 WizardMath)的效果,基于 llama2 作为基座模型,在比较难的 MATH 数据集上精度提升了 22 个点(13.5->44.2) Introduction 背景
其中MAmmoTH-7B模型在MATH(竞赛级数据集)上的准确率达到了35%,超过了最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果。 数学推理领域新王:MAmmoTH 在数学推理任务上,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距,目前基准数据集上的sota仍然是GPT-...
Math Mammoth offers affordable, yet quality math worktexts and workbooks for elementary and middle school (plus some supplemental materials for high school), loved by parents, homeschoolers, and teachers.
其中MAmmoTH-7B模型在MATH(竞赛级数据集)上的准确率达到了35%,超过了最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果。 数学推理领域新王:MAmmoTH 在数学推理任务上,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距,目前基准数据集上的sota仍然是GPT-...
其中MAmmoTH-7B模型在MATH(竞赛级数据集)上的准确率达到了35%,超过了最好的开源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的准确率达到了46%,甚至超过了GPT-4的CoT结果。 数学推理领域新王:MAmmoTH 在数学推理任务上,开源和闭源的大型语言模型(LLM)之间存在巨大的性能差距,目前基准数据集上的sota仍然是GPT-...