阿里云Qwen团队推出了Qwen2-Math系列大型语言模型,专门用于解决复杂的数学问题。

这些新模型建立在现有的Qwen2基础之上,在解决算术和数学挑战方面表现出色,超越了以前的行业领导者。

Qwen团队使用了一个庞大而多样化的数学专业语料库来打造Qwen2-Math。该语料库包括丰富的高质量资源,如网络文本、书籍、代码、考题以及Qwen2自己生成的合成数据。

通过对英文和中文数学基准测试(包括GSM8K、Math、MMLU-STEM、CMATH和高考数学)的严格评估,Qwen2-Math展现了其卓越的能力。值得注意的是,其旗舰模型Qwen2-Math-72B-Instruct在各种数学任务中的表现超过了GPT-4o和Claude 3.5等专有模型。

Qwen团队指出:”Qwen2-Math-Instruct在同等规模的模型中取得了最佳性能,RM@8的表现优于Maj@8,特别是在1.5B和7B模型中。”

这种卓越的性能归功于在开发过程中有效地实施了特定于数学的奖励模型。

Qwen2-Math在2024年美国邀请数学考试(AIME)和2023年美国数学竞赛(AMC)等具有挑战性的数学竞赛中展示了令人印象深刻的成绩,进一步彰显了其实力。

为确保模型的完整性并防止污染,Qwen团队在预训练和后训练阶段实施了强大的去污方法。这种严谨的方法涉及删除重复样本并识别与测试集的重叠,以保持模型的准确性和可靠性。

展望未来,Qwen团队计划将Qwen2-Math的能力扩展到英语之外,双语和多语言模型正在开发中。这种对包容性的承诺旨在让全球受众都能获得先进的数学问题解决方案。

Qwen团队肯定地表示:”我们将继续提高我们的模型解决复杂和具有挑战性的数学问题的能力。”

你可以在Hugging Face上找到Qwen2模型。

原文地址:Qwen2-Math:人工智能数学天才的新时代