随着人工智能技术日益普及,大模型已自然而然地成为科技界的新宠。而随着大模型应用的不断拓展与深化,其在数学问题解决方面的能力也越来越受到人们关注,对数学能力的评估已成为衡量大模型先进性的重要标准。最近,MathEval权威测评正式开启了对多个大模型(包括部分模型的多个版本)的数学解题能力的测评工作,以进一步评估这些模型在解决数学问题方面的表现。
在众多参评的大模型中,学而思九章、百度文心一言4.0和讯飞星火V3.5荣获前三名。其中,学而思旗下的九章大模型表现出色。九章大模型以其高效、精准的特性,为学生提供了优质的学习辅助工具,同时也为教育技术的发展和创新注入了强大动力。
截至去年10月,国内已成功推出超过200款大型人工智能模型,广泛应用于数学领域的各个方面,如解决数学题目、数据处理、学术研究和辅助教学等。目前市场上的大模型,无论是通用型还是专项型,都展现出了处理数学问题的巨大潜力,但仍需要通过精确的评估来确定其实际效能。当前市场上针对模型通用性、推理能力和自然科学处理能力的评估体系已经较为成熟,但数学领域内的标准化基准和权威评估机制仍待完善。
由于缺乏针对数学能力的具体评估标准,尽管大模型在数学应用方面的潜力得到了广泛认可,但其实际能力的强弱和应用效果仍然模糊不清。因此,一个权威且专业的数学能力评估机构显得尤为重要。如今,MathEval平台的出现恰逢其时。该平台是由国家级智慧教育人工智能创新开放平台联合国内外多所知名高校,包括暨南大学、北京师范大学、华东师范大学、西安交通大学和香港城市大学共同发起的重要项目。MathEval的主要目标是制定一个综合性评价标准,以全面评估大型人工智能模型在处理从基础算术到小学、初中、高中乃至部分大学级别数学问题的能力。
学而思九章大模型在MathEval权威测评中的优异表现,不仅彰显了其在数学领域的强大实力,更体现了学而思在人工智能教育领域的创新精神。我们期待未来更多优秀的大模型涌现,为人类社会的进步和发展贡献更多智慧和力量。