长期以来,数学一直被视为最难被人工智能攻克的领域之一。证明一个定理不仅需要计算能力,更依赖直觉、创造力以及对抽象结构的深刻理解。
然而,过去一年发生的一系列事件,正在迅速改变这种认知。从国际数学奥林匹克竞赛达到金牌水平,到参与解决前沿数学研究问题,再到攻克困扰学界数十年的猜想,人工智能正以前所未有的速度进入数学研究核心地带。
对于许多数学家而言,这既令人兴奋,也令人不安。因为他们开始意识到,一个延续数千年的学科,或许正在迎来历史上最剧烈的一次变革。
在2026年6月1日发表于《新科学家》(New Scientist)的一篇报道中,资深科学记者亚历克斯·威尔金斯(Alex Wilkins)追踪了该领域的最新进展。
本文5900多字,目录如下:
1. “一种近乎魔法般的能力”
2. 数学家的分裂时刻
3. 从笑话到震撼
4. AI从竞赛进入真实研究
5. AI进入数学研究最前沿
6. OpenAI攻克80年数学猜想
7. 千禧难题会是下个目标吗?
8. 数学测试为何越来越失效
9. 数学会变成按按钮吗?
10. 数学的核心究竟是什么?
11. 一个让会场沸腾的夜晚
12. 当外行尝试解数学难题
13. 数学家仍然有未来吗?
发表于《新科学家》(New Scientist)的报道截图
1.
“一种近乎魔法般的能力”
威尔金斯并不是数学家。
除了很多年前读过本科物理学课程之外,他几乎没有接受过系统的数学训练。如果让他独立挑战那些困扰顶尖数学家数十年甚至数百年的难题,成功概率几乎可以忽略不计。
但现在,他拥有了一件前所未有的新工具。
他向GPT 5.5 Pro输入了一段简短提示,请它尝试解决一个数论领域的深奥猜想,然后开始等待结果。
从某种意义上说,这像是在召唤一位能够凭空变出数学答案的精灵。
当然,所谓“精灵”只是一个比喻。它实际上是OpenAI最新一代大模型。
但对于越来越多的数学家来说,如今的人工智能确实展现出了一种近乎魔法般的能力。
仅仅几个月前,许多著名数学家还在公开质疑大语言模型是否能够真正理解数学。如今,不少人已经收回了原来的判断。私下交流时,他们讨论的话题甚至变成了另一种形式:未来是否还需要这么多数学家?某些研究项目还有没有继续投入的必要?如果人工智能可能先一步完成研究,自己是否正在浪费时间?
2026年4月,威尔金斯来到旧金山,参加一场临时组织的会议。与会者包括数学家、人工智能研究人员以及科技公司代表。
会议现场充满兴奋与好奇,同时也弥漫着一种难以忽视的焦虑。
如果一个几乎没有数学背景的人,只需按下按钮就能生成数学证明,那么专业数学家的价值究竟在哪里?未来是否仍然需要人类数学家?而机器是否能够解决那些人类始终无法攻克的问题?
这些问题的答案,可能将深刻改变数学这门拥有数千年历史的学科。
加拿大多伦多大学的数学家雅各布·齐默曼(Jacob Tsimerman)认为:
“人工智能将以非常重要的方式进入数学领域,并彻底改变这个学科。”
2.
数学家的分裂时刻
对于未来的发展方向,数学界内部并没有形成统一看法。
美国卡内基梅隆大学的杰里米·阿维加德(Jeremy Avigad)最近写道:
“我们已经没有太多地方可以躲藏了。我们必须面对这样一个事实:人工智能很快就会比我们更擅长证明定理。”
也有人对此表现出积极态度。
被广泛认为是当代最杰出数学家之一的陶哲轩提出,数学正在从“证明稀缺时代”走向“证明丰富时代”。
过去,数学家的竞争目标是谁先找到证明。
未来,竞争目标可能变成谁先理解证明。
在他的设想中,大量曾经难以攻克的问题将被人工智能解决,而数学家的工作重心将转向理解、解释和组织这些成果。
3.
从笑话到震撼
事实上,人工智能进入数学领域并非最近才开始。
早期研究者曾经开发过专门针对某些数学问题的神经网络系统,但这些系统往往只能解决极少数特定任务,很难推广到其他方向,因此对大多数数学家吸引力有限。
即使2022年ChatGPT问世时,数学界也没有太认真地对待它。
当时的大语言模型连简单算术都经常出错,更不用说处理研究级数学问题。面对复杂证明,它们往往会一本正经地编造错误答案。
但随着模型规模持续扩大、训练数据不断增加,情况开始发生变化。
真正让数学界警觉的是国际数学奥林匹克竞赛。
这项赛事只有六道题,却被认为是世界上最困难的中学生数学考试之一。许多研究人员曾认为,人工智能至少还需要数年甚至十年时间,才能在这种考试中取得优秀成绩。
事实证明,他们严重低估了技术进步速度。
2024年7月,谷歌DeepMind宣布AlphaProof系统成功解决当年六道题中的四道,达到银牌水平。
一年后,谷歌和OpenAI又相继宣布,其系统已经达到金牌水平。
更让数学家震惊的是,OpenAI实现这一成绩所依赖的模型,并非专门为数学训练的系统。
美国斯坦福大学的拉维·瓦基尔(Ravi Vakil)回忆说:
“人们一下子意识到了事情正在发生变化。”
4.
AI从竞赛进入真实研究
很快,这些能力开始从竞赛领域进入真实研究。
英国曼彻斯特大学的托马斯·布卢姆(Thomas Bloom)运营着一个网站,专门追踪著名数学家保罗·埃尔德什(Paul Erdős)提出的一千多个未解问题。
这些问题表述往往非常简单,但难度跨度极大,其中许多被视为推动数学发展的重要路标。
2025年底,布卢姆发现网站出现了一些陌生用户名。
最开始,这些人只是利用GPT-5帮助检索冷门文献。
几个月后,更强大的模型陆续出现,一些用户开始直接提交完整解答。
更令人惊讶的是,其中部分答案经过验证后被确认正确。
布卢姆表示:
“这些解答需要相当复杂的工作。人工智能居然能够完成,实在令人难以置信。”
其中不少成果甚至并非来自职业数学家。
剑桥大学数学专业本科二年级学生凯文·巴雷托(Kevin Barreto)已经利用人工智能解决多个埃尔德什问题。
他的长期合作伙伴利亚姆·普赖斯(Liam Price)甚至没有数学学位,也没有接受过正式数学训练。
他们发现,提示词设计对结果影响极大。
有时需要不断鼓励模型,例如告诉它“尽最大努力”“不要放弃”,甚至暗示问题比实际难度更低。
巴雷托说:
“你需要让模型相信这个问题其实没有那么难。”
即便如此,成功仍然像买彩票一样充满偶然性。
许多问题需要尝试很多次才可能得到正确思路。
5.
AI进入数学研究最前沿
与此同时,更重要的变化正在发生。
越来越多学术论文开始明确标注:研究过程中使用了人工智能。
2026年1月,瓦基尔及其同事上传了一篇论文,并在文中说明,相关证明是在谷歌Gemini等工具协助下完成的。
研究涉及拓扑学与代数几何之间的重要联系。
团队最初将一个简化版本的问题交给谷歌DeepMind定制模型处理。
模型发现了一种此前未被研究人员注意到的数学结构。
正是这一发现帮助团队找到完整证明路径,并最终完成论文。
瓦基尔强调:
“人工智能不可能独立完成这项工作,因为它并不知道正确的问题是什么。是我们告诉它应该做什么。”
但他也承认,如果没有人工智能提供的捷径,这篇论文很可能根本不会出现。
在他看来,未来更可能是人类与机器共同工作的时代。
然而,这条界限已经越来越模糊。
同月,美国加州大学伯克利分校的托尼·冯(Tony Feng)发表论文,介绍自己如何利用谷歌Aletheia系统计算出一组此前未知的重要数学数值。
这些结果连接着代数几何与数论两大领域,而建立这种联系正是朗兰兹纲领的重要目标之一。
冯表示,论文中的“核心数学内容”完全由人工智能生成。
6.
OpenAI攻克80年数学猜想
最轰动的消息出现在2026年5月。
OpenAI宣布,其尚未公开发布的新模型成功解决一个存在80年的数学猜想——平面单位距离问题。
公司没有披露太多技术细节,只表示这是一种通用人工智能模型,而非专门训练的数学系统。
消息公布后,数学界普遍表现出震惊。
人工智能参与的数学研究已经多到难以追踪。
对于很多数学家而言,这些工具不仅改变了研究效率,也改变了他们对于未来研究计划的判断。
美国罗格斯大学的亚历克斯·康托罗维奇(Alex Kontorovich)说:
“它打开了一个全新的可能性世界。”
“我现在能够设想一些项目,而这些项目原本需要五年时间,我甚至不会考虑开始。”
7.
千禧难题会是下个目标吗?
随着人工智能不断突破,人们开始把目光投向数学界最著名的一批难题——千禧年大奖难题。
其中最具代表性的,是黎曼猜想。这一问题涉及素数分布规律,被认为是现代数学最深刻的问题之一。
多位在人工智能公司工作的数学家告诉威尔金斯,他们认为未来几年内,人们或许会看到某个千禧年难题被攻克。
但也有人保持谨慎。
在他们看来,目前被人工智能解决的问题,与黎曼猜想等真正的数学巅峰之间,仍然存在巨大的难度鸿沟。
正是在这样的背景下,2026年4月那场旧金山会议召开了。
会议地点位于一家风险投资公司的普通办公楼内。没有招牌,没有宣传标识,只有一扇没有任何文字的粉色大门和一个可视门铃暗示着这里正在举行某种特别活动。
等待开门时,威尔金斯遇到了一位前数学教授。如今,这位教授已经离开学术界,在一家对冲基金工作。他乘坐的则是一辆无人驾驶汽车。
进入会场后,来自学术界和产业界的人混杂在一起。
瓦基尔、康托罗维奇等知名数学家与OpenAI、谷歌等公司的研究人员不断交流。
会议表面上的目标,是寻找一种衡量人工智能数学能力的新方法。
但许多人真正关心的问题其实更加直接:
这些模型到底已经发展到什么程度?
它们未来会走向哪里?
多伦多大学的丹尼尔·利特(Daniel Litt)是会议组织者之一。
他说:
“我希望更清楚地了解这些模型当前的位置,以及它们在数学能力方面的发展方向。”
“很明显,它们仍然缺少一些数学家拥有的能力。”
8.
数学测试为何越来越失效
长期以来,评估人工智能数学能力最常见的方法是各种基准测试。
研究人员会准备一批题目,让模型给出答案,然后统计正确率。
这种方式有一个明显优点:
结果容易量化。
企业可以把模型成绩绘制成不断上升的曲线,用来展示进步速度。
但现实中的数学研究并不是这样运作的。
许多研究问题并不存在标准答案。
真正重要的往往是证明过程,而不是最后结果。
这些证明可能长达数十页甚至上百页,需要专业数学家进行解释和验证。
此外,人类数学能力本身也是高度多维的。
美国哈佛大学的梅拉妮·伍德(Melanie Wood)指出,人们经常犯一个错误:
因为某些数学能力在人类身上彼此相关,于是误以为人工智能也会如此。
实际上未必如此。
一个模型可能擅长某类问题,却完全不具备另一类能力。
因此,国际数学奥林匹克竞赛成绩、定理证明能力或者某个特定领域表现,都不能简单等同于“真正理解数学”。
9.
数学会变成按按钮吗?
会议后半段,大量时间都用于开放讨论。
数学家们试图描绘一个由人工智能深度参与的未来。
但对于未来究竟是什么样子,他们的意见分歧明显。
瓦基尔相信人机协作。
在他的设想中,未来数学研究将成为一种共同创造过程。
人工智能负责探索、搜索和发现,人类负责提出问题、理解结果并建立更大的理论框架。
但另一种可能性同样令人不安。
如果未来的数学研究更像老虎机呢?
按下按钮,等待结果。
偶尔机器吐出一个重要发现。
数学家只是负责确认答案。
对于齐默曼而言,这种未来几乎没有吸引力。
他从小参加数学竞赛,对数学最大的热爱来自解决问题本身。
他说:
“我对数学的体验就是解决问题的过程。”
“如果以后不再需要做这件事,我可能更愿意去演奏音乐、参加戏剧活动,或者学习别的东西。”
在一次讨论中,他甚至让现场所有人举手表态:
如果未来数学真的变成不断按按钮获取答案,他们是否还愿意继续做数学家?
结果只有大约一半人举起了手。
10.
数学的核心究竟是什么?
不过,并非所有人都接受这种问题设定。
利特认为,解决问题并不是数学最根本的意义。
他说:
“我真正关心的是理解事物,并弄清楚什么是真的。”
在他看来,提出猜想并证明它当然是一种理解方式。
但与同事交流、提出问题、建立联系,同样也是理解的一部分。
这种观点在会场中并不罕见。
许多数学家强调,即便人工智能未来能够解决越来越困难的问题,真正决定什么值得研究的人依然是人类。
因为数学从来不仅仅是解谜游戏。
伍德指出,一个证明的重要性并不只是因为它解决了某个问题。
更重要的是,它是否能够推动整个领域前进。
一个优秀证明可能开启全新的研究方向。
它可能帮助解决许多其他问题。
而这类价值判断,目前仍然属于人类数学家的领域。
11.
一个让会场沸腾的夜晚
会议进行到第三天时,一则消息突然在与会者之间迅速传播。
似乎又一个埃尔德什问题被解决了。
而且这次情况有所不同。
美国斯坦福大学的贾里德·利希特曼(Jared Lichtman)当时恰好在现场。
这个问题与他的博士研究密切相关。
过去几十年里,许多数学家都曾试图攻克它。
利希特曼本人也投入了大量时间。
他说:
“这是一个我个人非常热爱的研究问题。”
解决方案来自普赖斯。
他仅通过一次向ChatGPT 5.5 Pro发出的请求,就得到了对应证明。
问题编号为Erdős 1196。
它研究的是一种被称为“原始集合”的数集。
这类集合与素数有某种相似性:集合中的任何一个数都不能整除另一个数。
埃尔德什曾提出一个与这些集合相关的重要量,并猜测其最大值上界。
利希特曼此前已经证明其中一种情况成立,但更严格版本始终没有解决。
令人意外的是,人工智能采用了一条此前研究者从未使用过的路线。
它引入了一种名为冯·曼戈尔特函数(Von Mangoldt Function)的数学工具。
利希特曼说:
“这个工具能够绕开过去所有方法遇到的大量技术障碍。”
随后,他与普赖斯、巴雷托以及陶哲轩等人进一步发展这一思路,又解决了另一个存在约60年的埃尔德什猜想。
当他在社交媒体上介绍这项成果时写道:
这可能是最早一批由人工智能生成证明并进一步催生后续数学发现的案例之一。
12.
当外行尝试解数学难题
与此同时,威尔金斯也终于等来了自己的答案。
经过22分钟18秒的推理后,ChatGPT发来了回复。
开头只有一句话:
“下面是简洁证明。”
随后出现的是几十行他几乎完全看不懂的数学公式和推导。
一瞬间,他产生了强烈兴奋感。
难道自己真的解决了一个存在数十年的数学难题?
为了确认结果,他把证明重新发给ChatGPT审查。
模型很快回复:
“是的,核心论证是正确的。”
这让他更加确信自己可能取得了重大突破。
他立刻给巴雷托发送邮件,请对方帮忙检查。
然而兴奋很快结束。
巴雷托的回复十分直接:
“看起来它并没有解决那个问题。”
问题出在一个外行人难以察觉的细节上。
人工智能实际上证明的是另一个命题。
而那个命题几十年前就已经被埃尔德什本人证明过了。
对于专业数学家而言,这样的错误可能一眼就能发现。
但对于缺乏背景知识的人来说,却完全隐藏在复杂推导之中。
13.
数学家仍然有未来吗?
这场经历或许揭示了人工智能数学革命最重要的一点。
即便模型越来越擅长发现证明、提出思路、探索未知领域,人类依然需要理解这些结果究竟意味着什么。
人工智能能够生成答案。
但它不能替人类完成理解。
利特说:
“我仍然想知道究竟发生了什么。”
“模型无法替你理解某件事。”
对于数学界而言,这或许正是未来最可能出现的图景。
人工智能不会简单取代数学家。
它正在成为一种前所未有的智力工具,一种能够参与创造数学的新伙伴。
与此同时,它也迫使数学家重新思考一个古老问题:
数学的价值,究竟在于找到答案,还是在于理解答案?
而这个问题的答案,恐怕将决定未来几十年数学的发展方向。 🅠
参考资料:
"A golden age of maths is dawning and mathematicians are freaking out" by Alex Wilkins. New Scientist, Published 1 June 2026