测试显示 AI 的数学解题能力仍然不如人类专家
AI 模型的解题水平仍不及顶尖数学家。这项测试隶属 First Proof 项目,旨在评估 AI 解决复杂数学难题的能力。研究人员向 4 款 AI 系统提出 10 道科研级数学难题,再由相 2026-6-15 09:50:51 Author: www.solidot.org(查看原文) 阅读量:3 收藏

AI 模型的解题水平仍不及顶尖数学家。这项测试隶属 First Proof 项目,旨在评估 AI 解决复杂数学难题的能力。研究人员向 4 款 AI 系统提出 10 道科研级数学难题,再由相关数学领域的匿名专家评审团对作答结果进行打分。这次测试首次同时满足三大核心标准:题目均为前沿科研级数学问题、所有题目从未出现在模型训练数据中、由专业数学家评阅。10 名来自不同数学细分领域的研究人员,各自拿出一道本人研究过程中已解答但尚未公开发表的原创题目。这次测试中,各大推理模型依然频繁出现幻觉问题,这也是大语言模型的通病。而且所有 AI 作答在文献引用方面都“严重缺失”,全程没有标注来源。

https://www.nature.com/articles/d41586-026-01888-9
https://news.sciencenet.cn/sbhtmlnews/2026/6/390058.shtm


文章来源: https://www.solidot.org/story?sid=84583
如有侵权请联系:admin#unsafe.sh