人工智能（AI）在数学和编程领域的飞速进步让人惊叹不已。它不仅在日常任务中表现抢眼，甚至开始挑战人类的顶尖专家。那么，当AI与数学领域的精英正面交锋，会擦出怎样的火花呢？最近，Epoch AI组织了一场激动人心的“人机大战”：40位数学家组成8支战队，与OpenAI的o4-mini-medium模型展开激烈较量，题目来自高难度的FrontierMath数据集。这场对决的结果令人震撼：8支人类战队中，仅有2支成功击败AI，o4-mini-medium以6:2的比分完胜人类专家团队！Epoch AI总结道：“AI尚未完全超越人类，但这一天可能不远了。” <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/f0a799bb-50fb-4110-8cec-35f41b533da5/e9d1205b-7ae0-4590-8ba5-72b2ed1b92b6/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466UV7XJIRW%2F20250524%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20250524T113029Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEEgaCXVzLXdlc3QtMiJHMEUCIA4hy5fy8Rat3Gn3keOrk22WY57XNtDQMoT%2BtOE21qakAiEAvv3OteXxFZMwWkjZwl2yrXMSB7BLAJeL%2B8XyAlZ9rs8q%2FwMIERAAGgw2Mzc0MjMxODM4MDUiDCvvelUXEJj6O%2FuXxSrcA9w6SeT7OMM8HQkhczlnMAFEYGUmiik4xi1XOfcbyQ4w6eso6DJm5yxlp%2FFsVFrf2f9k5g3yIjwFe0YejfSRQkiIeX7zuY7b5Z76Pymk%2F4pYWIfYHjYSeNySQQa1Z3gucC%2FADp6xxBbnohank2v7vXRbtulqdIfogzocuJPzBgo5VaLW3dHq0xnL7nwfm5pL69KEdkpXzyvHWCFzcM7OT8j6GTttCblb3GH7wXFenEZFcL3T34BRYwHUAuDopoRNaQ9i30sGkq5R%2BLDFs%2FSy%2BicssXNg89l1f61W80J2mJAWik2lZlAtqwdSGo3e8OCpGlpcjn%2FOntnATQBZhZ%2Foj7Ni3oPgdmoimbeJtLFsQjEOWN4xsNwOORtWgn%2BR0Ou9AccT5FxGOvSLv5W03FARDTke56c0R%2BAiDQT3pQkad1k3HChiJbWrJolJTH4J6V5onlQB7fHwyL770JRgXc1bH3BStlBh8u4t2L%2FTNmM6%2FQzhTl0%2Fv%2BwtpZ3CXUhLd9H6SmnhG1FmsMv9gB6C0TL974UnwqzSWA9p72Omu7%2BMCI8UJ411OZwwBFBF9qvcfGvwJjCUuGiHdXJ71xj1DZVz4%2BNjVs%2F%2Bx23XZClfIaS8ke%2FDMSxw9%2Fmqe7%2FHrXPcMOiAxsEGOqUBwDXyfw06BGdmY%2F%2Fjti2sKlrgq%2BBsTQ3GA1jOW5U5KRhkSi%2BCOk1x0xivpTsnceC%2FV0p6RCA7dNGpUNlLQ1C1%2BjrrFnnneSub27khNZSzQIQCZ9B2gyZkK7ylG3g72PRh8mZrnZ9uTNqVwsdn1ytDnxm%2FhrUb7qZwe%2FT4XGOpChxPiA1fRbodIuMsoG9LwNt3vy%2BhEm9RnRbzz7152IaCxGwiD4HW&X-Amz-Signature=624c527619f6157e31dd4e46575accadc69981eb1e0c764aed57c9521e496ad2&X-Amz-SignedHeaders=host&x-id=GetObject" title="" alt=""> 这场比赛引发了热议。有人认为，Gemini 2.5 Pro的“深度思考”模式标志着AI全面超越人类的转折点；也有人为人类辩护，认为4.5小时的比赛时间不足以让专家们充分发挥实力。你觉得这场比赛的结果意味着什么？下面，我们来一探这场“人机数学大战”的精彩细节！ <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/f0a799bb-50fb-4110-8cec-35f41b533da5/e6516d29-8562-442d-a0e0-5bc2a1419d0d/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466UV7XJIRW%2F20250524%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20250524T113029Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEEgaCXVzLXdlc3QtMiJHMEUCIA4hy5fy8Rat3Gn3keOrk22WY57XNtDQMoT%2BtOE21qakAiEAvv3OteXxFZMwWkjZwl2yrXMSB7BLAJeL%2B8XyAlZ9rs8q%2FwMIERAAGgw2Mzc0MjMxODM4MDUiDCvvelUXEJj6O%2FuXxSrcA9w6SeT7OMM8HQkhczlnMAFEYGUmiik4xi1XOfcbyQ4w6eso6DJm5yxlp%2FFsVFrf2f9k5g3yIjwFe0YejfSRQkiIeX7zuY7b5Z76Pymk%2F4pYWIfYHjYSeNySQQa1Z3gucC%2FADp6xxBbnohank2v7vXRbtulqdIfogzocuJPzBgo5VaLW3dHq0xnL7nwfm5pL69KEdkpXzyvHWCFzcM7OT8j6GTttCblb3GH7wXFenEZFcL3T34BRYwHUAuDopoRNaQ9i30sGkq5R%2BLDFs%2FSy%2BicssXNg89l1f61W80J2mJAWik2lZlAtqwdSGo3e8OCpGlpcjn%2FOntnATQBZhZ%2Foj7Ni3oPgdmoimbeJtLFsQjEOWN4xsNwOORtWgn%2BR0Ou9AccT5FxGOvSLv5W03FARDTke56c0R%2BAiDQT3pQkad1k3HChiJbWrJolJTH4J6V5onlQB7fHwyL770JRgXc1bH3BStlBh8u4t2L%2FTNmM6%2FQzhTl0%2Fv%2BwtpZ3CXUhLd9H6SmnhG1FmsMv9gB6C0TL974UnwqzSWA9p72Omu7%2BMCI8UJ411OZwwBFBF9qvcfGvwJjCUuGiHdXJ71xj1DZVz4%2BNjVs%2F%2Bx23XZClfIaS8ke%2FDMSxw9%2Fmqe7%2FHrXPcMOiAxsEGOqUBwDXyfw06BGdmY%2F%2Fjti2sKlrgq%2BBsTQ3GA1jOW5U5KRhkSi%2BCOk1x0xivpTsnceC%2FV0p6RCA7dNGpUNlLQ1C1%2BjrrFnnneSub27khNZSzQIQCZ9B2gyZkK7ylG3g72PRh8mZrnZ9uTNqVwsdn1ytDnxm%2FhrUb7qZwe%2FT4XGOpChxPiA1fRbodIuMsoG9LwNt3vy%2BhEm9RnRbzz7152IaCxGwiD4HW&X-Amz-Signature=c5bb75d7efd0d9ac3f3cb7ad2b30757f894097348afb9a3d6b9cee665226d175&X-Amz-SignedHeaders=host&x-id=GetObject" title="" alt=""> 人类与AI在FrontierMath上的表现 FrontierMath是什么？ FrontierMath是Epoch AI于2024年推出的一个高难度数学基准测试，包含300道题目，难度从本科高年级水平到足以难倒菲尔兹奖得主的极高水平，覆盖数论、代数几何、拓扑学等多个领域，旨在挑战AI的数学推理极限。为了建立人类基准，Epoch AI在麻省理工学院举办了一场竞赛，邀请了约40位数学领域的佼佼者，包括本科生和专家，组成8支4-5人的团队。每队在4.5小时内解答23道题目，期间允许使用互联网资源。随后，他们的成绩与当前在FrontierMath基准上表现最佳的AI——o4-mini-medium进行了对比。比赛结果如何？ o4-mini-medium的表现令人印象深刻：它的得分（22%）高于人类团队的平均水平（19%），但低于所有团队的综合得分（35%）。换句话说，AI尚未达到“超人水平”，但已经非常接近。值得注意的是，AI成功解答的题目均至少被一支人类团队答对，显示出AI与人类在解题能力上的某种“重叠”。详细的比赛结果可查看以下电子表格： <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/f0a799bb-50fb-4110-8cec-35f41b533da5/2a6390ae-30a7-4074-8a2a-06fef340dd9f/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466UV7XJIRW%2F20250524%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20250524T113029Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEEgaCXVzLXdlc3QtMiJHMEUCIA4hy5fy8Rat3Gn3keOrk22WY57XNtDQMoT%2BtOE21qakAiEAvv3OteXxFZMwWkjZwl2yrXMSB7BLAJeL%2B8XyAlZ9rs8q%2FwMIERAAGgw2Mzc0MjMxODM4MDUiDCvvelUXEJj6O%2FuXxSrcA9w6SeT7OMM8HQkhczlnMAFEYGUmiik4xi1XOfcbyQ4w6eso6DJm5yxlp%2FFsVFrf2f9k5g3yIjwFe0YejfSRQkiIeX7zuY7b5Z76Pymk%2F4pYWIfYHjYSeNySQQa1Z3gucC%2FADp6xxBbnohank2v7vXRbtulqdIfogzocuJPzBgo5VaLW3dHq0xnL7nwfm5pL69KEdkpXzyvHWCFzcM7OT8j6GTttCblb3GH7wXFenEZFcL3T34BRYwHUAuDopoRNaQ9i30sGkq5R%2BLDFs%2FSy%2BicssXNg89l1f61W80J2mJAWik2lZlAtqwdSGo3e8OCpGlpcjn%2FOntnATQBZhZ%2Foj7Ni3oPgdmoimbeJtLFsQjEOWN4xsNwOORtWgn%2BR0Ou9AccT5FxGOvSLv5W03FARDTke56c0R%2BAiDQT3pQkad1k3HChiJbWrJolJTH4J6V5onlQB7fHwyL770JRgXc1bH3BStlBh8u4t2L%2FTNmM6%2FQzhTl0%2Fv%2BwtpZ3CXUhLd9H6SmnhG1FmsMv9gB6C0TL974UnwqzSWA9p72Omu7%2BMCI8UJ411OZwwBFBF9qvcfGvwJjCUuGiHdXJ71xj1DZVz4%2BNjVs%2F%2Bx23XZClfIaS8ke%2FDMSxw9%2Fmqe7%2FHrXPcMOiAxsEGOqUBwDXyfw06BGdmY%2F%2Fjti2sKlrgq%2BBsTQ3GA1jOW5U5KRhkSi%2BCOk1x0xivpTsnceC%2FV0p6RCA7dNGpUNlLQ1C1%2BjrrFnnneSub27khNZSzQIQCZ9B2gyZkK7ylG3g72PRh8mZrnZ9uTNqVwsdn1ytDnxm%2FhrUb7qZwe%2FT4XGOpChxPiA1fRbodIuMsoG9LwNt3vy%2BhEm9RnRbzz7152IaCxGwiD4HW&X-Amz-Signature=8abf914fe77dda0bc93a397530269748d45f75bb11264d57344b3960969db6f9&X-Amz-SignedHeaders=host&x-id=GetObject" title="" alt=""> 这场比赛的幕后故事 Epoch AI从四个方面解析了比赛的设计和结果，揭示了人类与AI交锋的深层含义。 1. 参赛者：顶尖但非“全能” 参赛的40位数学家并非普通选手。他们要么拥有数学相关博士学位，要么在本科阶段取得过顶级数学竞赛的优异成绩。每支团队都确保至少有一位某领域的专家，例如在数论或拓扑学上有深入研究的学者。这种配置保证了团队的专业性，但即便如此，没有哪位人类能同时精通FrontierMath涵盖的所有前沿领域。 2. 推理能力是核心 FrontierMath的设计初衷是测试AI的推理能力，而非单纯的知识储备。因此，题目覆盖了多个需要深度推理的领域，如组合数学和微分几何。比赛题目包括7道基础题（适合优秀本科生）和16道进阶题（为专家量身定制），分为拓扑学、代数几何、组合数学和数论四个子领域。评分规则：答对基础题得1分，进阶题得2分。在五大领域（基础题+四个进阶领域）中，每答对至少一道题可额外加1分。奖励机制：第一名1000美元，第二名800美元，第三名400美元，其余参赛者获150美元鼓励奖。 <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/f0a799bb-50fb-4110-8cec-35f41b533da5/38544ffc-59ac-47c4-9fe4-9299cc9ea1d1/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466UV7XJIRW%2F20250524%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20250524T113029Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEEgaCXVzLXdlc3QtMiJHMEUCIA4hy5fy8Rat3Gn3keOrk22WY57XNtDQMoT%2BtOE21qakAiEAvv3OteXxFZMwWkjZwl2yrXMSB7BLAJeL%2B8XyAlZ9rs8q%2FwMIERAAGgw2Mzc0MjMxODM4MDUiDCvvelUXEJj6O%2FuXxSrcA9w6SeT7OMM8HQkhczlnMAFEYGUmiik4xi1XOfcbyQ4w6eso6DJm5yxlp%2FFsVFrf2f9k5g3yIjwFe0YejfSRQkiIeX7zuY7b5Z76Pymk%2F4pYWIfYHjYSeNySQQa1Z3gucC%2FADp6xxBbnohank2v7vXRbtulqdIfogzocuJPzBgo5VaLW3dHq0xnL7nwfm5pL69KEdkpXzyvHWCFzcM7OT8j6GTttCblb3GH7wXFenEZFcL3T34BRYwHUAuDopoRNaQ9i30sGkq5R%2BLDFs%2FSy%2BicssXNg89l1f61W80J2mJAWik2lZlAtqwdSGo3e8OCpGlpcjn%2FOntnATQBZhZ%2Foj7Ni3oPgdmoimbeJtLFsQjEOWN4xsNwOORtWgn%2BR0Ou9AccT5FxGOvSLv5W03FARDTke56c0R%2BAiDQT3pQkad1k3HChiJbWrJolJTH4J6V5onlQB7fHwyL770JRgXc1bH3BStlBh8u4t2L%2FTNmM6%2FQzhTl0%2Fv%2BwtpZ3CXUhLd9H6SmnhG1FmsMv9gB6C0TL974UnwqzSWA9p72Omu7%2BMCI8UJ411OZwwBFBF9qvcfGvwJjCUuGiHdXJ71xj1DZVz4%2BNjVs%2F%2Bx23XZClfIaS8ke%2FDMSxw9%2Fmqe7%2FHrXPcMOiAxsEGOqUBwDXyfw06BGdmY%2F%2Fjti2sKlrgq%2BBsTQ3GA1jOW5U5KRhkSi%2BCOk1x0xivpTsnceC%2FV0p6RCA7dNGpUNlLQ1C1%2BjrrFnnneSub27khNZSzQIQCZ9B2gyZkK7ylG3g72PRh8mZrnZ9uTNqVwsdn1ytDnxm%2FhrUb7qZwe%2FT4XGOpChxPiA1fRbodIuMsoG9LwNt3vy%2BhEm9RnRbzz7152IaCxGwiD4HW&X-Amz-Signature=880736dc0d1669b84ef0093b8e3101477171fd53e2b59520918212783b62e442&X-Amz-SignedHeaders=host&x-id=GetObject" title="" alt=""> 3. 人类基准的“模糊地带” 比赛结果显示，人类团队的平均解题率在13%-26%之间，均值为19%，而o4-mini-medium的解题率为22%。但如果以“至少一支团队答对”作为标准，人类的综合表现可提升至35%。这表明，人类的整体能力可能被4.5小时的比赛时间限制所低估。此外，比赛题目的难度分布与完整FrontierMath数据集不同。比赛中的基础题（1-2级）相对容易，而完整数据集的题目难度更均衡。经过加权调整，人类基准得分可能在30%-50%之间，而AI的得分可能达到37%。但这种调整的准确性仍有争议，因为比赛题目与完整数据集的难度分布差异较大。 <img src="https://prod-files-secure.s3.us-west-2.amazonaws.com/f0a799bb-50fb-4110-8cec-35f41b533da5/86bccedd-14f3-44e7-a042-ac0b9d805f52/image.png?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Content-Sha256=UNSIGNED-PAYLOAD&X-Amz-Credential=ASIAZI2LB466UV7XJIRW%2F20250524%2Fus-west-2%2Fs3%2Faws4_request&X-Amz-Date=20250524T113029Z&X-Amz-Expires=3600&X-Amz-Security-Token=IQoJb3JpZ2luX2VjEEgaCXVzLXdlc3QtMiJHMEUCIA4hy5fy8Rat3Gn3keOrk22WY57XNtDQMoT%2BtOE21qakAiEAvv3OteXxFZMwWkjZwl2yrXMSB7BLAJeL%2B8XyAlZ9rs8q%2FwMIERAAGgw2Mzc0MjMxODM4MDUiDCvvelUXEJj6O%2FuXxSrcA9w6SeT7OMM8HQkhczlnMAFEYGUmiik4xi1XOfcbyQ4w6eso6DJm5yxlp%2FFsVFrf2f9k5g3yIjwFe0YejfSRQkiIeX7zuY7b5Z76Pymk%2F4pYWIfYHjYSeNySQQa1Z3gucC%2FADp6xxBbnohank2v7vXRbtulqdIfogzocuJPzBgo5VaLW3dHq0xnL7nwfm5pL69KEdkpXzyvHWCFzcM7OT8j6GTttCblb3GH7wXFenEZFcL3T34BRYwHUAuDopoRNaQ9i30sGkq5R%2BLDFs%2FSy%2BicssXNg89l1f61W80J2mJAWik2lZlAtqwdSGo3e8OCpGlpcjn%2FOntnATQBZhZ%2Foj7Ni3oPgdmoimbeJtLFsQjEOWN4xsNwOORtWgn%2BR0Ou9AccT5FxGOvSLv5W03FARDTke56c0R%2BAiDQT3pQkad1k3HChiJbWrJolJTH4J6V5onlQB7fHwyL770JRgXc1bH3BStlBh8u4t2L%2FTNmM6%2FQzhTl0%2Fv%2BwtpZ3CXUhLd9H6SmnhG1FmsMv9gB6C0TL974UnwqzSWA9p72Omu7%2BMCI8UJ411OZwwBFBF9qvcfGvwJjCUuGiHdXJ71xj1DZVz4%2BNjVs%2F%2Bx23XZClfIaS8ke%2FDMSxw9%2Fmqe7%2FHrXPcMOiAxsEGOqUBwDXyfw06BGdmY%2F%2Fjti2sKlrgq%2BBsTQ3GA1jOW5U5KRhkSi%2BCOk1x0xivpTsnceC%2FV0p6RCA7dNGpUNlLQ1C1%2BjrrFnnneSub27khNZSzQIQCZ9B2gyZkK7ylG3g72PRh8mZrnZ9uTNqVwsdn1ytDnxm%2FhrUb7qZwe%2FT4XGOpChxPiA1fRbodIuMsoG9LwNt3vy%2BhEm9RnRbzz7152IaCxGwiD4HW&X-Amz-Signature=0e2c41f7ec8f51226fed4b8efa2d4b3a7d4eb80bcb3919f1db8b392db6fea9e2&X-Amz-SignedHeaders=host&x-id=GetObject" title="" alt=""> 4. 这场对决的意义这场比赛揭示了什么？首先，AI的表现已经非常接近人类专家水平，但我们尚不清楚它是如何解题的。它的答案是靠“猜测”还是系统化的推理？AI的解题路径与人类相比有何不同？Epoch AI表示，未来将发布更多分析以解答这些问题。其次，4.5小时的时间限制可能限制了人类的发挥。o4-mini-medium解题耗时约5-20分钟，而人类专家在最擅长的题目上平均需要40分钟。赛后调查显示，若给予更多时间，人类团队的表现可能大幅提升。此外，机器学习研究表明，AI的性能在一定阶段后会趋于停滞，而人类则具备持续改进的能力。最后，FrontierMath的题目虽具挑战性，但并非完全等同于真实的数学研究。尽管如此，这场竞赛仍为AI与人类的数学能力对比提供了一个宝贵的参考点。 AI的未来：超越人类指日可待？ Epoch AI预测，AI可能在2025年底前在FrontierMath上明确超越人类。这一前景既令人兴奋又发人深省。AI的推理能力正在迅速逼近人类专家水平，但它的“思考”方式与人类截然不同。未来，AI是否会成为数学研究的得力助手，还是会彻底改变数学领域的游戏规则？这场“人机数学大战”不仅是一次技术的较量，也是对人类智慧与机器潜力的深刻探讨。你认为AI会在何时真正超越人类？欢迎来智享AI分享你的看法！

数学家与AI的巅峰对决：40人组队挑战o4-mini-medium，6队惜败！

ZhiXiangWeiLai

人工智能（AI）在数学和编程领域的飞速进步让人惊叹不已。它不仅在日常任务中表现抢眼，甚至开始挑战人类的顶尖专家。那么，当AI与数学领域的精英正面交锋，会擦出怎样的火花呢？

最近，Epoch AI组织了一场激动人心的“人机大战”：40位数学家组成8支战队，与OpenAI的o4-mini-medium模型展开激烈较量，题目来自高难度的FrontierMath数据集。这场对决的结果令人震撼：8支人类战队中，仅有2支成功击败AI，o4-mini-medium以6:2的比分完胜人类专家团队！Epoch AI总结道：“AI尚未完全超越人类，但这一天可能不远了。”

这场比赛引发了热议。有人认为，Gemini 2.5 Pro的“深度思考”模式标志着AI全面超越人类的转折点；也有人为人类辩护，认为4.5小时的比赛时间不足以让专家们充分发挥实力。你觉得这场比赛的结果意味着什么？下面，我们来一探这场“人机数学大战”的精彩细节！

人类与AI在FrontierMath上的表现

FrontierMath是什么？

FrontierMath是Epoch AI于2024年推出的一个高难度数学基准测试，包含300道题目，难度从本科高年级水平到足以难倒菲尔兹奖得主的极高水平，覆盖数论、代数几何、拓扑学等多个领域，旨在挑战AI的数学推理极限。

为了建立人类基准，Epoch AI在麻省理工学院举办了一场竞赛，邀请了约40位数学领域的佼佼者，包括本科生和专家，组成8支4-5人的团队。每队在4.5小时内解答23道题目，期间允许使用互联网资源。随后，他们的成绩与当前在FrontierMath基准上表现最佳的AI——o4-mini-medium进行了对比。

比赛结果如何？

o4-mini-medium的表现令人印象深刻：它的得分（22%）高于人类团队的平均水平（19%），但低于所有团队的综合得分（35%）。换句话说，AI尚未达到“超人水平”，但已经非常接近。值得注意的是，AI成功解答的题目均至少被一支人类团队答对，显示出AI与人类在解题能力上的某种“重叠”。

详细的比赛结果可查看以下电子表格：

这场比赛的幕后故事

Epoch AI从四个方面解析了比赛的设计和结果，揭示了人类与AI交锋的深层含义。

1. 参赛者：顶尖但非“全能”

参赛的40位数学家并非普通选手。他们要么拥有数学相关博士学位，要么在本科阶段取得过顶级数学竞赛的优异成绩。每支团队都确保至少有一位某领域的专家，例如在数论或拓扑学上有深入研究的学者。这种配置保证了团队的专业性，但即便如此，没有哪位人类能同时精通FrontierMath涵盖的所有前沿领域。

2. 推理能力是核心

FrontierMath的设计初衷是测试AI的推理能力，而非单纯的知识储备。因此，题目覆盖了多个需要深度推理的领域，如组合数学和微分几何。比赛题目包括7道基础题（适合优秀本科生）和16道进阶题（为专家量身定制），分为拓扑学、代数几何、组合数学和数论四个子领域。

评分规则：

答对基础题得1分，进阶题得2分。
在五大领域（基础题+四个进阶领域）中，每答对至少一道题可额外加1分。
奖励机制：第一名1000美元，第二名800美元，第三名400美元，其余参赛者获150美元鼓励奖。

3. 人类基准的“模糊地带”

比赛结果显示，人类团队的平均解题率在13%-26%之间，均值为19%，而o4-mini-medium的解题率为22%。但如果以“至少一支团队答对”作为标准，人类的综合表现可提升至35%。这表明，人类的整体能力可能被4.5小时的比赛时间限制所低估。

此外，比赛题目的难度分布与完整FrontierMath数据集不同。比赛中的基础题（1-2级）相对容易，而完整数据集的题目难度更均衡。经过加权调整，人类基准得分可能在30%-50%之间，而AI的得分可能达到37%。但这种调整的准确性仍有争议，因为比赛题目与完整数据集的难度分布差异较大。

4. 这场对决的意义

这场比赛揭示了什么？

首先，AI的表现已经非常接近人类专家水平，但我们尚不清楚它是如何解题的。它的答案是靠“猜测”还是系统化的推理？AI的解题路径与人类相比有何不同？Epoch AI表示，未来将发布更多分析以解答这些问题。

其次，4.5小时的时间限制可能限制了人类的发挥。o4-mini-medium解题耗时约5-20分钟，而人类专家在最擅长的题目上平均需要40分钟。赛后调查显示，若给予更多时间，人类团队的表现可能大幅提升。此外，机器学习研究表明，AI的性能在一定阶段后会趋于停滞，而人类则具备持续改进的能力。

最后，FrontierMath的题目虽具挑战性，但并非完全等同于真实的数学研究。尽管如此，这场竞赛仍为AI与人类的数学能力对比提供了一个宝贵的参考点。

AI的未来：超越人类指日可待？

Epoch AI预测，AI可能在2025年底前在FrontierMath上明确超越人类。这一前景既令人兴奋又发人深省。AI的推理能力正在迅速逼近人类专家水平，但它的“思考”方式与人类截然不同。未来，AI是否会成为数学研究的得力助手，还是会彻底改变数学领域的游戏规则？

这场“人机数学大战”不仅是一次技术的较量，也是对人类智慧与机器潜力的深刻探讨。你认为AI会在何时真正超越人类？欢迎来智享AI分享你的看法！