共计 1055 个字符,预计需要花费 3 分钟才能阅读完成。
上周五,研究机构 Epoch AI 发布了一项名为 FrontierMath 的新数学基准测试,迅速在人工智能界引起了广泛关注。这项测试的独特之处在于其难度极高,即使是当前最先进的 AI 模型,如支持 ChatGPT 的 GPT-4o,在这些问题上的解决率也不足 2%。
基准测试的背景与目的
FrontierMath 旨在评估 AI 模型在解决复杂数学问题上的能力,这些问题通常需要专业的数学知识和长时间的研究才能解答。与以往的数学基准测试不同,FrontierMath 的问题集保持私密且未公开,以防止数据污染。这种设计确保了测试结果的真实性和可靠性,避免了 AI 模型因预先接触类似问题而产生的“记忆效应”。
当前 AI 模型的表现
在预印本研究论文中公布的性能结果显示,即使是在可以访问 Python 环境进行测试和验证的情况下,顶级 AI 模型如 Claude 3.5 Sonnet、GPT-4o、o1-preview 和 Gemini 1.5 Pro 的表现也非常差。这与它们在更简单数学基准测试(如 GSM8K 和 MATH)中的高分形成了鲜明对比,许多模型在这些测试中的得分超过了 90%。
问题的设计与验证
FrontierMath 的问题集由来自领先机构的 60 多名数学家合作开发,并经过严格的同行评审以确保正确性和清晰度。这些问题涵盖了多个数学学科,从计算数论到抽象代数几何,每 20 个问题中就有 1 个在评审过程中需要修正。菲尔兹奖得主陶哲轩和蒂莫西·高尔斯也参与了部分问题的评审。
陶哲轩在给 Epoch 的反馈中表示:“这些问题极具挑战性,我认为在短期内,除非有一个真正的领域专家,否则基本上唯一能解决它们的方法是通过一个半专家(比如相关领域的研究生),可能再加上现代 AI 和大量其他代数包的组合。”
与传统数学竞赛的区别
数学家陈谊廷在他的博客中详细解释了 FrontierMath 与传统数学竞赛(如国际数学奥林匹克 IMO)的不同。他指出,IMO 的问题通常需要创造性的洞察力,同时避免复杂的实现和专业知识。而 FrontierMath 则保留了对创造性洞察力的要求,但增加了对专业知识和复杂计算的需求。
陈谊廷进一步解释说:“因为 AI 系统具有巨大的计算能力,实际上可以设计出使用 IOI 或 Project Euler 相同理念的易于验证解决方案的问题——基本上,‘写一个证明’被‘在代码中实现一个算法’所取代。”
未来的发展
Epoch AI 计划定期评估 AI 模型在 FrontierMath 基准测试中的表现,并逐步扩展问题集。他们将在未来几个月内发布更多示例问题,以帮助研究社区测试和改进他们的系统。(来源)
相关文章
相关文章
