AI在历史研究中的局限性:新基准测试揭示的挑战

浏览:425次阅读
没有评论

共计 883 个字符,预计需要花费 3 分钟才能阅读完成。

一项由奥地利复杂性科学中心(CSH)主导的新研究表明,尽管大型语言模型(LLM)如 OpenAI 的 GPT-4、Meta 的 Llama 和 Google 的 Gemini 在编程或生成播客等任务上表现出色,但在通过高级历史考试方面却显得力不从心。这项研究利用了一个名为 Hist-LLM 的新基准测试,该测试基于 Seshat 全球历史数据库评估了这些顶级 LLM 在处理历史问题时的表现。

研究发现与分析

根据研究,在 NeurIPS 会议上展示的结果显示,即使是表现最佳的 GPT-4 Turbo 版本,其准确率也仅达到了约 46%,这仅略高于随机猜测的水平。伦敦大学学院计算机科学副教授 Maria del Rio-Chanona 指出:“虽然 LLM 令人印象深刻,但它们缺乏进行高级历史研究所必需的深度理解能力。”

研究人员提供了几个错误回答的例子来说明这一现象。例如,当被问及古埃及某个时期是否存在鳞甲时,GPT-4 Turbo 给出了肯定的回答,但实际上这种技术直到 1500 年后才出现在埃及。类似地,关于古埃及是否拥有职业常备军的问题,正确的答案应该是“没有”,但 LLM 错误地选择了“有”。

Del Rio-Chanona 解释说,这是因为 LLM 倾向于依赖于最常见的数据点进行推断,而难以访问较为冷僻的历史知识。此外,研究还发现,这些模型在撒哈拉以南非洲等地区的数据处理上存在不足,表明训练数据可能存在偏差。

未来展望

尽管如此,研究人员对 LLM 在未来能够辅助历史学家的工作仍抱有希望。他们正在努力通过增加来自代表性不足地区的信息以及提出更加复杂的问题来改进 Hist-LLM 基准测试。“总体而言,虽然我们的结果指出了 LLM 需要改进的地方,但也强调了这些模型在历史学领域内的潜在价值,”研究总结道。

领导这项研究的 CSH 教员 Peter Turchin 认为,尽管当前阶段 LLM 还不足以完全取代人类专家的角色,特别是在一些需要深入理解和独特见解的领域,但随着技术的发展和完善,它们有望成为历史学家的重要助手,帮助加速研究过程并提供新的视角。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2025-01-20发表,共计883字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。