基准测试TravelPlanner：用于评估由大语言模型驱动的智能体在现实世界复杂场景下的规划能力

110次阅读

共计 1159 个字符，预计需要花费 3 分钟才能阅读完成。

来自复旦大学、俄亥俄州立大学、宾夕法尼亚州立大学和 Meta 的研究人员推出了一个名为 TravelPlanner 的基准测试，用于评估由大语言模型驱动的智能体在现实世界复杂场景下的规划能力。该基准聚焦于一个常见的实际生活规划问题——旅行规划，旨在测试这些智能体能否像人类一样，在预算、时间、交通、住宿、餐饮等多种约束条件下，成功制定多日行程。这些任务对于以往的 AI 来说是非常具有挑战性的。

项目主页：https://osu-nlp-group.github.io/TravelPlanner

主要功能与特点：

丰富环境模拟：TravelPlanner 提供了一个包含约 400 万条互联网数据记录的沙箱环境，通过六种工具（如城市搜索、航班查询等）供智能体获取信息。
多样化任务集：精心设计了 1225 个具有不同组合约束条件的用户查询及其参考答案，以全面考察智能体处理多种约束下规划任务的能力。
真实挑战性：旅行计划涉及长决策链条、多个相互依赖的选择以及对显性和隐性常识约束的遵守，这对目前的语言模型智能体而言是一项艰巨的任务。

工作原理：

TravelPlanner 的工作原理分为几个阶段：

环境设置：创建一个静态的沙盒环境，代理可以访问预设的数据库来获取信息。
查询构建：根据出发城市、目的地、日期范围等基本信息构建旅行查询。
人类标注：由人类专家为合成的查询生成可行的旅行计划。
质量控制：确保每个查询都有至少一个可行的计划，并对自然语言查询及其对应的计划进行详细审查。
旅行规划服务：TravelPlanner 可以作为开发智能旅行规划助手的基础，帮助用户规划旅行路线、预订航班和住宿。
AI 代理研究：研究人员可以使用 TravelPlanner 来测试和改进语言代理在复杂任务中的规划能力。
教育和培训：TravelPlanner 可以作为教学工具，帮助学生理解旅行规划的复杂性和 AI 在这一领域的应用。

具体应用场景：

在 TravelPlanner 中，语言智能体需要模拟真实的人类旅行规划过程，例如根据给定的出发地、目的地、时间和预算，查找合适的航班、预订符合要求的住宿、安排多样化的用餐选择以及游览景点等。然而，当前最先进的大型语言模型（如 GPT-4）在这类复杂任务上的成功率仅为 0.6%，表明现有的语言智能体还不能有效应对此类多约束规划任务。

尽管当前结果不尽人意，但 TravelPlanner 为未来研究提供了一个有意义且富有挑战性的平台，促使人工智能社区继续努力研发更高级别的语言智能体，使其能在更加接近人类日常操作的真实复杂环境中实现有效的规划能力。同时，值得注意的是，即使现在语言智能体的表现还有待提高，但它们能够尝试解决这种复杂的任务本身已经是 AI 领域的一项重要进展。随着技术的发展，未来的语言智能体有望帮助人们快速高效地完成诸如旅行规划这类繁琐的任务。

正文完

关注公众号获取最新教程