终端到终端的网页智能体WebVoyager

浏览：158次阅读

共计 997 个字符，预计需要花费 3 分钟才能阅读完成。

腾讯 AI 实验室、浙江大学、西湖大学团队推出了一款名为 WebVoyager 的终端到终端的网页智能体，它能够通过与真实网站的交互来完成用户的指令。WebVoyager 使用了大规模多模态模型（Large Multimodal Models，LMMs）来处理网页任务，它能够理解来自网页的视觉和文本信息。该智能体在 Selenium 浏览器环境中运行，可以点击、输入、滚动等操作来与网页交互。

论文地址：https://arxiv.org/abs/2401.13919
GitHub 地址：https://github.com/MinorJerry/WebVoyager

特点：

多模态交互 ：WebVoyager 结合了文本和视觉信息，通过屏幕截图作为主要输入，同时考虑关键 HTML 元素的文本内容，以模仿人类浏览网页的行为。
在线环境构建 ：使用 Selenium 构建了一个在线网络浏览环境，允许代理以与人类用户相同的方式访问网站。
任务成功率 ：在新构建的基准测试中，WebVoyager 展示了 55.7% 的任务成功率，显著超过了 GPT-4（All Tools）和仅文本设置的性能。
自动评估协议 ：提出了一种使用 GPT-4V 作为自动评估器的方法，以评估 WebVoyager 的导航轨迹和最终结果，与人类评估者的结果具有较高的一致性。

实现方法：

环境构建 ：使用 Selenium 模拟用户浏览行为，允许代理直接与网站交互。
交互循环 ：代理在每一步接收当前屏幕截图和辅助文本，基于这些输入生成动作，然后在浏览器环境中执行。
观察空间 ：代理接收屏幕截图和辅助文本作为输入，包括交互元素的类型、内容和可能的评论文本。
动作空间 ：定义了代理的动作空间，包括点击、输入、滚动、等待、返回和跳转到搜索引擎等操作。
数据构建 ：通过自指导方法和人工验证构建任务池，确保任务的质量和答案的可获取性。
评估方法 ：采用人类评估作为主要评估指标，并提出使用 GPT-4V 作为自动评估器，通过提供任务、代理响应和最后 k 张屏幕截图来评估代理是否成功完成任务。

论文中收集了一个包含来自 15 个常用网站的 300 个真实网页任务的基准数据集，并用人工评估和 GPT-4V 自动评估的方法来评估 WebVoyager 的表现。结果显示，WebVoyager 的完成任务的成功率达到了 55.7%，明显超过了 GPT-4（All Tools）和仅使用文本的 WebVoyager 的性能，证明了在实际应用中其卓越的能力。

正文完

关注公众号获取最新教程

发表至：无分类

2024-01-27

0

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

IBM推出开源Python库Unitxt，旨在为大型语言模型(LLM)提供统一的文本数据处理流程。