共计 997 个字符,预计需要花费 3 分钟才能阅读完成。
腾讯 AI 实验室、浙江大学、西湖大学团队推出了一款名为 WebVoyager 的终端到终端的网页智能体,它能够通过与真实网站的交互来完成用户的指令。WebVoyager 使用了大规模多模态模型(Large Multimodal Models,LMMs)来处理网页任务,它能够理解来自网页的视觉和文本信息。该智能体在 Selenium 浏览器环境中运行,可以点击、输入、滚动等操作来与网页交互。
论文地址:https://arxiv.org/abs/2401.13919
GitHub 地址:https://github.com/MinorJerry/WebVoyager
特点:
- 多模态交互 :WebVoyager 结合了文本和视觉信息,通过屏幕截图作为主要输入,同时考虑关键 HTML 元素的文本内容,以模仿人类浏览网页的行为。
- 在线环境构建 :使用 Selenium 构建了一个在线网络浏览环境,允许代理以与人类用户相同的方式访问网站。
- 任务成功率 :在新构建的基准测试中,WebVoyager 展示了 55.7% 的任务成功率,显著超过了 GPT-4(All Tools)和仅文本设置的性能。
- 自动评估协议 :提出了一种使用 GPT-4V 作为自动评估器的方法,以评估 WebVoyager 的导航轨迹和最终结果,与人类评估者的结果具有较高的一致性。
实现方法:
- 环境构建 :使用 Selenium 模拟用户浏览行为,允许代理直接与网站交互。
- 交互循环 :代理在每一步接收当前屏幕截图和辅助文本,基于这些输入生成动作,然后在浏览器环境中执行。
- 观察空间 :代理接收屏幕截图和辅助文本作为输入,包括交互元素的类型、内容和可能的评论文本。
- 动作空间 :定义了代理的动作空间,包括点击、输入、滚动、等待、返回和跳转到搜索引擎等操作。
- 数据构建 :通过自指导方法和人工验证构建任务池,确保任务的质量和答案的可获取性。
- 评估方法 :采用人类评估作为主要评估指标,并提出使用 GPT-4V 作为自动评估器,通过提供任务、代理响应和最后 k 张屏幕截图来评估代理是否成功完成任务。
论文中收集了一个包含来自 15 个常用网站的 300 个真实网页任务的基准数据集,并用人工评估和 GPT-4V 自动评估的方法来评估 WebVoyager 的表现。结果显示,WebVoyager 的完成任务的成功率达到了 55.7%,明显超过了 GPT-4(All Tools)和仅使用文本的 WebVoyager 的性能,证明了在实际应用中其卓越的能力。
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-27