视觉图形用户界面(GUI)代理SeeClick

57次阅读
没有评论

共计 889 个字符,预计需要花费 3 分钟才能阅读完成。

来自南京大学计算机科学与技术系、上海人工智能实验室的研究人员提出了一个名为 SeeClick 的视觉图形用户界面(GUI)代理,它能够通过观察屏幕截图来自动化执行复杂的任务。这个代理特别之处在于,它不需要依赖于结构化文本,如 HTML,而是直接从界面截图中识别和执行操作,这使得它能够在多种设备上,如智能手机、桌面电脑和网页上工作。

GitHub 地址:https://github.com/njucckevin/SeeClick

论文地址:https://arxiv.org/abs/2401.10935

视觉图形用户界面(GUI)代理 SeeClick

主要特点:

  1. 视觉基础 :SeeClick 是基于大型视觉 - 语言模型(LVLM)构建的,它通过观察界面的截图来理解和执行任务。
  2. GUI 定位 :它能够根据指令准确定位屏幕上的元素,这是通过一种称为 GUI 定位(GUI grounding)的技术实现的。
  3. 预训练和数据自动化 :为了提高定位能力,SeeClick 通过预训练和自动化数据收集方法来增强其性能。
  4. 跨平台兼容性 :SeeClick 能够在 iOS、Android、macOS、Windows 和网页等多种 GUI 环境中工作。

工作原理:

SeeClick 的工作原理可以分为几个步骤:

  • 数据收集 :首先,从网页和移动应用中收集界面截图和相应的操作指令。
  • 预训练 :使用这些数据对 SeeClick 进行预训练,使其学会如何根据指令在截图中定位元素。
  • 任务执行 :在执行任务时,SeeClick 接收到一个界面截图和操作指令,然后预测出执行该操作所需的精确点击位置或输入文本。

具体应用场景:

  • 智能手机应用 :SeeClick 可以帮助用户自动化日常任务,比如设置闹钟、查看天气或管理日程。
  • 桌面应用 :在电脑上,它可以协助完成办公软件中的复杂操作,如编辑文档、处理电子表格等。
  • 网页自动化 :在网页上,SeeClick 可以执行如填写表单、搜索信息或进行在线购物等任务。
  • 测试和开发 :开发者可以使用 SeeClick 来自动化测试流程,确保软件界面的各个元素都能正确响应用户操作。

SeeClick 是一个强大的工具,它通过视觉理解和自然语言处理的结合,为用户提供了一个无需手动操作就能完成任务的自动化解决方案。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-29发表,共计889字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码