共计 889 个字符,预计需要花费 3 分钟才能阅读完成。
来自南京大学计算机科学与技术系、上海人工智能实验室的研究人员提出了一个名为 SeeClick 的视觉图形用户界面(GUI)代理,它能够通过观察屏幕截图来自动化执行复杂的任务。这个代理特别之处在于,它不需要依赖于结构化文本,如 HTML,而是直接从界面截图中识别和执行操作,这使得它能够在多种设备上,如智能手机、桌面电脑和网页上工作。
GitHub 地址:https://github.com/njucckevin/SeeClick
主要特点:
- 视觉基础 :SeeClick 是基于大型视觉 - 语言模型(LVLM)构建的,它通过观察界面的截图来理解和执行任务。
- GUI 定位 :它能够根据指令准确定位屏幕上的元素,这是通过一种称为 GUI 定位(GUI grounding)的技术实现的。
- 预训练和数据自动化 :为了提高定位能力,SeeClick 通过预训练和自动化数据收集方法来增强其性能。
- 跨平台兼容性 :SeeClick 能够在 iOS、Android、macOS、Windows 和网页等多种 GUI 环境中工作。
工作原理:
SeeClick 的工作原理可以分为几个步骤:
- 数据收集 :首先,从网页和移动应用中收集界面截图和相应的操作指令。
- 预训练 :使用这些数据对 SeeClick 进行预训练,使其学会如何根据指令在截图中定位元素。
- 任务执行 :在执行任务时,SeeClick 接收到一个界面截图和操作指令,然后预测出执行该操作所需的精确点击位置或输入文本。
具体应用场景:
- 智能手机应用 :SeeClick 可以帮助用户自动化日常任务,比如设置闹钟、查看天气或管理日程。
- 桌面应用 :在电脑上,它可以协助完成办公软件中的复杂操作,如编辑文档、处理电子表格等。
- 网页自动化 :在网页上,SeeClick 可以执行如填写表单、搜索信息或进行在线购物等任务。
- 测试和开发 :开发者可以使用 SeeClick 来自动化测试流程,确保软件界面的各个元素都能正确响应用户操作。
SeeClick 是一个强大的工具,它通过视觉理解和自然语言处理的结合,为用户提供了一个无需手动操作就能完成任务的自动化解决方案。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-29