WildCard虚拟卡帮你轻松开通ChatGPT Plus

ChatGPT如何注册？解决ChatGPT国内手机号无法验证问题

视觉图形用户界面（GUI）代理SeeClick

57次阅读

共计 889 个字符，预计需要花费 3 分钟才能阅读完成。

来自南京大学计算机科学与技术系、上海人工智能实验室的研究人员提出了一个名为 SeeClick 的视觉图形用户界面（GUI）代理，它能够通过观察屏幕截图来自动化执行复杂的任务。这个代理特别之处在于，它不需要依赖于结构化文本，如 HTML，而是直接从界面截图中识别和执行操作，这使得它能够在多种设备上，如智能手机、桌面电脑和网页上工作。

GitHub 地址：https://github.com/njucckevin/SeeClick
论文地址：https://arxiv.org/abs/2401.10935

主要特点：

视觉基础 ：SeeClick 是基于大型视觉 - 语言模型（LVLM）构建的，它通过观察界面的截图来理解和执行任务。
GUI 定位 ：它能够根据指令准确定位屏幕上的元素，这是通过一种称为 GUI 定位（GUI grounding）的技术实现的。
预训练和数据自动化 ：为了提高定位能力，SeeClick 通过预训练和自动化数据收集方法来增强其性能。
跨平台兼容性 ：SeeClick 能够在 iOS、Android、macOS、Windows 和网页等多种 GUI 环境中工作。

工作原理：

SeeClick 的工作原理可以分为几个步骤：

数据收集 ：首先，从网页和移动应用中收集界面截图和相应的操作指令。
预训练 ：使用这些数据对 SeeClick 进行预训练，使其学会如何根据指令在截图中定位元素。
任务执行 ：在执行任务时，SeeClick 接收到一个界面截图和操作指令，然后预测出执行该操作所需的精确点击位置或输入文本。

具体应用场景：

智能手机应用 ：SeeClick 可以帮助用户自动化日常任务，比如设置闹钟、查看天气或管理日程。
桌面应用 ：在电脑上，它可以协助完成办公软件中的复杂操作，如编辑文档、处理电子表格等。
网页自动化 ：在网页上，SeeClick 可以执行如填写表单、搜索信息或进行在线购物等任务。
测试和开发 ：开发者可以使用 SeeClick 来自动化测试流程，确保软件界面的各个元素都能正确响应用户操作。

SeeClick 是一个强大的工具，它通过视觉理解和自然语言处理的结合，为用户提供了一个无需手动操作就能完成任务的自动化解决方案。

正文完

关注公众号获取最新教程

post-qrcode

发表至：无分类

2024-01-29

版权声明：本站原创文章，由 AI小诸葛 2024-01-29发表，共计889字。

转载说明：除特殊说明外本站文章皆由原创发布，请勿转载。

微软推出新型后训练稀疏化方案SliceGPT

通义千问视觉理解模型 Qwen-VL 升级版Qwen-VL-Max发布

评论（没有评论）