OS-ATLAS:为通用图形用户界面(GUI)代理设计的基础动作模型

浏览:378次阅读
没有评论

共计 1210 个字符,预计需要花费 4 分钟才能阅读完成。

海人工智能实验室、上海交通大学、香港大学和麻省理工学院的研究人员推出一个名为 OS-ATLAS 的模型,这是一个为通用图形用户界面(GUI)代理设计的基础动作模型。OS-ATLAS 旨在通过创新的数据和建模方法,在 GUI 定位和跨分布(Out-Of-Distribution,OOD)场景中表现出色,以提高个性化 GUI 代理的效率和鲁棒性。

例如,你想要自动化一个任务,比如在 Visual Studio Code 中修改设置以隐藏所有的 __pycache__ 文件夹。OS-ATLAS 可以分析屏幕截图和你给出的自然语言指令(如“隐藏所有__pycache__文件夹”),然后生成一系列可执行的动作,比如点击设置图标、在搜索设置输入框中输入“files: exclude”等,以完成这个任务。

OS-ATLAS:为通用图形用户界面(GUI)代理设计的基础动作模型

主要功能:

  1. GUI 定位(Grounding):将自然语言指令转换为可以在操作系统中执行的动作。
  2. 动作执行:在 GUI 环境中执行如点击、滚动、输入等动作。
  3. 跨平台兼容性:支持多种操作系统和平台,包括 Windows、Linux、MacOS、Android 和 Web。

主要特点:

  1. 数据合成工具包:开发了一个开源工具包,可以自动合成多个平台的 GUI 定位数据。
  2. 大规模数据集:发布了迄今为止最大的开源跨平台 GUI 定位语料库,包含超过 1300 万个 GUI 元素。
  3. 模型训练创新:通过模型训练的创新,OS-ATLAS 能够理解 GUI 截图并泛化到未见过的界面。
  4. 快速适应:适应新身份的过程可以在 15 分钟内完成,比以前的方法快 47 倍。

工作原理:

OS-ATLAS 的工作原理包括以下几个步骤:

  1. GUI 定位预训练 :使用大量的 < 截图,元素引用表达或指令,元素坐标> 三元组数据训练模型,使模型能够理解 GUI 截图并识别屏幕上的元素。
  2. 动作微调 :在 GUI 定位预训练的基础上,使用 < 截图,任务指令,动作历史> 三元组数据进一步训练模型,使其能够预测相应的动作。
  3. 统一动作空间:为了解决不同数据源之间的动作空间冲突问题,提出了一个统一动作空间,包括基本动作和自定义动作,以标准化所有现有数据集的格式。

具体应用场景:

  1. 自动化日常任务:比如自动化配置软件设置、自动化填写表单等。
  2. 虚拟助手:在桌面环境或移动应用中,根据用户的语音或文本指令执行特定任务。
  3. 测试和质量保证:自动化测试 GUI 应用,确保应用的稳定性和可用性。
  4. 跨平台应用开发:在不同的操作系统和设备上开发和测试 GUI 应用。

总的来说,OS-ATLAS 通过结合大规模数据集和模型训练的创新,提供了一个强大的工具,可以在多种应用场景中实现高质量的 GUI 自动化任务。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-11-05发表,共计1210字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。