OS-ATLAS：为通用图形用户界面（GUI）代理设计的基础动作模型

浏览：378次阅读

共计 1210 个字符，预计需要花费 4 分钟才能阅读完成。

文章目录[隐藏]

主要功能：
主要特点：
工作原理：
具体应用场景：

海人工智能实验室、上海交通大学、香港大学和麻省理工学院的研究人员推出一个名为 OS-ATLAS 的模型，这是一个为通用图形用户界面（GUI）代理设计的基础动作模型。OS-ATLAS 旨在通过创新的数据和建模方法，在 GUI 定位和跨分布（Out-Of-Distribution，OOD）场景中表现出色，以提高个性化 GUI 代理的效率和鲁棒性。

项目主页：https://osatlas.github.io
GitHub：https://github.com/OS-Copilot/OS-Atlas
模型：https://huggingface.co/collections/OS-Copilot/os-atlas-67246e44003a1dfcc5d0d045

例如，你想要自动化一个任务，比如在 Visual Studio Code 中修改设置以隐藏所有的 __pycache__ 文件夹。OS-ATLAS 可以分析屏幕截图和你给出的自然语言指令（如“隐藏所有__pycache__文件夹”），然后生成一系列可执行的动作，比如点击设置图标、在搜索设置输入框中输入“files: exclude”等，以完成这个任务。

主要功能：

GUI 定位（Grounding）：将自然语言指令转换为可以在操作系统中执行的动作。
动作执行：在 GUI 环境中执行如点击、滚动、输入等动作。
跨平台兼容性：支持多种操作系统和平台，包括 Windows、Linux、MacOS、Android 和 Web。

主要特点：

数据合成工具包：开发了一个开源工具包，可以自动合成多个平台的 GUI 定位数据。
大规模数据集：发布了迄今为止最大的开源跨平台 GUI 定位语料库，包含超过 1300 万个 GUI 元素。
模型训练创新：通过模型训练的创新，OS-ATLAS 能够理解 GUI 截图并泛化到未见过的界面。
快速适应：适应新身份的过程可以在 15 分钟内完成，比以前的方法快 47 倍。

工作原理：

OS-ATLAS 的工作原理包括以下几个步骤：

GUI 定位预训练 ：使用大量的 < 截图，元素引用表达或指令，元素坐标> 三元组数据训练模型，使模型能够理解 GUI 截图并识别屏幕上的元素。
动作微调 ：在 GUI 定位预训练的基础上，使用 < 截图，任务指令，动作历史> 三元组数据进一步训练模型，使其能够预测相应的动作。
统一动作空间：为了解决不同数据源之间的动作空间冲突问题，提出了一个统一动作空间，包括基本动作和自定义动作，以标准化所有现有数据集的格式。

具体应用场景：

自动化日常任务：比如自动化配置软件设置、自动化填写表单等。
虚拟助手：在桌面环境或移动应用中，根据用户的语音或文本指令执行特定任务。
测试和质量保证：自动化测试 GUI 应用，确保应用的稳定性和可用性。
跨平台应用开发：在不同的操作系统和设备上开发和测试 GUI 应用。

总的来说，OS-ATLAS 通过结合大规模数据集和模型训练的创新，提供了一个强大的工具，可以在多种应用场景中实现高质量的 GUI 自动化任务。

OS-ATLAS：为通用图形用户界面（GUI）代理设计的基础动作模型

主要功能：

主要特点：

工作原理：

具体应用场景：

相关文章

相关文章

相关文章