苹果推出多模态大语言模型Ferret-UI 2:实现跨平台的用户界面(UI)理解

浏览:214次阅读
没有评论

共计 1056 个字符,预计需要花费 3 分钟才能阅读完成。

苹果在今年 4 月推出了多模态大语言模型 Ferret-UI,近期又推出了升级版 Ferret-UI 2,它旨在实现跨平台的用户界面(UI)理解。Ferret-UI 2 能够处理来自不同设备和平台的 UI,包括 iPhone、Android、iPad、网页和 AppleTV,从而提供更广泛的适用性和用户体验。

例如,用户想要通过语音命令在智能电视(AppleTV)上搜索一部电影。Ferret-UI 2 能够理解用户的指令,并在 AppleTV 的界面上执行相应的搜索操作。或者,如果用户在 iPhone 上收到一条通知,想要了解通知的具体内容,Ferret-UI 2 可以解读通知界面并告诉用户详细信息。

苹果推出多模态大语言模型 Ferret-UI 2:实现跨平台的用户界面(UI)理解

主要功能:

  1. 多平台支持:Ferret-UI 2 支持多种设备和平台,如智能手机、平板电脑、网页和智能电视。
  2. 高分辨率感知:通过自适应缩放技术,模型能够在不同分辨率的设备上保持对视觉元素的准确识别。
  3. 高级任务训练数据生成:使用 GPT-4o 和集合标记视觉提示来生成训练数据,提高模型对 UI 元素空间关系的理解。

主要特点:

  • 自适应网格编码:Ferret-UI 2 引入了一种自适应 N 网格机制,以优化局部编码的分辨率,保持信息的同时提高效率。
  • 跨平台迁移能力:模型能够在不同平台间迁移学习到的知识,展现出强大的跨平台适应性。
  • 用户中心交互:Ferret-UI 2 能够执行基于用户意图的单步交互,而不仅仅是机械式的点击指令。

工作原理:

Ferret-UI 2 通过结合 CLIP 图像编码器和大型语言模型(LLM)来实现 UI 理解。图像编码器从 UI 截图中提取全局和局部特征,然后这些特征被送入 LLM。视觉采样器根据用户指令识别和选择相关的 UI 区域,最后模型输出与 UI 元素交互的描述。

具体应用场景:

  • 智能家居控制:用户可以通过语音命令控制智能设备,如调整智能灯泡的亮度或开关。
  • 移动设备自动化:在移动设备上自动完成日常任务,如设置闹钟、发送短信或浏览网页。
  • 网页内容交互:在网页上执行复杂的交互任务,如在线购物、填写表单或阅读长篇文章。
  • 多步骤任务执行:在多个平台上执行需要多个步骤的任务,如预订餐厅、购买电影票或安排旅行。

总的来说,Ferret-UI 2 通过其多模态能力和跨平台设计,为广泛的 UI 自动化和用户交互任务提供了一个强大的工具,使得与数字系统的交互更加直观和高效。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-11-02发表,共计1056字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。