自主多模态移动设备代理Mobile-Agent

31次阅读
没有评论

共计 1061 个字符,预计需要花费 3 分钟才能阅读完成。

来自阿里和北京交通大学的研究人员推出了自主多模态移动设备代理 Mobile-Agent。这个代理基于多模态大型语言模型(MLLM),能够通过视觉感知工具来准确识别和定位移动应用前端界面中的视觉和文本元素。Mobile-Agent 能够根据感知到的视觉内容自主规划和分解复杂的操作任务,并逐步导航移动应用进行操作。与传统依赖于应用或移动系统元数据的方法不同,Mobile-Agent 通过视觉为中心的方式提高了在多样化移动操作系统环境中的适应性,从而消除了对系统特定定制的需求。

GitHub 地址:https://github.com/X-PLUG/MobileAgent

论文地址:https://huggingface.co/papers/2401.16158

自主多模态移动设备代理 Mobile-Agent

主要特点:

  1. 视觉感知能力: 利用 OCR(光学字符识别)工具和图标检测工具,Mobile-Agent 能够在屏幕上准确定位文本和图标。
  2. 自主规划: 基于截图、用户指令和操作历史,Mobile-Agent 能够自主规划任务的每一步。
  3. 自我反思: 在执行过程中,如果遇到错误或无效操作,Mobile-Agent 能够进行自我反思并纠正错误。
  4. 多应用操作: Mobile-Agent 能够处理涉及多个应用的复杂指令,如在不同应用间传递信息。

工作原理: Mobile-Agent 的工作流程包括以下几个步骤:

  1. 视觉感知: 使用 OCR 和图标检测工具来识别屏幕上的文本和图标。
  2. 操作执行: 根据用户指令,Mobile-Agent 定义了 8 种操作,如打开应用、点击文本、输入文本等。
  3. 自我规划: Mobile-Agent 通过迭代过程,每次迭代都会根据当前屏幕截图、操作历史和系统提示来生成下一步操作。
  4. 自我反思: 如果操作无效或错误,Mobile-Agent 会尝试替代操作或修改当前操作的参数。如果操作完成后,代理会检查是否完全遵循了用户指令。

具体应用场景: Mobile-Agent 可以在多种场景中应用,例如:

  • 电子商务: 在购物应用中搜索商品、添加到购物车或完成购买。
  • 音乐和视频: 在音乐应用中搜索特定歌手的歌曲或在视频应用中搜索并评论视频。
  • 社交和通讯: 发送电子邮件、管理社交媒体账户或在聊天应用中发送消息。
  • 导航和地图: 使用地图应用进行导航或搜索附近的地点。
  • 游戏: 在游戏中执行操作,如玩扑克牌游戏。
  • 多语言支持: 处理中文等非英语场景,尽管目前 GPT-4V 在处理中文方面可能存在局限性。

总的来说,Mobile-Agent 展示了作为一个多模态、自主的移动设备代理的强大潜力,能够在多种应用场景中执行复杂的用户指令。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-31发表,共计1061字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码