Mobile-Agent-E:革新移动代理的分层多代理框架

浏览:575次阅读
没有评论

共计 1003 个字符,预计需要花费 3 分钟才能阅读完成。

智能手机已成为现代生活中不可或缺的一部分,但在移动设备上执行复杂的多步骤任务仍然面临挑战。现有的基于大型多模态模型(LMM)的移动代理虽展示了潜力,但它们在满足现实世界需求、处理复杂推理与长期规划以及从经验中学习方面存在局限。

方法介绍

为解决这些问题,伊利诺伊大学厄巴纳 - 香槟分校和阿里巴巴的研究人员提出了 Mobile-Agent-E——一种采用过去经验实现自我进化的分层多代理框架。该框架通过五个代理分工合作,实现了高层规划与低层动作执行的分离,并引入了包含Tips(提示)和 Shortcuts(快捷方式) 的持久长期记忆模块来提高效率和性能。

分层结构概览
  1. Manager(管理者)
    • 使用 LMM 进行推理,创建包含子目标的高层次计划。
    • 利用长期记忆中的 Shortcuts 优化规划过程。
    • 触发 Error Escalation Flag 以应对连续操作失败的情况。
  2. Perceptor(感知器)
    • 提供视觉感知能力,包括 OCR 模型、图标定位及描述模型,输出屏幕元素的详细信息。
  3. Operator(操作器)
    • 根据管理者的指示执行即时操作,并参考 Tips 指导决策。
    • 支持原子操作及通过任务进化形成的 Shortcuts。
  4. Action Reflector(动作反射器)
    • 验证操作结果是否符合预期,并记录进度或提供错误反馈。
  5. Notetaker(记录员)
    • 在任务过程中汇总关键信息。
自我进化模块
  • 维护长期记忆,包含从先前任务中提炼出的 Tips 和可重用的 Shortcuts,旨在增强代理的表现和效率。

新基准测试:Mobile-Eval-E

为了更准确地评估移动代理在复杂任务中的表现,我们推出了 Mobile-Eval-E 基准测试。它包含 25 个手工设计的任务,覆盖多个现实生活场景,强调复杂推理、长期规划及跨应用交互的需求。

结果与评估

我们定义了一系列新的评估指标,如 Satisfaction Score (SS)、Satisfaction Score vs Steps (SSS)曲线、Action Accuracy (AA)、Reflection Accuracy (RA) 和 Termination Error (TE),以全面衡量 Mobile-Agent- E 的性能。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2025-01-27发表,共计1003字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。