Mobile-Agent-E:革新移动代理的分层多代理框架

智能手机已成为现代生活中不可或缺的一部分,但在移动设备上执行复杂的多步骤任务仍然面临挑战。现有的基于大型多模态模型(LMM)的移动代理虽展示了潜力,但它们在满足现实世界需求、处理复杂推理与长期规划以及从经验中学习方面存在局限。

方法介绍

为解决这些问题,伊利诺伊大学厄巴纳-香槟分校和阿里巴巴的研究人员提出了Mobile-Agent-E——一种采用过去经验实现自我进化的分层多代理框架。该框架通过五个代理分工合作,实现了高层规划与低层动作执行的分离,并引入了包含Tips(提示)和Shortcuts(快捷方式)的持久长期记忆模块来提高效率和性能。

分层结构概览
  1. Manager(管理者)
    • 使用LMM进行推理,创建包含子目标的高层次计划。
    • 利用长期记忆中的Shortcuts优化规划过程。
    • 触发Error Escalation Flag以应对连续操作失败的情况。
  2. Perceptor(感知器)
    • 提供视觉感知能力,包括OCR模型、图标定位及描述模型,输出屏幕元素的详细信息。
  3. Operator(操作器)
    • 根据管理者的指示执行即时操作,并参考Tips指导决策。
    • 支持原子操作及通过任务进化形成的Shortcuts。
  4. Action Reflector(动作反射器)
    • 验证操作结果是否符合预期,并记录进度或提供错误反馈。
  5. Notetaker(记录员)
    • 在任务过程中汇总关键信息。
自我进化模块
  • 维护长期记忆,包含从先前任务中提炼出的Tips和可重用的Shortcuts,旨在增强代理的表现和效率。

新基准测试:Mobile-Eval-E

为了更准确地评估移动代理在复杂任务中的表现,我们推出了Mobile-Eval-E基准测试。它包含25个手工设计的任务,覆盖多个现实生活场景,强调复杂推理、长期规划及跨应用交互的需求。

结果与评估

我们定义了一系列新的评估指标,如Satisfaction Score (SS)、Satisfaction Score vs Steps (SSS)曲线、Action Accuracy (AA)、Reflection Accuracy (RA) 和 Termination Error (TE),以全面衡量Mobile-Agent-E的性能。