文章目录[隐藏]
智能手机已成为现代生活中不可或缺的一部分,但在移动设备上执行复杂的多步骤任务仍然面临挑战。现有的基于大型多模态模型(LMM)的移动代理虽展示了潜力,但它们在满足现实世界需求、处理复杂推理与长期规划以及从经验中学习方面存在局限。
方法介绍
为解决这些问题,伊利诺伊大学厄巴纳-香槟分校和阿里巴巴的研究人员提出了Mobile-Agent-E——一种采用过去经验实现自我进化的分层多代理框架。该框架通过五个代理分工合作,实现了高层规划与低层动作执行的分离,并引入了包含Tips(提示)和Shortcuts(快捷方式)的持久长期记忆模块来提高效率和性能。
- 项目主页:https://x-plug.github.io/MobileAgent
- GitHub:https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-E
分层结构概览
- Manager(管理者)
- 使用LMM进行推理,创建包含子目标的高层次计划。
- 利用长期记忆中的Shortcuts优化规划过程。
- 触发Error Escalation Flag以应对连续操作失败的情况。
- Perceptor(感知器)
- 提供视觉感知能力,包括OCR模型、图标定位及描述模型,输出屏幕元素的详细信息。
- Operator(操作器)
- 根据管理者的指示执行即时操作,并参考Tips指导决策。
- 支持原子操作及通过任务进化形成的Shortcuts。
- Action Reflector(动作反射器)
- 验证操作结果是否符合预期,并记录进度或提供错误反馈。
- Notetaker(记录员)
- 在任务过程中汇总关键信息。
自我进化模块
- 维护长期记忆,包含从先前任务中提炼出的Tips和可重用的Shortcuts,旨在增强代理的表现和效率。
新基准测试:Mobile-Eval-E
为了更准确地评估移动代理在复杂任务中的表现,我们推出了Mobile-Eval-E基准测试。它包含25个手工设计的任务,覆盖多个现实生活场景,强调复杂推理、长期规划及跨应用交互的需求。
结果与评估
我们定义了一系列新的评估指标,如Satisfaction Score (SS)、Satisfaction Score vs Steps (SSS)曲线、Action Accuracy (AA)、Reflection Accuracy (RA) 和 Termination Error (TE),以全面衡量Mobile-Agent-E的性能。