Mobile-Agent-E：革新移动代理的分层多代理框架

文章目录[隐藏]

方法介绍
- 分层结构概览
- 自我进化模块
新基准测试：Mobile-Eval-E
结果与评估

智能手机已成为现代生活中不可或缺的一部分，但在移动设备上执行复杂的多步骤任务仍然面临挑战。现有的基于大型多模态模型（LMM）的移动代理虽展示了潜力，但它们在满足现实世界需求、处理复杂推理与长期规划以及从经验中学习方面存在局限。

方法介绍

为解决这些问题，伊利诺伊大学厄巴纳-香槟分校和阿里巴巴的研究人员提出了Mobile-Agent-E——一种采用过去经验实现自我进化的分层多代理框架。该框架通过五个代理分工合作，实现了高层规划与低层动作执行的分离，并引入了包含Tips（提示）和Shortcuts（快捷方式）的持久长期记忆模块来提高效率和性能。

项目主页：https://x-plug.github.io/MobileAgent
GitHub：https://github.com/X-PLUG/MobileAgent/tree/main/Mobile-Agent-E

分层结构概览

Manager（管理者）
- 使用LMM进行推理，创建包含子目标的高层次计划。
- 利用长期记忆中的Shortcuts优化规划过程。
- 触发Error Escalation Flag以应对连续操作失败的情况。
Perceptor（感知器）
- 提供视觉感知能力，包括OCR模型、图标定位及描述模型，输出屏幕元素的详细信息。
Operator（操作器）
- 根据管理者的指示执行即时操作，并参考Tips指导决策。
- 支持原子操作及通过任务进化形成的Shortcuts。
Action Reflector（动作反射器）
- 验证操作结果是否符合预期，并记录进度或提供错误反馈。
Notetaker（记录员）
- 在任务过程中汇总关键信息。

自我进化模块

维护长期记忆，包含从先前任务中提炼出的Tips和可重用的Shortcuts，旨在增强代理的表现和效率。

新基准测试：Mobile-Eval-E

为了更准确地评估移动代理在复杂任务中的表现，我们推出了Mobile-Eval-E基准测试。它包含25个手工设计的任务，覆盖多个现实生活场景，强调复杂推理、长期规划及跨应用交互的需求。

结果与评估

我们定义了一系列新的评估指标，如Satisfaction Score (SS)、Satisfaction Score vs Steps (SSS)曲线、Action Accuracy (AA)、Reflection Accuracy (RA) 和 Termination Error (TE)，以全面衡量Mobile-Agent-E的性能。

AI PC装机指南