能够操纵手机的AI智能体AppAgent

98次阅读
没有评论

共计 471 个字符,预计需要花费 2 分钟才能阅读完成。

腾讯研究团队开源了一款基于 GPT- 4 的,用于手机端执行复杂任务的多模态智能代理框架—AppAgent。据悉,AppAgent 的功能与 AutoGPT 等智能代理类似,不依赖于操作系统的后台访问, 而是通过 UI 界面进行点击、滑动等拟人化操作,与 App 进行交互操作。在测试中,他们在 SNS、电子邮件、地图、图像编辑等 10 个应用程序中尝试了各种任务,并证明了其实用性。

简介

AppAgent 是一种由 AI 大型语言模型提供支持的高级多模式代理,能够利用任何应用程序来执行复杂的任务。它通过直观的点击和滑动手势与应用程序交互,模仿人类的动作。AppAgent 是基于 LLM 的多模式 AI 代理框架,使用 简化的动作空间 来操作智能手机应用程序。这种新颖的方法绕过了对系统后端访问的需求,从而扩大了其在不同应用程序中的适用性。

项目主页:https://appagent-official.github.io

GitHub 地址:https://github.com/mnotgod96/AppAgent

论文地址:https://arxiv.org/abs/2312.13771

能够操纵手机的 AI 智能体 AppAgent

 

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-09发表,共计471字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码