共计 1456 个字符,预计需要花费 4 分钟才能阅读完成。
微软的 Windows Agent Arena(WAA)是一个令人兴奋的项目,旨在推动人工智能在个人计算领域的应用。通过这一开源框架,微软希望让研究人员和开发人员能够构建、测试和优化专门针对 Windows 11 设计的 AI 代理。这些 AI 代理不仅可以理解用户的请求,还能在用户的计算机上执行复杂的任务,从而显著提高生产力。
什么是 Windows Agent Arena?
Windows Agent Arena 是一个开源框架,旨在支持开发人员和研究人员构建、测试和基准测试专门为 Windows 11 设计的 AI 代理。这些 AI 代理类似于智能助手,它们可以“看到”您屏幕上的内容,理解这些内容,并通过点击、打字或打开应用程序等方式与您的计算机交互,以帮助您完成任务。

AI 代理的工作原理
- 理解请求:AI 代理首先需要理解用户的请求。例如,用户可以说“开始我的早晨设置”,AI 代理会理解这是一个需要打开电子邮件、日历和新闻网站的请求。
- 执行任务:AI 代理将根据请求执行相应的操作。例如,打开 Microsoft Edge 并更改隐私设置,以启用“请勿跟踪”功能。
- 交互操作:AI 代理可以模拟用户的操作,如点击菜单、选择设置项、滚动页面等,以完成任务。

示例应用场景
- 早晨设置:
- 用户:“开始我的早晨设置。”
- AI 代理:打开电子邮件、日历和新闻网站。
- 隐私设置:
- 用户:“启用 Edge 的‘请勿跟踪’功能。”
- AI 代理:打开 Microsoft Edge,导航到设置,启用“请勿跟踪”功能。
- 文件管理:
- 用户:“将下载文件夹中的所有图片重命名并压缩。”
- AI 代理:重命名图片文件,将其压缩成一个文件。
- 文档编辑:
- 用户:“将当前文档导出为 PDF。”
- AI 代理:使用 LibreOffice 或其他文档编辑软件导出当前文档为 PDF 格式。
- 系统设置:
- 用户:“关闭我的系统通知。”
- AI 代理:关闭系统的通知功能。
开发者工具和支持
- 开源框架:WAA 完全开源,开发人员可以使用本地操作系统或微软的 Azure 机器学习(Azure ML)云基础设施来测试和运行多个代理。
- 默认模板:微软提供了默认的“AI 代理”模板,作为开发人员的起点。
- 基准测试工具:WAA 包含基准测试工具,帮助开发人员评估 AI 代理的性能和安全性。
- 屏幕理解模型:微软开源了“Omniparser”,一个强大的屏幕理解模型,帮助 AI 代理更好地理解和操作屏幕内容。
技术细节
- 开发环境:开发人员可以通过 Docker 与 WSL 2、OpenAI 或 AzureOpen API 密钥、Python 3.9、克隆 WAA 存储库、安装依赖项,最后使用 Windows Enterprise Evaluation ISO 来开始。
- 云支持:WAA 支持在 Azure 中运行,开发人员可以在云中同时测试多个代理,提高测试效率和可扩展性。
当前进展和未来展望
- 初步成果:微软的研究论文《Windows Agent Arena:大规模评估多模态操作系统代理》显示,WAA 的初始模型可以处理多达 150 个不同的任务。
- 现有代理:微软的 AI 代理 Navi 的成功率为 19.5%,虽然低于人类的 74.5%,但已经是一个重要的里程碑。
- 未来展望:微软计划继续改进 AI 代理,使其能够更好地理解用户的意图,执行更复杂的任务,并最终成为用户日常生活中的得力助手。

Windows Agent Arena 是一个极具潜力的项目,它不仅展示了 AI 技术在个人计算领域的广泛应用前景,还为开发人员和研究人员提供了一个强大的工具,帮助他们构建和测试创新的 AI 代理。随着技术的不断进步,未来的 Windows 11 用户可能会享受到更加智能化、个性化的计算体验。(来源)
相关文章
相关文章
正文完
关注公众号获取最新教程

发表至: 微软
2024-10-29