共计 1718 个字符,预计需要花费 5 分钟才能阅读完成。
AI 代理需要解决一系列任务,这些任务要求不同的速度和推理及规划能力。理想情况下,代理应该知道何时使用其直接记忆,何时使用更复杂的推理能力。然而,设计能够根据任务要求正确处理的代理系统仍然是一个挑战。
论文地址:https://arxiv.org/abs/2410.08328v1
Google DeepMind 的研究人员提出了一种名为 Talker-Reasoner 的代理框架,该框架受到人类认知的“双系统”模型的启发,旨在使 AI 代理在不同类型的推理之间找到正确的平衡,并提供更流畅的用户体验。
人类的 System 1 和 System 2 思维
诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)首次提出的双系统理论认为,人类思维由两个截然不同的系统驱动:
- 系统 1 :快速、直观且自动,控制我们的快速判断,如对突发事件的反应或识别熟悉的模式。
- 系统 2 :缓慢、谨慎且分析性强,使复杂的解决问题、规划和推理成为可能。
虽然通常被视为独立的,但这两个系统不断地相互作用。系统 1 产生印象、直觉和意图,系统 2 评估这些建议,并在认可后将其整合到明确的信念和有意识的选择中。这种相互作用使我们能够无缝地处理从日常例行公事到挑战性问题的各种情况。
当前的 AI 代理
当前的 AI 代理大多在系统 1 模式下运行。它们擅长模式识别、快速反应和重复性任务。然而,在需要多步骤规划、复杂推理和战略决策的情况下,它们往往表现不佳,这些是系统 2 思维的特点。
Talker-Reasoner 框架
DeepMind 提出的 Talker-Reasoner 框架旨在使 AI 代理具备系统 1 和系统 2 的能力。它将代理分为两个不同的模块:Talker 和 Reasoner。
- Talker:快速、直观的组件,类似于系统 1。它处理与用户和环境的实时交互。它感知观察结果,解释语言,从内存中检索信息,并生成对话响应。Talker 代理通常使用大型语言模型(LLMs)的即时学习(ICL)能力来执行这些功能。
- Reasoner:体现系统 2 的缓慢、审慎特性。它执行复杂的推理和规划。它被设计用于执行特定任务,并与工具和外部数据源交互,以增强其知识并做出明智的决策。它还更新代理的信念,因为它收集新信息。这些信念驱动未来的决策,并作为 Talker 在对话中使用的记忆。

模块间的交互
这两个模块主要通过共享内存系统进行交互。Reasoner 用其最新的信念和推理结果更新内存,而 Talker 检索这些信息以指导其交互。这种异步通信允许 Talker 在 Reasoner 在后台执行其更耗时的计算时,保持对话的连续流动。
研究人员写道:“这类似于行为科学的双系统方法,系统 1 始终开启,而系统 2 以部分容量运行。”同样,Talker 始终开启并与环境交互,而 Reasoner 在 Talker 等待它或从内存中读取时更新信念,以告知 Talker。
Talker-Reasoner 的应用
研究人员在睡眠指导应用程序中测试了他们的框架。AI 教练通过自然语言与用户互动,提供个性化的指导和支持,以改善睡眠习惯。这个应用程序需要结合快速、富有同情心的对话和审慎、基于知识的推理。
- Talker 组件:处理对话方面,提供富有同情心的响应,并指导用户通过指导过程的各个阶段。
- Reasoner 组件:维护关于用户睡眠问题、目标、习惯和环境的信念状态。它使用这些信息生成个性化建议和多步骤计划。
同样的框架可以应用于其他应用程序,如客户服务和个性化教育。
未来研究方向
DeepMind 的研究人员概述了未来研究的几个方向:
- 优化 Talker 和 Reasoner 之间的交互:理想情况下,Talker 应自动确定何时需要 Reasoner 的干预,何时可以独立处理情况。这将最小化不必要的计算并提高整体效率。
- 扩展框架以包含多个 Reasoner:每个 Reasoner 专门从事不同类型的推理或知识领域。这将使代理能够处理更复杂的任务并提供更全面的帮助。
结论
Talker-Reasoner 框架通过融合系统 1 和系统 2 思维,为 AI 代理提供了一种新的设计思路。这一框架不仅提高了代理的灵活性和效率,还为开发更智能、更人性化的 AI 应用铺平了道路。随着进一步的研究和优化,Talker-Reasoner 框架有望在多个领域发挥重要作用。
相关文章
相关文章
