多模态通用智能体LEO

浏览：134次阅读

共计 352 个字符，预计需要花费 1 分钟才能阅读完成。

LEO 是一个具备身体形态的多模态通用智能体，擅长在三维世界中感知、定位、推理、规划和行动。LEO 通过两个阶段进行训练，这两个阶段都使用了基于共享 LLM（大型语言模型）的模型架构、目标和权重：(i) 三维视觉 - 语言对齐和 (ii) 三维视觉 - 语言 - 行动指令调整。为了促进训练，我们精心收集了大量的数据集，这些数据集包含了三维对象级和场景级的多模态任务。LEO 能够处理包括三维字幕生成、具身推理、对话、任务规划、具身导航和机器人操作在内的广泛任务。