共计 352 个字符,预计需要花费 1 分钟才能阅读完成。
LEO 是一个具备身体形态的多模态通用智能体,擅长在三维世界中感知、定位、推理、规划和行动。LEO 通过两个阶段进行训练,这两个阶段都使用了基于共享 LLM(大型语言模型)的模型架构、目标和权重:(i) 三维视觉 - 语言对齐和 (ii) 三维视觉 - 语言 - 行动指令调整。为了促进训练,我们精心收集了大量的数据集,这些数据集包含了三维对象级和场景级的多模态任务。LEO 能够处理包括三维字幕生成、具身推理、对话、任务规划、具身导航和机器人操作在内的广泛任务。
GitHub 地址:https://github.com/embodied-generalist/embodied-generalist
Demo 地址:https://huggingface.co/spaces/embodied-generalist/LEO-Demo
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-18