多模态通用智能体LEO

28次阅读
没有评论

共计 352 个字符,预计需要花费 1 分钟才能阅读完成。

LEO 是一个具备身体形态的多模态通用智能体,擅长在三维世界中感知、定位、推理、规划和行动。LEO 通过两个阶段进行训练,这两个阶段都使用了基于共享 LLM(大型语言模型)的模型架构、目标和权重:(i) 三维视觉 - 语言对齐和 (ii) 三维视觉 - 语言 - 行动指令调整。为了促进训练,我们精心收集了大量的数据集,这些数据集包含了三维对象级和场景级的多模态任务。LEO 能够处理包括三维字幕生成、具身推理、对话、任务规划、具身导航和机器人操作在内的广泛任务。

GitHub 地址:https://github.com/embodied-generalist/embodied-generalist

Demo 地址:https://huggingface.co/spaces/embodied-generalist/LEO-Demo

多模态通用智能体 LEO

 

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-18发表,共计352字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码