多模态模型Unified-IO 2

浏览：161次阅读

共计 436 个字符，预计需要花费 2 分钟才能阅读完成。

Unified-IO 2 是第一个具备理解和生成图像、文本、音频和动作能力的自回归多模态模型。为了统一不同的模态，我们将输入和输出（包括图像、文本、音频、动作、框等）进行分词，放入共享语义空间，并利用单个编码 - 解码 Transformer 模型进行处理。由于使用多样化的模态进行训练非常困难，我们提出了各种架构改进方法来稳定模型。我们从多个来源的大规模多模态预训练语料库中，利用多模态混合去噪目标对模型进行了从头训练。为了学习广泛的技能，例如遵循多模态指令，我们构建了一个包含 120 个现有数据集的集合，并进行了提示和增强。通过一个统一的模型，Unified-IO 2 在 GRIT 基准测试中达到了最先进的性能，并在 30 多个基准测试中取得了强大的结果，包括图像生成和理解、文本理解、视频和音频理解以及机器人操作等领域。