多模态模型Unified-IO 2

46次阅读
没有评论

共计 436 个字符,预计需要花费 2 分钟才能阅读完成。

Unified-IO 2 是第一个具备理解和生成图像、文本、音频和动作能力的自回归多模态模型。为了统一不同的模态,我们将输入和输出(包括图像、文本、音频、动作、框等)进行分词,放入共享语义空间,并利用单个编码 - 解码 Transformer 模型进行处理。由于使用多样化的模态进行训练非常困难,我们提出了各种架构改进方法来稳定模型。我们从多个来源的大规模多模态预训练语料库中,利用多模态混合去噪目标对模型进行了从头训练。为了学习广泛的技能,例如遵循多模态指令,我们构建了一个包含 120 个现有数据集的集合,并进行了提示和增强。通过一个统一的模型,Unified-IO 2 在 GRIT 基准测试中达到了最先进的性能,并在 30 多个基准测试中取得了强大的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作等领域。

项目主页:https://unified-io-2.allenai.org

GitHub 地址:https://github.com/allenai/unified-io-2

多模态模型 Unified-IO 2

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-12-30发表,共计436字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码