共计 436 个字符,预计需要花费 2 分钟才能阅读完成。
Unified-IO 2 是第一个具备理解和生成图像、文本、音频和动作能力的自回归多模态模型。为了统一不同的模态,我们将输入和输出(包括图像、文本、音频、动作、框等)进行分词,放入共享语义空间,并利用单个编码 - 解码 Transformer 模型进行处理。由于使用多样化的模态进行训练非常困难,我们提出了各种架构改进方法来稳定模型。我们从多个来源的大规模多模态预训练语料库中,利用多模态混合去噪目标对模型进行了从头训练。为了学习广泛的技能,例如遵循多模态指令,我们构建了一个包含 120 个现有数据集的集合,并进行了提示和增强。通过一个统一的模型,Unified-IO 2 在 GRIT 基准测试中达到了最先进的性能,并在 30 多个基准测试中取得了强大的结果,包括图像生成和理解、文本理解、视频和音频理解以及机器人操作等领域。
项目主页:https://unified-io-2.allenai.org
GitHub 地址:https://github.com/allenai/unified-io-2
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2023-12-30