苹果发布自回归视觉模型AIM

52次阅读

共计 269 个字符，预计需要花费 1 分钟才能阅读完成。

来自苹果的团队提出一组使用自回归生成目标进行预训练的视觉模型 AIM，展示了图像特征的自回归预训练具有与文本对应物（即大型语言模型）类似的缩放属性。具体来说，该论文主要有两个发现：模型容量可以轻松地扩展到数十亿个参数；AIM 有效地利用了大量未经筛选的图像数据集。官方今天正式在 huggingface 上释出了模型。