最新研究 新型视觉冗余减少策略PyramidDrop:提高大型视觉语言模型(LVLMs)效率的新策略 大型视觉语言模型(LVLMs)能够处理图像和文本,实现多模态理解和生成任务。然而,图像作为输入携带了丰富的信息...
最新研究 Google DeepMind推出扩散模型预测控制(D-MPC):结合多步动作提案和动力学模型 模型预测控制(MPC)是一种利用动力学模型和规划器在规划时域内最大化目标函数来选择动作的方法。MPC 的灵活性...
最新研究 Diffusion Curriculum (DisCL):通过图像引导实现合成到真实的生成课程学习 在深度学习领域,低质量或稀缺的数据一直是训练高效模型的主要障碍。传统的数据增强方法往往只能提供有限的帮助,而无...
最新研究 IBM 推出第三代 Granite 大语言模型Granite 3.0,加速企业 AI 发展 IBM 在企业 AI 领域的布局正在加速。今天,IBM 宣布推出第三代 Granite 大语言模型(LLMs)...
最新研究 谷歌推出高保真图像压缩方法SWYCC:结合自编码器和扩散模型的图像重建方法 图像自编码过程中的关键挑战是创建能够保留细节的高质量重建,特别是在图像数据经过压缩的情况下。传统的自编码器依赖...
最新研究 评估基准CIIBench:测试多模态大语言模型对中国图像的高阶感知和理解能力 来自华中科技大学、中国科学院深圳先进技术研究院、中国科学技术大学 等的研究人员推出评估基准 CIIBench,...