最新研究 Meta联手顶尖学府推出新型框架Agent-to-Sim(ATS):通过分析长时间连续录制的视频资料,自动学习并构建三维空间内生物体(如动物或人类)的行为模型 Meta 公司与卡内基梅隆大学及加州大学伯克利分校的研究团队共同发布了一项创新成果——Agent-to-Sim...
最新研究 动态压缩方法EvoPress:通过动态调整模型的压缩级别来优化大型视频理解模型 大语言模型(LLMs)的高计算成本促使研究人员探索各种压缩方法,如量化、稀疏化和结构化修剪。这些方法旨在减少模...
最新研究 用于视频的多模态语言模型xGen-MM-Vid(BLIP-3-Video):用于高效捕捉多帧之间的时间信息 Salesforce AI 研究所推出一种用于视频的多模态语言模型 xGen-MM-Vid(BLIP-3-Vi...
最新研究 新型视觉冗余减少策略PyramidDrop:提高大型视觉语言模型(LVLMs)效率的新策略 大型视觉语言模型(LVLMs)能够处理图像和文本,实现多模态理解和生成任务。然而,图像作为输入携带了丰富的信息...
最新研究 Google DeepMind推出扩散模型预测控制(D-MPC):结合多步动作提案和动力学模型 模型预测控制(MPC)是一种利用动力学模型和规划器在规划时域内最大化目标函数来选择动作的方法。MPC 的灵活性...
最新研究 Diffusion Curriculum (DisCL):通过图像引导实现合成到真实的生成课程学习 在深度学习领域,低质量或稀缺的数据一直是训练高效模型的主要障碍。传统的数据增强方法往往只能提供有限的帮助,而无...
最新研究 IBM 推出第三代 Granite 大语言模型Granite 3.0,加速企业 AI 发展 IBM 在企业 AI 领域的布局正在加速。今天,IBM 宣布推出第三代 Granite 大语言模型(LLMs)...