最新研究 - 第6页 - AI·新世界

新型视觉冗余减少策略PyramidDrop：提高大型视觉语言模型（LVLMs）效率的新策略

最新研究 新型视觉冗余减少策略PyramidDrop：提高大型视觉语言模型（LVLMs）效率的新策略

大型视觉语言模型（LVLMs）能够处理图像和文本，实现多模态理解和生成任务。然而，图像作为输入携带了丰富的信息...

Cohere 推出多模态嵌入Embed 3：增强企业搜索能力

最新研究 Cohere 推出多模态嵌入Embed 3：增强企业搜索能力

Cohere 最近在其搜索模型中添加了多模态嵌入功能，允许用户将图像和文本数据部署到检索增强生成（RAG）风格...

Google DeepMind推出扩散模型预测控制（D-MPC）：结合多步动作提案和动力学模型

最新研究 Google DeepMind推出扩散模型预测控制（D-MPC）：结合多步动作提案和动力学模型

模型预测控制（MPC）是一种利用动力学模型和规划器在规划时域内最大化目标函数来选择动作的方法。MPC 的灵活性...

基于音频的端到端会话模型Mini-Omni2：能够实现实时语音互动

最新研究 基于音频的端到端会话模型Mini-Omni2：能够实现实时语音互动

GPT-4o 是一个包罗万象的多模态语言模型，能够理解视觉、听觉和文本模态，并直接输出音频，支持灵活的双工交互...

Diffusion Curriculum (DisCL)：通过图像引导实现合成到真实的生成课程学习

最新研究 Diffusion Curriculum (DisCL)：通过图像引导实现合成到真实的生成课程学习

在深度学习领域，低质量或稀缺的数据一直是训练高效模型的主要障碍。传统的数据增强方法往往只能提供有限的帮助，而无...

IBM 推出第三代 Granite 大语言模型Granite 3.0，加速企业 AI 发展

最新研究 IBM 推出第三代 Granite 大语言模型Granite 3.0，加速企业 AI 发展

IBM 在企业 AI 领域的布局正在加速。今天，IBM 宣布推出第三代 Granite 大语言模型（LLMs）...

谷歌推出高保真图像压缩方法SWYCC：结合自编码器和扩散模型的图像重建方法

最新研究 谷歌推出高保真图像压缩方法SWYCC：结合自编码器和扩散模型的图像重建方法

图像自编码过程中的关键挑战是创建能够保留细节的高质量重建，特别是在图像数据经过压缩的情况下。传统的自编码器依赖...

零样本 3D 对象合成方法ZeroComp

最新研究 零样本 3D 对象合成方法ZeroComp

将 3D 对象无缝地合成到真实场景中是一项具有挑战性的任务，尤其是当缺乏配对的合成场景图像时。传统的 3D 对...

MultiUI：包含来自 100 万个网站的 730 万个样本的数据集

最新研究 MultiUI：包含来自 100 万个网站的 730 万个样本的数据集

卡内基梅隆大学、香港中文大学、北京大学和滑铁卢大学的研究人员推出一个包含来自 100 万个网站的 73...

新大模型架构MoH：以提高效率，同时保持或超越之前的准确性水平

最新研究 新大模型架构MoH：以提高效率，同时保持或超越之前的准确性水平

北京大学电子与计算机工程学院、鹏程实验室、Rabbitpre Intelligence、昆仑 2050 研究中...

新型视频到音乐生成框架MuVi：为视频内容生成与之相匹配的音乐

最新研究 新型视频到音乐生成框架MuVi：为视频内容生成与之相匹配的音乐

浙江大学和阿里巴巴的研究人员推出新型视频到音乐生成框架 MuVi，MuVi 的目标是为视频内容生成与之相匹配的...

评估基准CIIBench：测试多模态大语言模型对中国图像的高阶感知和理解能力

最新研究 评估基准CIIBench：测试多模态大语言模型对中国图像的高阶感知和理解能力

来自华中科技大学、中国科学院深圳先进技术研究院、中国科学技术大学等的研究人员推出评估基准 CIIBench，...