最新研究 阿里达摩院开源智能体CoI-Agent:一键生成科研 idea 的 AI 研究助手 随着科学文献的爆炸性增长,研究人员面临的一个重大挑战是如何高效地跟踪最新进展并提出有意义的研究方向。近期,大语...
最新研究 多图像增强的直接偏好优化(MIA-DPO):一种用于大型视觉-语言模型的有效视觉偏好对齐方法 视觉偏好对齐涉及训练大型视觉 - 语言模型(LVLMs)以预测人类对视觉输入的偏好。现有的方法主要设计用于单图...
最新研究 Hugging Face 推出了开源的、无代码的工具/库AutoTrain 随着开源模型的快速发展,针对特定工业或开源应用在自定义数据集上训练(或微调)模型已成为开发解决方案的关键步骤。...
最新研究 基于 SAM 2的视频对象分割的技术SAM2Long:提高对长视频序列中对象的分割能力 Segment Anything Model 2 (SAM 2) 是一个在图像和视频对象分割领域表现出色的基础...
最新研究 Meta-Chunking:通过更精细的文本分割策略,进一步优化RAG模型的表现 检索增强生成(RAG)作为一种有效补充大语言模型(LLMs)的技术手段,近年来受到了广泛关注。然而,RAG 在...
最新研究 Meta联手顶尖学府推出新型框架Agent-to-Sim(ATS):通过分析长时间连续录制的视频资料,自动学习并构建三维空间内生物体(如动物或人类)的行为模型 Meta 公司与卡内基梅隆大学及加州大学伯克利分校的研究团队共同发布了一项创新成果——Agent-to-Sim...
最新研究 动态压缩方法EvoPress:通过动态调整模型的压缩级别来优化大型视频理解模型 大语言模型(LLMs)的高计算成本促使研究人员探索各种压缩方法,如量化、稀疏化和结构化修剪。这些方法旨在减少模...
最新研究 用于视频的多模态语言模型xGen-MM-Vid(BLIP-3-Video):用于高效捕捉多帧之间的时间信息 Salesforce AI 研究所推出一种用于视频的多模态语言模型 xGen-MM-Vid(BLIP-3-Vi...