最新研究 Nova:通过迭代规划和搜索的方法,来提升大语言模型生成研究想法的新颖性和多样性 科学的创新对人类进步至关重要,因为它推动了技术、医疗保健和环境可持续性等广泛行业的发展。近年来,大型语言模型(...
最新研究 VidPanos:从随意捕获的旋转视频中合成全景视频,使结果看起来像是用广角相机拍摄的一样 全景图像拼接技术提供了一种统一的广角视角,能够展示超出单个相机视野的场景。然而,将旋转视频的帧缝合成全景照片在...
最新研究 LOGO:通过有效的偏好优化实现长上下文对齐,提升长上下文模型(LCMs)在处理长输入序列时的生成性能 长上下文模型(LCMs)在处理长输入序列方面显示出巨大的潜力,能够处理超过 1 亿个标记的序列。这些模型在上下...
最新研究 卡内基梅隆大学创新代理Beyond Browsing:提升AI代理在网页任务中的表现 AI 代理已成为在网页环境中导航和执行在线购物、项目管理以及内容浏览等任务的重要工具。这些代理通常模拟人类在主...
最新研究 IBM发布 Bee Agent 框架:一个用于大规模构建、部署和服务强大的智能工作流的开源AI框架 近年来,由 AI 驱动的流程和自动化技术取得了显著进步。然而,构建复杂、可扩展且高效的代理工作流仍然是一个重大...
最新研究 阿里达摩院开源智能体CoI-Agent:一键生成科研 idea 的 AI 研究助手 随着科学文献的爆炸性增长,研究人员面临的一个重大挑战是如何高效地跟踪最新进展并提出有意义的研究方向。近期,大语...
最新研究 多图像增强的直接偏好优化(MIA-DPO):一种用于大型视觉-语言模型的有效视觉偏好对齐方法 视觉偏好对齐涉及训练大型视觉 - 语言模型(LVLMs)以预测人类对视觉输入的偏好。现有的方法主要设计用于单图...
最新研究 Hugging Face 推出了开源的、无代码的工具/库AutoTrain 随着开源模型的快速发展,针对特定工业或开源应用在自定义数据集上训练(或微调)模型已成为开发解决方案的关键步骤。...
最新研究 基于 SAM 2的视频对象分割的技术SAM2Long:提高对长视频序列中对象的分割能力 Segment Anything Model 2 (SAM 2) 是一个在图像和视频对象分割领域表现出色的基础...
最新研究 Meta-Chunking:通过更精细的文本分割策略,进一步优化RAG模型的表现 检索增强生成(RAG)作为一种有效补充大语言模型(LLMs)的技术手段,近年来受到了广泛关注。然而,RAG 在...