H2O.ai发布两款视觉语言模型H2OVL Mississippi-2B和H2OVL-Mississippi-0.8B,助力高效文档分析

浏览:188次阅读
没有评论

共计 1354 个字符,预计需要花费 4 分钟才能阅读完成。

H2O.ai 是一家提供开源 AI 平台的公司,今天宣布了两款新的视觉语言模型,旨在改进文档分析和 OCR 任务。这些模型名为 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,展示了与主要科技公司的更大模型相比的竞争性能,可能为处理文档密集型工作流程的企业提供更高效的解决方案。

模型地址:H2OVL Mississippi-2B  H2OVL-Mississippi-0.8B

大卫与歌利亚:小模型智胜科技巨头

  • H2OVL Mississippi-0.8B:仅有 8 亿参数,在 OCRBench 文本识别任务中超越了所有其他模型,包括那些拥有数十亿参数的模型。
  • H2OVL Mississippi-2B:拥有 20 亿参数,在一系列视觉语言基准测试中展示了强大的通用性能。

H2O.ai 的首席执行官兼创始人 Sri Ambati 在接受 VentureBeat 独家采访时表示:“我们设计了 H2OVL Mississippi 模型,以提供高性能且具有成本效益的解决方案,将 AI 驱动的 OCR、视觉理解和文档 AI 带给企业。通过将先进的跨模态 AI 与效率相结合,H2OVL Mississippi 在各个行业中提供了精确、可扩展的文档 AI 解决方案。”

H2O.ai 发布两款视觉语言模型 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,助力高效文档分析
H2O.ai 的新模型 H2OVL Mississippi-0.8B(最右边,黄色)在 OCRBench 数据集的文本识别任务上超越了技术巨头的大型模型,展示了小型、更高效的 AI 模型在文档分析中的潜力。

效率与效果的结合:文档处理的新方法

Ambati 强调了较小、专业化模型的经济优势:“我们对生成预训练变压器的研究方法源于我们在文档 AI 中的深度投资,我们与客户合作,从企业文档中提取意义。这些模型可以在任何地方运行,占用空间小,高效且可持续,允许以极低的成本对特定领域的图像和文档进行微调。”

随着企业寻求更高效的方式来处理和提取大量文档中的信息,这一公告应运而生。传统的 OCR 和文档分析方法通常在处理质量较差的扫描、挑战性的手写或高度修改的文档时遇到困难。H2O.ai 的新模型旨在解决这些问题,同时为特定文档相关任务提供更资源高效的替代方案,而不是使用可能过大的大型语言模型。

H2O.ai 发布两款视觉语言模型 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,助力高效文档分析
在八项单图像基准测试的平均分数比较中,H2O.ai 的新模型 H2OVL Mississippi-2B(黄色)胜过了包括微软和谷歌在内的几个竞争对手。在相似大小的视觉 - 语言模型中,该模型在整体性能上仅次于 Qwen2 VL-2B

行业分析师的观点

行业分析师指出,H2O.ai 的方法可能会颠覆当前由科技巨头主导的格局。通过专注于较小、更专业化的模型,H2O.ai 可能能够占领重视效率和成本效益的企业市场的重要部分。

开源与企业就绪:H2O.ai 的 AI 采用策略

“在 H2O.ai,使 AI 易获取不仅仅是一个想法。它是一种运动,”Ambati 告诉 VentureBeat。“通过发布一系列可以轻松微调到特定任务的小型基础模型,我们正在扩展创建和使用 AI 的可能性。”

H2O.ai 已从包括 Commonwealth Bank、英伟达、Goldman Sachs 和 Wells Fargo 在内的投资者那里筹集了 2.56 亿美元。该公司的开源方法和对实用、企业就绪的 AI 解决方案的关注帮助其建立了超过 20,000 个组织和超过一半的财富 500 强公司作为客户的社区。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-10-19发表,共计1354字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。