共计 771 个字符,预计需要花费 2 分钟才能阅读完成。
文章目录[隐藏]
字节跳动的研究团队最近推出了 Tarsier2,一款拥有 70 亿参数的大型视觉语言模型(LVLM),专门针对视频理解中的核心挑战。视频理解一直是人工智能领域的一个复杂问题,因为它不仅需要处理图像信息,还需要理解和分析时间动态和时空关系。
视频理解的核心挑战
与静态图像不同,视频包含了大量的时间和空间信息,这对模型提出了更高的要求。不仅要准确地描述视频内容,还要能够回答关于视频的具体问题,并且避免“幻觉”——即模型虚构细节的问题。尽管已有像 GPT-4o 和 Gemini-1.5-Pro 这样的先进模型,但实现真正的人类级别的视频理解仍然面临诸多障碍。
Tarsier2 的技术创新与优势
Tarsier2 通过一系列技术创新解决了上述挑战:
- 架构设计:Tarsier2 由视觉编码器、视觉适配器和一个大型语言模型组成,这三个组件共同工作以提高视频理解能力。
- 三阶段训练过程:
- 预训练:使用了一个包含 4000 万个视频 - 文本对的数据集进行预训练,这些数据覆盖了从低级动作到高级情节的各种细节。
- 监督微调(SFT):在这一阶段,Tarsier2 进行了细粒度的时间对齐,确保事件与相应的视频帧精确匹配,从而减少幻觉并提高准确性。
- 直接偏好优化(DPO):利用自动生成的偏好数据来优化模型决策,进一步减少幻觉现象。
结果与洞察
Tarsier2 在多个基准测试中展现了卓越的表现。例如,在 DREAM-1K 数据集上,它的 F1 分数比 GPT-4o 高出了 2.8%,比 Gemini-1.5-Pro 高出 5.8%。此外,人类评估显示其性能比 GPT-4o 高出 8.6%,比 Gemini-1.5-Pro 高出 24.9%。它还在 E.T. Bench-Grounding 测试中以 35.5% 的平均 F1 分数领先,展示了其在时间理解方面的强大能力。
正文完
关注公众号获取最新教程