能看懂电影的大模型!香港中文大学贾佳亚团队推出的多模态大模型LLaMA-VID

205次阅读
没有评论

共计 723 个字符,预计需要花费 2 分钟才能阅读完成。

由香港中文大学贾佳亚团队推出的多模态大模型 LLaMA-VID 近期上架 GitHub,LLaMA-VID 支持单图、短视频甚至长达 3 小时电影的输入处理,大模型可以读懂图甚至是一部电影,你可以与它进行聊天让它为你总结,贾佳亚团队重新设计了图像的编码方式,采用上下文编码 (Context Token) 和图像内容编码 (Content Token) 来对视频中的单帧进行编码,从而将视频中的每一帧用 2 个 Token 来表示。

这是贾佳亚团队自 8 月提出主攻推理分割的 LISA 多模态大模型、10 月发布的 70B 参数长文本开源大语言模型 LongAlpaca 和超长文本扩展术 LongLoRA 后的又一次重磅技术更新。而 LongLoRA 只需两行代码便可将 7B 模型的文本长度拓展到 100k tokens,70B 模型的文本长度拓展到 32k tokens 的成绩收获了无数好评。

项目地址:https://llama-vid.github.io

GitHub 地址:https://github.com/dvlab-research/LLaMA-VID

Demo 地址:http://103.170.5.190:7864

模型地址:https://huggingface.co/YanweiLi

能看懂电影的大模型!香港中文大学贾佳亚团队推出的多模态大模型 LLaMA-VID

目前 Demo 仅支持短视频,如果你在本地安装此应用,那么定制短视频聊天,请选择 llama-vid-vicuna-7b-short 模型;如果您想与预加载的长电影聊天,请选择 llama-vid-vicuna-7b-long 模型,官方演示是在单个 3090 GPU 中实现,在该演示中支持 30 分钟的视频,所以大家还是看下自己的显卡是否支持吧!目前聊天也仅支持英文,官方给出的安装步骤也是针对 Linux,如果感兴趣大家可以自行研究。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-12-11发表,共计723字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。