最新研究 用于视频的多模态语言模型xGen-MM-Vid(BLIP-3-Video):用于高效捕捉多帧之间的时间信息 Salesforce AI 研究所推出一种用于视频的多模态语言模型 xGen-MM-Vid(BLIP-3-Vi...