今天傍晚,“讯飞开放平台”公众号宣布,讯飞星火多模态交互大模型正式上线。这一大模型不仅实现了从语音交互拓展到音视频流实时多模交互,还新增了“多模态、超拟人和个性化”能力,将语音、视觉和数字人交互三者结合,支持一键调用。
主要特点
- 超拟人数字人技术
- 精准匹配语音内容:数字人的躯干和四肢动作能够精准匹配语音内容,快速生成表情和动作,使 AI 更加栩栩如生。
- 跨模态语义一致性:通过统一文本、语音和表情,实现跨模态的语义一致性,使大模型的情感表达更加真实连贯。
- 超拟人极速交互
- 端到端建模:采用统一神经网络直接实现语音到语音的端到端建模,响应更快速、流畅。
- 情绪感知和声音变换:能够敏锐感知情绪变化,并根据指令自由变换声音的节奏、大小和人设。
- 多模态视觉交互
- 全面感知背景场景:能够“听懂世界”“认清万物”,更全面地感知具体背景场景、物流状态等信息。
- 综合判断和回复:通过对任务的理解,结合语音、手势、行为、情绪等进行综合判断,作出合适的回复。
用户体验
- 语音和视频通话:用户可以与数字人进行语音和视频通话,数字人能够实现自然的语音对话,人物表情也能匹配说话的语句。
- 多模态识别:数字人支持多模态交互,能够识别摄像头中的内容,如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。
应用场景
- 客户服务:数字人可以用于客户服务,提供更加自然和人性化的交互体验。
- 教育和培训:在教育和培训领域,数字人可以模拟真实场景,提供互动教学和训练。
- 娱乐和媒体:在娱乐和媒体领域,数字人可以用于虚拟主播、游戏角色等,提供更加丰富和真实的用户体验。