AI PC装机指南

讯飞星火多模态交互大模型正式上线，数字人、语音、视觉支持一键调用

2024年11月14日

/

文章目录[隐藏]

主要特点
用户体验
应用场景

今天傍晚，“讯飞开放平台”公众号宣布，讯飞星火多模态交互大模型正式上线。这一大模型不仅实现了从语音交互拓展到音视频流实时多模交互，还新增了“多模态、超拟人和个性化”能力，将语音、视觉和数字人交互三者结合，支持一键调用。

主要特点

超拟人数字人技术
- 精准匹配语音内容：数字人的躯干和四肢动作能够精准匹配语音内容，快速生成表情和动作，使 AI 更加栩栩如生。
- 跨模态语义一致性：通过统一文本、语音和表情，实现跨模态的语义一致性，使大模型的情感表达更加真实连贯。
超拟人极速交互
- 端到端建模：采用统一神经网络直接实现语音到语音的端到端建模，响应更快速、流畅。
- 情绪感知和声音变换：能够敏锐感知情绪变化，并根据指令自由变换声音的节奏、大小和人设。
多模态视觉交互
- 全面感知背景场景：能够“听懂世界”“认清万物”，更全面地感知具体背景场景、物流状态等信息。
- 综合判断和回复：通过对任务的理解，结合语音、手势、行为、情绪等进行综合判断，作出合适的回复。

用户体验

语音和视频通话：用户可以与数字人进行语音和视频通话，数字人能够实现自然的语音对话，人物表情也能匹配说话的语句。
多模态识别：数字人支持多模态交互，能够识别摄像头中的内容，如孙悟空和奥特曼站在一起、面霜的品牌和作用、花的品类等。

应用场景

客户服务：数字人可以用于客户服务，提供更加自然和人性化的交互体验。
教育和培训：在教育和培训领域，数字人可以模拟真实场景，提供互动教学和训练。
娱乐和媒体：在娱乐和媒体领域，数字人可以用于虚拟主播、游戏角色等，提供更加丰富和真实的用户体验。

相关文章