Hume AI 推出“Voice Control”:无需编码即可定制AI语音

浏览:287次阅读
没有评论

共计 1723 个字符,预计需要花费 5 分钟才能阅读完成。

Hume AI,一家专注于情感智能语音界面的初创公司,推出了名为“Voice Control”的实验性功能。这一工具允许开发者和用户通过精确调节声音特征来创建自定义的 AI 语音,而无需编写代码、进行 AI 提示工程或具备声音设计技能。

基于 EVI 2 的创新

此次发布建立在 Hume 之前推出的 Empathic Voice Interface 2 (EVI 2) 的基础上。EVI 2 引入了自然度、情感响应和定制化方面的先进功能,为用户提供更加细腻和人性化的语音交互体验。EVI 2 和 Voice Control 都避免了声音克隆的风险,Hume 的联合创始人 Alan Cowen 曾指出,声音克隆在伦理和实际操作上存在挑战。相反,Hume 专注于提供创建独特、富有表现力的语音工具,以满足用户需求,如客服聊天机器人、数字助手、导师、指南或无障碍功能。

从预设 AI 语音到定制化解决方案

Voice Control 允许开发者在 10 个不同的维度上调整声音,这些维度包括:

  • 阳刚 / 阴柔:性别的发声,介于更阳刚和更阴柔之间。
  • 果断性:声音的坚定程度,介于胆怯和大胆之间。
  • 活力:声音的密度,介于消沉和活跃之间。
  • 自信:声音的确定性,介于害羞和自信之间。
  • 热情:声音中的兴奋程度,介于平静和热情之间。
  • 鼻音:声音的开放程度,介于清晰和鼻音之间。
  • 放松度:声音中的压力,介于紧张和放松之间。
  • 平滑度:声音的质感,介于平滑和断续之间。
  • 温度:声音背后的活力,介于温吞和有力之间。
  • 紧密度:声音的包容性,介于紧绷和轻松之间。

这个无代码工具允许用户通过虚拟屏幕上的滑块实时微调声音属性。目前,它可以在 Hume 的虚拟游乐场中使用,用户需要免费注册才能访问。

解决 AI 行业的关键痛点

这次发布解决了 AI 行业的一个关键痛点:对预设语音的依赖。这些预设语音往往无法满足品牌或应用的特定需求,或者与声音克隆相关的风险。通过 Voice Control,Hume 为开发者提供了更大的灵活性和控制权,使他们能够创建符合特定场景和用户需求的定制化语音。

情感科学驱动的产品开发

Hume 的研究驱动方法在其产品开发中扮演着核心角色。这家由前 Google DeepMind 研究员 Alan Cowen 共同创立的公司,利用了一种基于跨文化声音录音与情感调查数据相结合的专有模型。这种方法植根于情感科学,构成了 EVI 2 和刚刚推出的 Voice Control 的支柱。Voice Control 通过解决人类对声音的细微、往往是难以言喻的感知方式,扩展了这些原则。该工具的滑块界面反映了声音的常见感知属性,如活力或果断性,而无需尝试通过基于文本的提示来简化这些属性。

开发者工具

Voice Control 目前以 beta 版本提供,并与 Hume 的 Empathic Voice Interface (EVI)集成,使其适用于广泛的应用。开发者可以选择一个基础声音,调整其特征,并实时预览结果。这个过程确保了会话间的可重复性和稳定性,这对于客服机器人或虚拟助手等实时应用来说是关键特性。

EVI 2 的影响在 Voice Control 的功能中显而易见。早期的模型引入了如会话提示和多语言能力等功能,扩大了语音 AI 应用的范围。例如,EVI 2 支持亚秒级的响应时间,使对话自然且即时。它还允许在互动过程中动态调整说话风格,使其成为企业的多功能工具。

在竞争激烈的市场中脱颖而出

Hume 专注于语音定制和情感智能,使其在语音 AI 领域成为强大的竞争对手,即使面对资金雄厚的对手,如 OpenAI 的 Advanced Voice Mode 和 ElevenLabs,它们都提供预设语音库。Hume 继续在其创新的语音 AI 方法上发展。扩展 Voice Control 的计划包括引入额外的可修改维度,细化在极端调整下的声音质量,以及增加可用的基础声音范围。

随着 Voice Control 的推出,Hume 加强了自己作为语音 AI 创新领导者的地位,提供优先考虑定制化、情感智能和实时适应性的工具。开发者今天就可以通过 Hume 的平台访问 Voice Control,标志着 AI 驱动语音解决方案演变的又一步。

正文完
关注公众号获取最新教程
post-qrcode
 0
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 于2024-12-05发表,共计1723字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。