AI语音 - AI·新世界

Hugging Face 发布 Moonshine Web：基于浏览器的本地实时语音识别，注重隐私

AI语音 Hugging Face 发布 Moonshine Web：基于浏览器的本地实时语音识别，注重隐私

背景与挑战自动语音识别（ASR）技术的出现改变了人们与数字设备的交互方式。尽管这些系统功能强大，但它们通常需...

Hume AI 推出一款旨在平衡语言准确性与情感理解的语音语言模型OCTAVE

AI语音 Hume AI 推出一款旨在平衡语言准确性与情感理解的语音语言模型OCTAVE

随着语音和语言技术的不断发展，语音助手、转录和情感分析等领域取得了显著进步。然而，许多现有的模型在捕捉人类情感...

Hume AI 推出“Voice Control”：无需编码即可定制AI语音

AI语音 Hume AI 推出“Voice Control”：无需编码即可定制AI语音

Hume AI，一家专注于情感智能语音界面的初创公司，推出了名为“Voice Control”的实验性功能。这...

英伟达发布了一个拥有25亿参数的音频模型Fugatto：能够从文本和音频输入生成音乐、声音和人声

AI语音 英伟达发布了一个拥有25亿参数的音频模型Fugatto：能够从文本和音频输入生成音乐、声音和人声

音乐与声音的创作、编辑及转换不仅是艺术的展现，也是技术的较量。当前，尽管人工智能（AI）已经在多个领域大放异彩...

ElevenLabs推出对话式AI机器人构建功能，强化文本转语音服务

AI语音 ElevenLabs推出对话式AI机器人构建功能，强化文本转语音服务

AI 语音克隆和文本转语音 API 领域的初创公司 ElevenLabs 近日宣布了一项新功能，允许用户在其开...

DeepL推出语音翻译服务：DeepL Voice

AI语音 DeepL推出语音翻译服务：DeepL Voice

DeepL 是一家以其在线文本翻译服务而闻名的德国初创公司，以其翻译的微妙和精确性著称，估值已达 20 亿美元...

Assembly AI 推出新自动语音识别模型Universal-2

AI语音 Assembly AI 推出新自动语音识别模型Universal-2

近年来，自动语音识别（ASR）技术取得了显著进展，正在改变从医疗保健到客户支持等多个行业。然而，在不同的语言、...

Hertz-Dev：一个用于实时对话式AI的开源85亿参数音频模型

AI语音 Hertz-Dev：一个用于实时对话式AI的开源85亿参数音频模型

对话式 AI 如今已成为技术的基石，但实现快速、高效和实时的交互仍然具有挑战性。延迟——即输入和响应之间的延迟...

OuteTTS-0.1-350M：通过纯语言建模简化TTS

AI语音 OuteTTS-0.1-350M：通过纯语言建模简化TTS

近年来，文本到语音（TTS）合成领域取得了快速进展，但仍面临诸多挑战。传统的 TTS 模型通常依赖于复杂的架构...

AI语音 旋律引导音乐生成模型MG²

广西大学商学院和西南财经大学计算机与人工智能学院的研究人员推出旋律引导音乐生成模型 MG²，这是一种新颖的音乐...

Fish Agent:由 FishAudio 推出的一款无需编解码的语音到语音模型，集成了 ASR 和 TTS 功能

AI语音 Fish Agent:由 FishAudio 推出的一款无需编解码的语音到语音模型，集成了 ASR 和 TTS 功能

Fish Agent 是由 FishAudio 推出的一款无需编解码的语音到语音模型，它集成了 ASR 和 T...

新型零样本多语言TTS模型MaskGCT

AI语音 新型零样本多语言TTS模型MaskGCT

最近的大规模文本到语音（TTS）系统通常被分为自回归和非自回归系统。自回归系统隐式地建模持续时间，但在鲁棒性和...