共计 846 个字符,预计需要花费 3 分钟才能阅读完成。
OpenAI 在今年 5 月发布的 GPT-4o 中引入了高级语音功能,该功能可以在短短 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,接近人类对话的响应速度。
经过几个月的延迟,OpenAI 于 9 月开始在美国为 ChatGPT Plus 和 ChatGPT 团队订阅者推出高级语音模式。最近,OpenAI 进一步扩展了这一功能的覆盖范围。
拓展到欧盟用户
覆盖地区:
- ChatGPT 高级语音模式现在对欧盟、瑞士、冰岛、挪威和列支敦士登的所有 ChatGPT Plus 和团队用户可用。
使用方法:
- 用户需要在支持地区的 Google Play 商店和 Apple App Store 下载最新版本的 ChatGPT 应用。
桌面应用支持
平台:
- OpenAI 还宣布了 macOS 和 Windows 上 ChatGPT 桌面应用的高级语音模式可用性。
使用限制:
- OpenAI 对高级语音功能的使用有每日限制,即使在桌面上也是如此。ChatGPT 应用将在你当天剩余 15 分钟高级语音使用时间时通知你。
最新改进
新语音:
- 支持五种新语音:Arbor、Maple、Sol、Spruce 和 Vale。
自定义指令:
- 用户可以设置自定义指令并要求 ChatGPT 记住对话以供日后参考。
多语言支持:
- 在支持的外语中,整体对话速度、流畅度和口音有所改进。
实时 API
DevDay 2024:
- OpenAI 在 DevDay 2024 上宣布了实时 API,这将允许开发者创建类似于 ChatGPT 高级语音模式的语音体验。
定价:
- 实时 API 文本输入令牌每百万 5 美元,输出令牌每百万 20 美元。
- 音频输入每百万 100 美元,输出每百万 200 美元。
随着高级语音模式的扩展和实时 API 的引入,OpenAI 在对话式 AI 方面取得了重大进展,为更多互动和可访问的 AI 体验铺平了道路。这些新功能不仅提升了用户的交互体验,还为开发者提供了强大的工具,以创建更加智能和自然的语音应用。无论是在企业环境中还是日常生活中,这些进步都预示着 AI 技术的未来发展方向。
相关文章
相关文章
正文完
关注公众号获取最新教程
