音频水印技术AudioSeal：用于检测和定位人工智能（AI）生成的语音内容

50次阅读

共计 985 个字符，预计需要花费 3 分钟才能阅读完成。

Meta 推出一种新音频水印技术 AudioSeal，这是一种用于检测和定位人工智能（AI）生成的语音内容的水印技术。这项技术特别设计用来对抗语音克隆的风险，确保音频内容的真实性。在语音生成模型迅速发展的今天，确保音频的真实性以防止语音克隆的风险变得越来越重要。AudioSeal 在检测的稳健性、定位的精准性和检测速度方面都取得了最先进的结果。此外，AudioSeal 还可以支持多比特水印，允许将音频归因到特定的模型版本，而不会影响检测信号。

GitHub 地址：https://github.com/facebookresearch/audioseal
论文地址：https://arxiv.org/abs/2401.17264

实时检测与定位：AudioSeal 能够在音频中嵌入几乎不可察觉的水印，这些水印可以在音频的任何部分被精确检测到，甚至可以定位到音频中 AI 生成的特定片段。
高鲁棒性：这项技术对真实世界中的音频操作有很强的鲁棒性，即使在音频经过编辑（如时间修改、滤波、压缩等）后，仍能保持水印的完整性。
快速检测：AudioSeal 的检测速度非常快，比现有的水印模型快两个数量级，这对于大规模和实时应用来说非常理想。

AudioSeal 使用一个生成器 / 检测器架构，这个架构通过联合训练来实现局部水印检测。生成器负责创建一个水印信号，将其添加到输入音频中。检测器则输出输入音频中每个样本是否存在水印的概率。训练过程中，模型会优化两个目标：最小化原始音频和加水印音频之间的感知差异，同时最大化水印检测的准确性。此外，AudioSeal 还支持多比特水印，允许将音频内容链接到特定的用户或生成模型。