AI短讯 - AI·新世界

来自美国卡内基梅隆大学、日本本田研究所的研究人员推出新型开放源代码的语音模型这篇论文介绍了一个名为 OWSM v3.1（Open Whisper-style Speech Model），旨在提高语音识别和翻译的性能和效率。OWSM v3.1 是在之前 OWSM 模型的基础上进行改进的，它在不增加额外训练数据的情况下，通过使用更先进的 E -Branchformer 编码器来提升性能。

论文地址：https://arxiv.org/abs/2401.16658
Demo 地址：https://huggingface.co/spaces/pyf98/OWSM_v3_demo

主要特点：

性能提升 ：OWSM v3.1 在多种评估基准测试中表现出色，尤其是在英语自动语音识别（ASR）、多语言 ASR、语音翻译（ST）和口语理解（SLUE-PERB）测试集中。
推理速度加快 ：与之前的 OWSM v3 模型相比，OWSM v3.1 在推理（即模型执行任务时）速度上提高了 16% 到 25%。
公开透明 ：研究者公开了数据准备脚本、预训练模型和训练日志，以促进透明度和开放科学。

工作原理： OWSM v3.1 的核心是 E -Branchformer 编码器，它结合了并行分支来捕获语音特征序列中的局部和全局上下文信息，并与卷积合并。这种架构在大规模多语言、多任务和长形式数据上训练时表现出更稳定的收敛性。为了加速和稳定大型 E -Branchformer 模型的训练，研究者提出了一种新颖的分段线性学习率调度策略，并在训练过程中采用了 FlashAttention 技术。

具体应用场景：

自动语音识别（ASR）：OWSM v3.1 可以用于提高各种语言的语音识别准确率。
语音翻译（ST）：模型支持多种语言之间的语音翻译，提高了翻译的质量和速度。
口语理解（SLU）：在情感分析、命名实体识别、命名实体定位和对话行为分类等任务中，OWSM v3.1 展示了其强大的编码器能力。
多语言支持 ：OWSM v3.1 支持 151 种语言，适用于全球范围内的语音处理任务。

OWSM v3.1 是一个在性能和效率上都有显著提升的开放源代码语音模型，它为语音处理领域的研究和应用提供了一个强大的工具。

AI小诸葛

Meta 推出一种新音频水印技术 AudioSeal，这是一种用于检测和定位人工智能（AI）生成的语音内容的水印技术。这项技术特别设计用来对抗语音克隆的风险，确保音频内容的真实性。在语音生成模型迅速发展的今天，确保音频的真实性以防止语音克隆的风险变得越来越重要。AudioSeal 在检测的稳健性、定位的精准性和检测速度方面都取得了最先进的结果。此外，AudioSeal 还可以支持多比特水印，允许将音频归因到特定的模型版本，而不会影响检测信号。

GitHub 地址：https://github.com/facebookresearch/audioseal
论文地址：https://arxiv.org/abs/2401.17264

实时检测与定位：AudioSeal 能够在音频中嵌入几乎不可察觉的水印，这些水印可以在音频的任何部分被精确检测到，甚至可以定位到音频中 AI 生成的特定片段。
高鲁棒性：这项技术对真实世界中的音频操作有很强的鲁棒性，即使在音频经过编辑（如时间修改、滤波、压缩等）后，仍能保持水印的完整性。
快速检测：AudioSeal 的检测速度非常快，比现有的水印模型快两个数量级，这对于大规模和实时应用来说非常理想。

AudioSeal 使用一个生成器 / 检测器架构，这个架构通过联合训练来实现局部水印检测。生成器负责创建一个水印信号，将其添加到输入音频中。检测器则输出输入音频中每个样本是否存在水印的概率。训练过程中，模型会优化两个目标：最小化原始音频和加水印音频之间的感知差异，同时最大化水印检测的准确性。此外，AudioSeal 还支持多比特水印，允许将音频内容链接到特定的用户或生成模型。

社交媒体平台：在社交媒体上，AudioSeal 可以帮助平台检测和标记 AI 生成的语音内容，防止虚假信息的传播。
法律和监管：在法律和监管领域，这项技术可以用来追踪和验证音频证据的真实性，确保法庭证据的合法性。
内容创作和版权保护：内容创作者可以使用 AudioSeal 来标记他们的作品，防止未经授权的复制和分发。
安全通信：在需要高度安全性的通信中，AudioSeal 可以确保语音消息的真实性和来源的可追溯性。

总的来说，AudioSeal 是一种适用于语音合成 API 的现成可用的解决方案，可实现大规模内容溯源，并可及时检测和消除诸如美国选民 Deepfake 案例等事件。

AI小诸葛

AutoMathText 是一个包含 200GB 的数学文本数据集，它是从包括各种网站、arXiv 和 GitHub（OpenWebMath, RedPajama, Algebraic Stack）在内的多样化平台汇编而成的，资源库是由最先进的开源语言模型 Qwen-72B 自主选择（标注）的。数据集中的每条内容都被分配了一个 lm_q1q2_score 分数，范围在 [0, 1] 之间，反映了其在数学智能背景下相关性的高低、质量的优劣和教育价值的大小。此数据集支持文本生成和问答等任务，特别适合用于开发和测试能够理解和生成数学相关内容的模型。

数据集下载：https://huggingface.co/datasets/math-ai/AutoMathText

AI小诸葛

WhisperKit 是一个 Swift 包，它将 OpenAI 的流行 Whisper 语音识别模型与苹果的 CoreML 框架集成，用于在苹果设备上进行高效、本地的推理转录。

详细：https://takeargmax.com/blog/whisperkit
模型地址：https://huggingface.co/argmaxinc/whisperkit-coreml
GitHub 地址：https://github.com/argmaxinc/WhisperKit
测试地址：https://testflight.apple.com/join/LPVOyJZW

轻松部署：仅需 2 行代码，就可以在应用程序中集成 Whisper 语音识别功能。
实时语音转录：适用于需要快速响应的应用场景，比如实时字幕生成、会议记录或即时通讯。
流式转录应用：支持在 iPhone、Mac 上进行流式语音转录，边录音边转写，无需等待。
自定义行为实现：由于其模块化和可扩展的设计，开发者可以根据自己的需求定制和扩展 WhisperKit 的功能，比如添加特定的语言模型或适应特殊的语音识别场景。
性能优化：通过专门针对音频编码器的优化，WhisperKit 能够在 iPhone 12 至 iPhone 15 等设备上实现更快的处理速度，减少了预测延迟。WhisperKit 针对 Apple Silicon 进行了特别的性能优化，确保了在苹果设备上能够以最低的延迟实现最高的吞吐量，特别是对于实时应用。
开源模型支持：项目提供了多个兼容模型的支持，并且允许开发者通过 API 下载和使用这些模型，使得部署和更新过程更加便捷。

AI小诸葛

OpenAI 今日宣布 GPT Mentions 功能现已上线。该功能支持用户在 ChatGPT 对话界面通过输入 @并选择 GPT 的方式，调用不同 GPTs，还支持不同 GPT 共享上下文内容。

AI小诸葛

来自阿里和北京交通大学的研究人员推出了自主多模态移动设备代理 Mobile-Agent。这个代理基于多模态大型语言模型（MLLM），能够通过视觉感知工具来准确识别和定位移动应用前端界面中的视觉和文本元素。Mobile-Agent 能够根据感知到的视觉内容自主规划和分解复杂的操作任务，并逐步导航移动应用进行操作。与传统依赖于应用或移动系统元数据的方法不同，Mobile-Agent 通过视觉为中心的方式提高了在多样化移动操作系统环境中的适应性，从而消除了对系统特定定制的需求。

GitHub 地址：https://github.com/X-PLUG/MobileAgent
论文地址：https://huggingface.co/papers/2401.16158

主要特点：

视觉感知能力： 利用 OCR（光学字符识别）工具和图标检测工具，Mobile-Agent 能够在屏幕上准确定位文本和图标。
自主规划： 基于截图、用户指令和操作历史，Mobile-Agent 能够自主规划任务的每一步。
自我反思： 在执行过程中，如果遇到错误或无效操作，Mobile-Agent 能够进行自我反思并纠正错误。
多应用操作： Mobile-Agent 能够处理涉及多个应用的复杂指令，如在不同应用间传递信息。

工作原理： Mobile-Agent 的工作流程包括以下几个步骤：

视觉感知： 使用 OCR 和图标检测工具来识别屏幕上的文本和图标。
操作执行： 根据用户指令，Mobile-Agent 定义了 8 种操作，如打开应用、点击文本、输入文本等。
自我规划： Mobile-Agent 通过迭代过程，每次迭代都会根据当前屏幕截图、操作历史和系统提示来生成下一步操作。
自我反思： 如果操作无效或错误，Mobile-Agent 会尝试替代操作或修改当前操作的参数。如果操作完成后，代理会检查是否完全遵循了用户指令。

具体应用场景： Mobile-Agent 可以在多种场景中应用，例如：

电子商务： 在购物应用中搜索商品、添加到购物车或完成购买。
音乐和视频： 在音乐应用中搜索特定歌手的歌曲或在视频应用中搜索并评论视频。
社交和通讯： 发送电子邮件、管理社交媒体账户或在聊天应用中发送消息。
导航和地图： 使用地图应用进行导航或搜索附近的地点。
游戏： 在游戏中执行操作，如玩扑克牌游戏。
多语言支持： 处理中文等非英语场景，尽管目前 GPT-4V 在处理中文方面可能存在局限性。

总的来说，Mobile-Agent 展示了作为一个多模态、自主的移动设备代理的强大潜力，能够在多种应用场景中执行复杂的用户指令。

AI小诸葛

来自苹果的研究人员提出了一种新的方法 OGEN，来提高微调模型的开放域泛化能力，通过引入一个类条件特征生成器（class-conditional feature generator）来合成未知类别的特征，这些特征仅基于未知类别的名称。这样的合成特征有助于在优化过程中为未知类别提供有用的知识，从而帮助模型在已知类别（ID）和未知类别（OOD）之间建立更可靠的决策边界。此外，OGEN 还采用了自适应自蒸馏（adaptive self-distillation）机制，以进一步减少过拟合并提高模型的泛化能力。

论文地址：https://arxiv.org/abs/2401.15914

主要特点：

类条件特征生成器： 能够根据未知类别的名称生成图像特征，这些特征有助于模型学习如何处理未知数据。
自适应自蒸馏： 在优化过程中，通过自适应地从早期训练周期中选择“教师模型”来指导当前的“学生模型”，以防止过拟合。
提高 OOD 泛化性能： 在不同的设置下，OGEN 方法能够显著提高模型在处理未知类别时的性能。

工作原理： OGEN 的工作流程包括以下几个关键步骤：

特征合成： 使用类条件特征生成器，根据已知类别的相似性，从已知类别中“外推”（extrapolate）出未知类别的特征。
联合优化： 将已知类别和合成的未知类别特征一起用于模型的联合优化，以改善决策边界。
自适应自蒸馏： 在训练过程中，动态地选择过去的模型检查点（checkpoints）作为教师模型，以指导当前的学生模型，确保在提高 OOD 泛化能力的同时，不会损害 ID 性能。

具体应用场景： OGEN 方法可以应用于多种场景，包括但不限于：

图像分类： 在图像分类任务中，OGEN 可以帮助模型更好地识别和处理那些在训练集中未出现过的新类别。
视觉问答（VQA）： 在视觉问答系统中，OGEN 可以提高模型对未知视觉概念的理解和回答能力。
内容创作： 在自动内容生成领域，OGEN 可以帮助生成器理解并创作出新颖且多样化的内容。
安全监控： 在安全监控系统中，OGEN 可以提高模型对异常行为的检测能力，即使这些行为在训练数据中未曾出现。

总的来说，OGEN 通过有效地模拟未知类别的特征和自适应地调整模型优化过程，显著提升了视觉 - 语言模型在开放域数据上的泛化能力。

AI小诸葛

来自苹果的研究人员提出了一种名为 Web Rephrase Augmented Pre-training（WRAP）的方法，旨在提高大型语言模型（LLM）的训练效率和数据使用效率。WRAP 的核心思想是通过使用现成的指令调整模型（instruction-tuned model）来重新表述网络上的文档，使其更符合特定的风格，比如“像维基百科”或“问答格式”，然后将这些重新表述的内容与真实数据结合起来，共同用于预训练 LLM。

论文地址：https://arxiv.org/abs/2401.16380

简介： WRAP 方法通过改进数据预处理步骤，使得模型在训练过程中能够更有效地学习。这种方法特别适用于处理网络上的大量、结构松散、表述不清晰的数据。通过这种方式，WRAP 能够在保持数据多样性的同时，提高模型在各种自然语言处理任务上的性能。

主要特点：

数据增强： WRAP 通过生成合成数据来增强真实数据，这些合成数据在风格上与真实数据相似，但在质量上更高，有助于模型更好地学习。
风格多样性： WRAP 支持多种重新表述风格，如简单、中等、困难和问答风格，这有助于模型适应不同的下游任务。
计算和数据效率： WRAP 能够在较少的计算资源和数据量下，实现与使用更多真实数据相当的训练效果。

工作原理： WRAP 的工作流程包括以下几个步骤：

数据选择： 从网络爬取的数据（如 C4 数据集）通常包含噪声和不规范的文本。
风格化重新表述： 使用一个预训练的 LLM，根据给定的指令（如“像维基百科”或“问答格式”）来重新表述这些数据。
合成数据生成： 生成的重新表述文本与原始数据结合，形成新的训练数据集。
模型训练： 使用这个混合数据集来训练 LLM，模型在预训练过程中会学习到更多样化的文本风格和高质量的内容。

具体应用场景： WRAP 可以应用于多种场景，包括但不限于：

语言模型预训练： 提高预训练语言模型的性能，尤其是在数据资源有限的情况下。
问答系统： 通过生成问答格式的合成数据，增强模型在问答任务上的表现。
内容创作： 为社交媒体、新闻网站等生成风格一致、质量较高的内容。
教育和研究： 在教育领域，WRAP 可以帮助生成适合不同阅读水平的学习材料，或者为研究人员提供高质量的文献摘要。

总的来说，WRAP 通过巧妙地结合真实数据和合成数据，为大型语言模型的训练提供了一种新的、高效的解决方案。

AI小诸葛

WhisperFusion 是在 WhisperLive（把声音转文字）和 WhisperSpeech（理解这些文字）的基础上，还整合了 Mistral 模型，增强对转录文本上下文的理解，让你和 AI 机器人无缝语音对话。LLM 和 Whisper 都经过了优化，以 TensorRT 引擎的形式高效运行，最大化性能和实时处理能力。而 WhisperSpeech 则使用 torch.compile 进行了优化。

GitHub 地址：https://github.com/collabora/WhisperFusion

功能特点：

实时语音转文字：利用 OpenAI WhisperLive 将口语实时转换为文字。
大型语言模型集成：加入 Mistral 大型语言模型，增强对转录文字的理解和上下文把握。
TensorRT 优化：LLM 和 Whisper 都被优化为 TensorRT 引擎，确保高性能和低延迟处理。
torch.compile：WhisperSpeech 使用 torch.compile 加速推理，通过即时编译 PyTorch 代码为优化后的内核，使 PyTorch 代码运行得更快。

AI小诸葛

增强的提示理解能力：Niji V6 致力于理解并将各种主题转化为动漫风格的视觉作品，即使是一些平时动漫里不常见的主题。
文本写入支持：用户现在可以在生成的图片中加入简单文本，提供更多创作的自由度和表达能力。
非动漫风格选项（RAW 模式）：如果你想要的不只是动漫风格，Niji V6 还有一个“RAW 模式”，可以生成看起来更真实的图片。
Explain to Niji：如果 Niji V6 不理解某个概念，用户可以通过解释来帮助它理解。
即将推出的新特性：计划在 2 月底的全面发布中引入一系列新功能，如 vary(Region 调整图片的某个部分)、pan（移动）和 zoom（缩放），进一步增强用户体验和创作灵活性。