基于大型语言模型(LLM)构建的智能体 POK´ELLMON,能够在战术战斗游戏中达到与人类玩家相当的水平,特别是在《宝可梦》(Pokémon)战斗中。POK´ELLMON 的设计融合了三种关键策略:基于上下文的强化学习、知识增强生成和一致性动作生成,以提高其在战斗中的决策能力和策略。

项目主页:https://poke-llm-on.github.io

GitHub 地址:https://github.com/git-disl/PokeLLMon

主要功能:

  • 在《宝可梦》战斗中模拟人类玩家的战术和决策。
  • 通过在线对战,展示与人类玩家相似的战斗策略和即时决策能力。

主要特点:

  1. 基于上下文的强化学习(ICRL):POK´ELLMON 能够即时利用战斗中的文本反馈来迭代优化其策略,无需额外训练。
  2. 知识增强生成(KAG):系统通过检索外部知识(如宝可梦的类型优势关系和招式效果)来减少幻觉(hallucination)现象,确保及时正确的行动。
  3. 一致性动作生成 :在面对强大对手时,系统能够避免恐慌性切换(panic switching)现象,保持一致的行动策略。

工作原理:

  • ICRL:POK´ELLMON 在每次回合中,会根据前一次动作的结果(如宝可梦的 HP 变化、招式的有效性等)来调整其策略。
  • KAG:系统通过检索宝可梦百科(Pokédex)中的信息,了解宝可梦的类型优势和招式效果,以辅助决策。
  • 一致性动作生成 :在面对强大对手时,系统会生成多个动作选项,并通过投票机制选择最一致的动作,避免连续不连贯的切换。

具体应用场景:

  • 在线对战 :POK´ELLMON 可以在《宝可梦》的在线对战平台上与真实玩家对战,展示其人类水平的战斗能力。
  • 游戏 AI 研究 :POK´ELLMON 的设计和实现为研究者提供了一个研究如何让 AI 在复杂战术游戏中达到人类水平的案例。
  • 娱乐和教育 :POK´ELLMON 可以作为游戏玩家的辅助工具,帮助他们理解战术和策略,或者作为教育工具教授玩家如何更好地玩《宝可梦》。

总的来说,POK´ELLMON 展示了如何将大型语言模型应用于游戏领域,特别是在需要策略和即时决策的战术游戏中,它能够达到与人类玩家相媲美的水平。

来自苹果的团队发布论文探讨了在有限领域数据和推理预算下,如何有效地训练专门的语言模型。作者们提出了几种不同的方法来应对这一挑战,包括使用大型预训练模型(LLM)、小型模型(SLM)、混合专家模型(Mixture of Experts)、超网络(Hyper-networks)以及重要性采样(Importance Sampling)。这些方法旨在在保持低推理成本的同时,提高模型在特定领域的性能。

论文地址:https://arxiv.org/abs/2402.01093

主要功能:

  • 提高语言模型在特定领域(如科学文章、法律文本、医疗摘要等)的性能。
  • 在有限的领域数据和推理资源下,实现模型的高效训练和部署。

主要特点:

  • 分辨了预训练成本(在目标领域未知时的训练)和专业化训练成本(在目标领域已知后的训练)。
  • 比较了不同方法在不同训练成本下的效率,特别是在推理成本受限的情况下。
  • 提出了使用超网络和混合专家模型在大型预训练预算下的优势,以及在大型专业化预算下,小型模型在重要性采样数据集上训练的吸引力。

工作原理:

  1. 大型模型(LLM):在通用数据集上训练大型语言模型,然后在特定领域上进行微调。这种方法需要较高的预训练成本,但不需要领域特定的数据。
  2. 小型模型(SLM):在通用数据集上预训练小型模型,然后在特定领域上进行微调。这种方法的推理成本低,但预训练性能可能不如大型模型。
  3. 混合专家(SLM-mix):将大型预训练数据集分成多个子集,每个子集上预训练一个小型模型。在专业化阶段,选择与特定领域最相关的子集模型进行微调。
  4. 超网络(SLM-hn):使用超网络创建专家的混合,超网络根据输入生成子网络的权重。在专业化阶段,可以选择最相关的专家进行微调。
  5. 重要性采样(SLM-is):在专业化数据集可用后,从未预训练的模型开始,通过重要性采样从通用数据集中选择与特定领域分布匹配的数据进行训练。

具体应用场景:

  • 多领域应用 :在需要模型适应多个不同领域(如客户服务、医疗咨询、法律咨询等)的场景中,可以有效地训练和部署模型。
  • 资源受限环境 :在移动设备或边缘计算环境中,需要低推理成本的高效模型。
  • 快速部署 :在需要快速适应新领域或快速部署新模型的场景中,这些方法可以提供快速的训练和部署路径。

总的来说,这篇论文为在资源有限的情况下如何有效地训练和部署语言模型提供了多种策略,特别是在推理成本和领域数据有限的情况下。

音频生成模型 EVA-GAN,它是一种基于可扩展生成对抗网络架构的音频生成技术。EVA-GAN 旨在通过扩大模型规模、增强结构和采用更大规模的数据集来显著改善音频生成的质量,特别是针对音乐和歌唱合成中高保真度(44.1kHz)音频的制作。

论文地址:https://arxiv.org/abs/2402.00892

Demo 地址:https://double-blind-eva-gan.cc

主要功能:

  • 生成高质量的音频波形,包括音乐和人声。
  • 处理和生成多种类型的音频,如唱歌、说话、乐器声音等。

主要特点:

  • 使用了大规模的 36,000 小时 44.1kHz 音频数据集,这是目前神经编码器中使用的最大模型和数据集。
  • 引入了一种新颖的上下文感知模块(CAM),在几乎不增加计算负担的情况下显著提升了模型性能。
  • 采用了一种创新的训练流程,包括更长的上下文窗口、损失平衡器、梯度检查点和改进的激活函数,以提高训练稳定性、减少内存使用,并最小化手动超参数调整的需求。
  • 构建了一个新的人类参与循环(Human-In-The-Loop)的 SMOS(Similarity Mean Option Score)评估工具包,用于监控和确保生成音频与人类主观感知的一致性。

工作原理: EVA-GAN 基于 GAN 架构,包括一个生成器和一个判别器。生成器的任务是将 Mel 频谱图转换为未经处理的音频波形,而判别器则评估生成的音频与真实音频之间的差异。EVA-GAN 通过扩大模型规模、增加上下文窗口、引入 CAM 模块以及优化训练流程来提升性能。此外,EVA-GAN 还采用了 TensorFloat-32 精度训练,以提高训练速度并保持稳定性。

具体应用场景:

  • 语音合成: 生成逼真的人声,用于语音助手、虚拟角色或自动化客服系统。
  • 音乐制作: 创建新的音乐作品或模拟特定艺术家的声音风格。
  • 音频增强: 提升现有音频的质量,如去除噪声或提高清晰度。
  • 娱乐和媒体: 在电影、游戏和广播中生成高质量的音频内容。
  • 教育和研究: 创建教学材料或进行语音和音乐的科学研究。

EVA-GAN 通过其先进的音频生成能力,为音频领域的各种应用提供了强大的支持,特别是在需要高质量音频生成的场景中。

Stable Video Diffusion (SVD) 模型发布 1.1 版,与前一代相比,主要变化包括:

  • 微调优化:通过特定条件下的微调,提高了视频输出的一致性和质量。
  • 改进的生成性能:在生成视频的清晰度、分辨率以及帧数上可能有所改进,提供更加流畅和高质量的视觉体验。
  • 固定条件下的性能提升:通过在固定条件下进行微调,SVD 1.1 在特定设置下展现出比先前版本更优的性能,这包括更好的运动一致性和视觉效果,同时保持了条件的可调整性,以适应不同的应用需求。
  • 适应性和局限性:SVD 1.1 继续探索模型的适应性和局限性,鼓励负责任使用。

下载地址:https://huggingface.co/stabilityai/stable-video-diffusion-img2vid-xt-1-1

HeyGen 推出实时视频聊天功能,你可以用文字可以和机器人对话,然后机器人有一个具象的形象,它可以通过视频来和你聊天!视频里的人物、声音和回答都是 AI 生成的的!现在你可以和 HeyGen CEO 的 AI 分身进行实时视频聊天,你打字他会用视频回答你!

地址:https://labs.heygen.com/guest/streaming-avatar

HeyGen 推出实时视频聊天功能

 

Hugging Face 上的一个在线趣味小应用 Image to Music V2,可以根据你上传的图片生成音乐提示词,然后使用开源的 AI 音乐生成模型生成音乐,大家可以去试试!

地址:https://huggingface.co/spaces/fffiloni/image-to-music-v2

在线趣味小应用 Image to Music V2

来自华盛顿大学保罗·G·艾伦计算机科学与工程系和艾伦人工智能研究所的研究人员推出 Infini-gram 引擎,用于高效地训练和推理具有任意大小的 n -gram(n 为词组中的词数,n 可以大于文本中的词数) 的语言模型。研究人员指出 n -gram 模型仍然有价值,但是需要现代化。Infini-gram 的核心目标是将传统的 n -gram 语言模型(LM)扩展到处理无限长度的文本序列,同时在数据规模上达到了 1.4 万亿个标记(tokens),这是迄今为止最大的 n -gram 模型。

Demo 地址:https://huggingface.co/spaces/liujch1998/infini-gram

论文地址:https://arxiv.org/abs/2401.17377

主要功能和特点:

无限长度的 n -gram(∞-gram):Infini-gram 允许 n -gram 模型的 n 值无限大,这意味着它可以处理任意长度的文本序列,而不受传统 n -gram 模型中 n 值大小的限制。

高效的查询引擎:Infini-gram 使用了一个名为 infini-gram engine 的引擎,它基于后缀数组(suffix array)数据结构,能够在毫秒级延迟内计算∞-gram(以及任意 n 值的 n -gram)的概率。

大规模数据训练:Infini-gram 在 1.4 万亿个标记的数据集上进行训练,这使得它能够捕捉到更丰富的文本模式和上下文信息。

工作原理:Infini-gram 的工作原理可以分为以下几个步骤:

  1. 数据预处理:首先,将文本数据转换为标记(tokens)序列,并构建后缀数组,这是一种能够快速检索文本子串的数据结构。
  2. n-gram 计数:利用后缀数组,Infini-gram 可以高效地计算给定 n -gram 在训练数据中的出现次数。
  3. 概率估计:基于 n -gram 的计数,Infini-gram 可以估计任意长度 n -gram 的概率,这包括了∞-gram 的概率估计。
  4. 查询和分析:Infini-gram 支持多种类型的查询,如计算特定 n -gram 的计数、概率,以及从 n -gram 或∞-gram 模型中获取下一个词的概率分布。

具体应用场景:Infini-gram 的应用场景非常广泛,包括但不限于:

  • 文本分析:分析人类编写的文本和机器生成的文本,了解文本内容和结构。
  • 数据挖掘:从大规模文本数据中提取有用的信息,如关键词、短语或模式。
  • 语言模型改进:与神经网络语言模型(LLMs)结合,提高语言模型的性能,减少语言模型的困惑度(perplexity)。
  • 文本生成:在文本生成任务中,Infini-gram 可以提供准确的上下文信息,帮助生成更自然、更连贯的文本。
  • 版权和合规性检查:检测文本中的潜在版权问题或不合规内容,帮助避免法律风险。

总的来说,Infini-gram 通过其高效的查询引擎和大规模数据训练,为文本分析和语言模型的改进提供了强大的工具,特别是在处理大规模文本数据时。

HuggingFace 为旗下 AI 聊天机器人 Hugging Chat 推出助手(Assistants)功能,此功能类似于 OpenAI 的 GPTs,你可以创建专属你自己的 AI 机器人。

地址:https://huggingface.co/chat/assistants

Hugging Chat 是基于开源模型,目前创建助手支持的模型包括:

  • mistralai/Mixtral-8x7B-Instruct-v0.1
  •  meta-llama/Llama-2-70b-chat-hf
  • NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO
  • codellama/CodeLlama-70b-Instruct-hf mistralai/Mistral-7B-Instruct-v0.2
  • openchat/openchat-3.5-0106

Hugging Chat 推出助手(Assistants)功能

非盈利机构 AllenAI 正式推出完全开源的大语言模型 OLMo,此次开源不仅有模型还包括完整的训练代码、数据集和评估代码,官方宣布通过开放研究来加速语言模型科学的发展。首次发布的内容包括四个参数规模达到 70 亿的语言模型,这些模型具有不同的架构、优化器和训练硬件,另外还有一个参数规模为 10 亿的模型。所有这些模型都在至少 2 万亿个 token 上接受了训练。值得一提是 OLMo 为了打破英伟达 AI 显卡的垄断,特地在 AMD 和 英伟达 AI 显卡上都训练了一次,证明大模型训练是可以用 AMD 的显卡。

模型地址:https://huggingface.co/allenai

官方说明:https://blog.allenai.org/olmo-open-language-model-87ccfc95f580

完全开源的大语言模型 OLMo

主要特点

  1. 开放性 :OLMo 模型和框架完全开放,包括训练数据、代码和模型权重,这有助于研究人员和开发者共同进步。
  2. 多样性 :提供了不同架构、优化器和训练硬件的多个模型变体,以及不同规模的模型(如 1B 和 7B 参数规模)。
  3. 数据集 :使用了名为 Dolma 的预训练数据集,这是一个包含 3 万亿个标记的多源语料库,涵盖了多种类型的文本数据。
  4. 评估工具 :提供了 Catwalk 和 Paloma 等评估工具,用于下游任务评估和基于困惑度的评估。
  5. 环境友好 :在训练过程中考虑了能源消耗和碳足迹,使用了部分可再生能源。

工作原理 :OLMo 模型基于 Transformer 架构,采用了一些改进,如无偏置项、非参数层归一化、SwiGLU 激活函数、旋转位置嵌入(RoPE)等。这些改进旨在提高模型的训练稳定性和性能。模型通过在大规模数据集上进行预训练,学习语言的模式和结构,然后可以通过微调(fine-tuning)来适应特定的任务或领域。

具体应用场景 :OLMo 可以应用于多种自然语言处理(NLP)任务,如文本生成、问答系统、机器翻译、文本摘要等。由于其开放性,它也鼓励研究人员探索新的应用场景,如改进模型的偏见和风险评估,以及开发新的预训练方法。此外,OLMo 的开放性还允许开发者和企业在遵守 Apache 2.0 许可的情况下,将模型集成到他们的产品和服务中。

谷歌 Bard 进行了更新,目前完全由 Gemini Pro 模型来提供支持,支持更多语言。同时 Bard 已经支持在对话中生成图片,由 DeepMind 的 Imagen 2 图像生成模型提供支持,不过目前仅支持使用英文提问生成,生成的图片尺寸为 512×512。需要注意的是 Bard 生成的图片都将由 SynthID 进行标记,这是 DeepMind 开发的一种数字水印技术。

谷歌 Bard 新动态