来自腾讯 AI 实验室、香港城市大学等的研究人员发布论文探讨了 3D 内容生成领域的最新进展,包括 3D 模型的表示、生成方法、相关数据集以及这些技术的应用。它涵盖了从传统的 3D 建模技术到基于深度学习的先进方法,如生成对抗网络(GANs)、变分自编码器(VAEs)、扩散模型等。论文还讨论了这些技术在视频游戏、电影、虚拟现实(VR)和增强现实(AR)等领域的应用潜力。

论文地址:https://arxiv.org/abs/2401.17807

主要特点:

  1. 全面性 :论文提供了一个全面的 3D 生成技术概览,包括各种算法范式,如前馈生成、基于优化的生成、过程式生成和生成新视角合成。
  2. 最新进展 :论文关注了近年来在 3D 生成领域取得的重要进展,特别是基于神经辐射场(NeRF)和扩散模型的最新工作。
  3. 应用导向 :论文不仅介绍了技术,还强调了这些技术在实际应用中的潜力,如 3D 人类和面部生成、3D 编辑等。

工作原理: 3D 生成通常涉及以下几个步骤:

  • 场景表示 :首先,需要定义一个场景的表示方式,这可以是点云、网格(meshes)、体素(voxels)或隐式表面(如 NeRFs)。
  • 生成模型 :然后,使用各种生成模型(如 GANs、VAEs、扩散模型)来创建或优化 3D 内容。这些模型通常通过训练学习如何从随机噪声或文本描述生成逼真的 3D 数据。
  • 渲染和优化 :生成的 3D 模型可以通过渲染技术(如光线追踪或体积渲染)转换成 2D 图像,或者直接用于 3D 打印和虚拟现实。

具体应用场景:

  • 视频游戏和电影 :生成逼真的 3D 角色和环境,用于游戏或电影制作。
  • 虚拟现实和增强现实 :创建沉浸式体验,如虚拟角色和场景,用于教育、训练或娱乐。
  • 3D 编辑和定制 :允许用户通过文本提示或图像编辑 3D 模型,用于个性化产品定制或艺术创作。
  • 数据增强 :在训练 2D 视觉任务时,生成新的 3D 数据以提高模型的泛化能力。

这篇论文对于希望了解 3D 生成技术最新动态的研究人员、开发者和行业专业人士来说是一个宝贵的资源。

英伟达与 SunoAI 联合发布了语音识别模型 Parakeet 的升级版 Parakeet-TDT,官方号称此模型超越 OpenAI 的语音识别模型 Whisper,此模型开源可商用,不过目前此模型还不支持中文,无法识别中文。

模型地址:https://huggingface.co/nvidia/parakeet-tdt-1.1b

官方介绍:https://nvidia.github.io/NeMo/blogs/2024/2024-01-parakeet-tdt

Demo 地址:https://huggingface.co/spaces/nvidia/parakeet-tdt-1.1b

英伟达与 SunoAI 联合发布了语音识别模型 Parakeet 的升级版 Parakeet-TDT

Coze 国内版上线,内置云雀大模型,可以轻松配置出属于自己的 AI 聊天机器人。扣子(coze.cn)是一款用来开发新一代 AI Chat Bot 的应用编辑平台,无论你是否有编程基础,都可以通过这个平台来快速创建各种类型的 Chat Bot,并将其发布到各类社交平台和通讯软件上!

地址:https://www.coze.cn

Coze 国内版上线,内置云雀大模型

Weaver 是一个专门为内容创作设计的一系列大语言模型(LLMs)。Weaver 专注于提高 LLMs 在写作方面的能力,通过在精心挑选的语料库上进行预训练,并针对专业写作目的进行微调。Weaver 家族包括 Mini(1.8B 参数)、Base(6B 参数)、Pro(14B 参数)和 Ultra(34B 参数)四种不同大小的模型,适用于不同的应用场景。这些模型可以通过一个路由代理根据查询复杂度动态调度,以平衡响应质量和计算成本。

论文地址:https://arxiv.org/abs/2401.17268

官网:https://www.wawawriter.com

专门为内容创作设计的大语言模型 Weaver

主要特点:

  1. 专业写作优化 :Weaver 专为写作任务设计,能够生成更符合人类风格的文本,并遵循多样化的创作指令。
  2. 数据合成与对齐 :Weaver 采用了一套新颖的数据合成方法和 LLM 对齐技术,使其能够学习专业作家的偏好,从而产生更自然、更具创意的文本。
  3. 多领域支持 :Weaver 支持多种写作领域,包括小说创作、创意非小说写作、营销写作和技术写作等。
  4. 增强功能 :Weaver 原生支持检索增强生成(RAG)和工具调用(工具使用),可以整合外部知识库、工具或 API,提供个性化写作辅助。

工作原理:

  • 预训练 :Weaver 在精选的高质量文本数据集上进行预训练,这些数据集包括书籍、故事、文章等,以确保生成的文本具有人类风格。
  • 数据合成 :为了训练 Weaver 遵循写作指令,研究者们设计了一种新的指令后翻译框架,通过收集高质量的内容(如故事、文章等)来生成指令 - 响应对。
  • 对齐 :Weaver 通过监督式微调和偏好优化技术进行对齐,使其更好地符合专业作家的偏好。这包括使用宪法 DPO 算法,通过专家标注的原则来合成负面示例,以及通过用户反馈进行直接偏好优化。

具体应用场景:

  • 创意写作 :Weaver 可以帮助用户创作故事、小说、博客文章等,提供创意写作辅助。
  • 专业写作 :在技术写作、营销写作等领域,Weaver 可以生成符合特定风格和要求的文本。
  • 教育和研究 :Weaver 可以辅助学术写作,如撰写论文、报告等,提供文献综述、摘要生成等功能。
  • 内容创作平台 :Weaver 集成在 WawaWriter 平台中,提供人机协作写作、个性化写作辅助和无限长文本生成等功能,以提高写作效率和质量。

总的来说,Weaver 是一个专为写作任务设计的 LLM,它通过专门的预训练和对齐技术,能够在多种写作场景中提供高质量的文本生成服务。

这篇论文介绍了一个名为 REGAL(Refactoring for Generalizable Abstraction Learning)的方法,它旨在通过重构程序来发现可重用的抽象函数。REGAL 的核心思想是利用大型语言模型(LLMs)来学习从一组示例中提取有用的函数,这些函数可以在不同的程序中重复使用,从而提高程序生成的效率和准确性。

GitHub 地址:https://github.com/esteng/regal_program_learning

主要特点:

  1. 重构程序 :REGAL 通过重构原始程序,将重复的代码片段转化为可重用的函数,减少了冗余并提高了代码的可读性。
  2. 无需梯度 :REGAL 是一个无梯度的方法,它依赖于 LLM 生成的程序进行迭代验证和优化。
  3. 跨领域应用 :REGAL 在多个领域(如 LOGO 图形生成、日期推理和 TextCraft 游戏)中展示了其有效性,提高了 LLMs 在这些任务上的预测准确性。

工作原理:

  • 训练阶段 :REGAL 首先对一组查询和原始程序进行预处理,然后使用 LLM 生成一组辅助函数(helper functions),这些函数旨在简化原始程序。接着,REGAL 验证这些重构后的程序的正确性,并将成功的辅助函数添加到代码库(Code Bank)中。
  • 测试阶段 :在测试阶段,REGAL 代理(agent)会使用训练阶段学到的辅助函数来生成新的程序,以解决测试查询。这个过程中,代理会从代码库中检索相关的辅助函数,并结合原始程序生成最终的预测程序。

具体应用场景:

  • LOGO 图形生成 :在 LOGO 图形生成任务中,REGAL 可以学习如何绘制基本图形,如三角形和圆形,并将这些图形组合成更复杂的图案。
  • 日期推理 :在日期推理任务中,REGAL 可以帮助 LLMs 更好地理解和处理日期相关的计算问题。
  • TextCraft 游戏 :在 TextCraft 这个基于文本的 Minecraft 游戏中,REGAL 可以帮助 LLMs 理解和生成执行游戏任务所需的 Python 代码。

总的来说,REGAL 通过学习可重用的函数库,提高了 LLMs 在多种任务中的程序生成能力,尤其是在需要多个辅助函数的复杂任务中。这种方法不仅提高了程序的准确性,还使得生成的程序更加简洁和易于理解。

H2O.ai 团队推出大语言模型 H2O-Danube-1.8B,它是一个拥有 18 亿参数的模型,经过了在 1 万亿个标记(tokens)上的预训练。这个模型遵循了 LLama 2 和 Mistral 的核心原则,并在多种基准测试中展现出了高度竞争力的性能。尽管它的训练数据量相比同类模型要少,但它在多个任务上的表现仍然非常出色。此外,研究者们还发布了一个经过监督微调和直接偏好优化的聊天模型版本,并且这个模型的权重是公开可用的,遵循 Apache 2.0 许可协议,进一步推动了大型语言模型(LLMs)的民主化。

模型地址:https://huggingface.co/h2oai/h2o-danube-1.8b-base

主要特点:

  1. 开源许可 :H2O-Danube-1.8B 遵循 Apache 2.0 许可协议,这意味着它可以被商业使用,并且鼓励社区进行进一步的微调和应用开发。
  2. 高效训练 :尽管训练数据量相对较少,但模型在多个任务上的表现与训练数据量更大的模型相当。
  3. 聊天模型 :除了基础模型外,还发布了一个经过监督微调和偏好优化的聊天模型版本,这个版本在常识推理、世界知识和阅读理解等任务上表现出色。

工作原理:

  • 模型架构 :H2O-Danube-1.8B 采用了 Llama 2 架构,并进行了调整,拥有大约 18 亿参数,隐藏层大小为 2560,中间层大小为 6912,共有 24 个隐藏层。模型使用滑动窗口方法进行局部注意力计算,并采用了旋转位置嵌入(RoPE)技术来处理序列中不同位置元素的依赖关系。
  • 训练过程 :模型在单节点上训练,使用了 8 个 H100 GPU,每个 GPU 持有模型的完整副本。训练过程中,模型的序列长度逐渐增加,以提高训练效率。使用了 8 位浮点计算来加速训练,并采用了 AdamW 优化器和余弦学习率调度器。

具体应用场景:

  • 文本生成 :H2O-Danube-1.8B 可以用于生成文本,如文章、故事、代码等。
  • 问答系统 :模型可以用于构建问答系统,帮助用户解答问题。
  • 聊天机器人 :聊天模型版本特别适用于构建聊天机器人,能够进行流畅的对话和提供有用的信息。
  • 教育和研究 :模型可以用于教育领域,帮助学生学习语言和提供研究支持。

总的来说,H2O-Danube-1.8B 是一个强大的语言模型,它在多个领域都有潜在的应用价值,并且其开源性质使得更多的研究者和开发者能够利用这个模型进行创新和开发。

谷歌研究人员发布论文探讨了如何将现有的自回归(AR)大型语言模型(LLMs)转换为使用文本扩散模型进行训练和部署的可能性。文本扩散模型是一种生成文本的方法,它不是逐个生成单词,而是通过逐步去除噪声来生成文本,这种方法在某些任务上可能比传统的自回归方法更快。

论文地址:https://arxiv.org/abs/2401.17181

主要特点:

  1. AR 到扩散的转换(AR2Diff):研究者们提出了一种轻量级的适应过程,可以将预训练的 AR 模型转换为文本扩散模型,这个过程称为 AR2Diff。
  2. 模型架构和预训练目标的比较 :研究者们比较了不同的模型架构(编码器 - 解码器与仅解码器)和预训练目标(跨度损坏与前缀语言模型),以确定哪种设置最适合文本扩散。
  3. 转移学习实验 :研究者们在机器翻译、问答和代码合成等任务上进行了转移学习实验,以评估文本扩散模型与 AR 模型的性能。

工作原理:

  • 文本扩散模型实现 :研究者们遵循 SUNDAE 文本扩散方法,使用标准的 Transformer 架构(编码器 - 解码器或仅解码器)作为模型基础。在训练过程中,模型通过逐步去除噪声来生成文本,而在推理时则使用低温度采样和多样本并行解码。
  • AR2Diff 方法 :首先,使用 AR 模型进行预训练,然后在扩散模型的训练过程中继续训练额外的步骤,最后在特定任务上进行微调。这种方法允许模型在保持 AR 模型优势的同时,适应扩散模型的生成方式。

具体应用场景:

  • 机器翻译 :在 WMT14 法语到英语的翻译任务中,研究者们测试了文本扩散模型与传统 AR 模型的性能。
  • 问答系统 :在 SQuAD 问答任务中,文本扩散模型被用来理解和生成问题的答案。
  • 代码合成 :在 Mostly Basic Python Problems(MBPP)任务中,模型需要生成解决简单编程问题的完整代码解决方案。

总的来说,这篇论文展示了文本扩散模型在某些任务上可以与 AR 模型竞争,尤其是在需要生成长文本的场景中。同时,通过 AR2Diff 方法,研究者们证明了可以有效地将现有的 AR 模型转换为文本扩散模型,这为未来的文本生成技术提供了新的可能性。

复旦大学团队推出的多模态大模型复旦·眸思(MouSi),它通过集成多个视觉专家来增强模型对复杂视觉信息的处理能力。这些视觉专家各自擅长不同的视觉任务,如图像文本匹配、光学字符识别(OCR)、图像分割等。眸思模型的设计灵感来源于生物视觉系统的多通道并行处理机制,旨在通过协同这些专家的能力来提升 VLM 的整体性能。

GitHub 地址:https://github.com/FudanNLPLAB/MouSi

官方 Demo:http://mousi.org

复旦大学团队推出的多模态大模型复旦·眸思(MouSi)

主要特点:

  • 多视觉专家集成 :MouSi 模型结合了多个视觉编码器,每个编码器都有其独特的视觉处理能力,这样可以从不同角度理解和处理图像信息。
  • 融合网络 :为了整合不同视觉专家的输出,MouSi 引入了一个融合网络,这个网络可以统一处理来自不同专家的视觉信息,并与预训练的大型语言模型(LLM)对齐。
  • 位置编码优化 :MouSi 通过探索不同的位置编码方案来解决由于图像特征序列过长而导致的位置编码浪费问题,有效减少了模型中位置编码的使用。

工作原理:

  • 多专家视觉编码器 :MouSi 选择了六种不同的视觉编码器,包括 CLIP、DINOv2、LayoutLMv3、Convnext、SAM 和 MAE,每种编码器都有其特定的输入分辨率、隐藏维度、模型类型和预训练任务。
  • 融合网络 :MouSi 采用了多层感知器(MLP)投影融合网络和 Q -Former 融合网络,这两种方法可以有效地将来自不同视觉专家的信息整合到一起。
  • 位置编码方案 :为了减少位置编码的占用,MouSi 探索了四种不同的方案,包括为所有补丁共享一个位置编码、按行共享位置编码以及结合行和列的位置编码。

多模态大模型 LLaVA 发布 1.6 版本,比之前的 1.5 版本能力大幅提升。LLaVA-1.6 甚至在几个基准测试中超过了 Gemini Pro。

项目主页:https://llava-vl.github.io/blog/2024-01-30-llava-1-6

Demo 地址:https://llava.hliu.cc

GitHub 地址:https://github.com/haotian-liu/LLaVA

多模态大模型 LLaVA 发布 1.6 版本

与 LLaVA-1.5 相比,LLaVA-1.6 有以下几个改进:

  • 将输入图像分辨率提高了 4 倍。这使得它能捕捉到更多的视觉细节。支持三种宽高比,最高分辨率为 672×672、336×1344、1344×336。
  • 通过改进的视觉指令调整数据混合,提高了视觉推理和 OCR 能力。
  • 为更多场景提供更好的视觉对话,涵盖不同的应用。改进了世界知识和逻辑推理。
  • 使用 SGLang 实现高效部署和推理。
  • 除了性能提升外,LLaVA-1.6 保持了 LLaVA-1.5 的极简设计和数据效率。它重用了 LLaVA-1.5 的预训练连接器,并且仍然使用不到 1M 的视觉指令调整样本。最大的 34B 变体在约 1 天内使用 32 个 A100 完成训练。代码、数据和模型将会公开可用。

关于如何“越狱”大语言模型(LLMs),即通过特定的策略来绕过这些模型的安全限制,使其生成有害的内容。这里的“越狱”并不是指手机或电脑的越狱,而是指在人工智能领域中,通过技术手段使模型产生原本被设计为禁止的输出。

GitHub 地址:https://github.com/XuandongZhao/weak-to-strong

主要特点:

  1. 弱到强的越狱策略 :论文提出了一种新的越狱方法,它不需要对模型进行复杂的修改或大量计算,只需要利用一个小型的、不安全的模型(弱模型)来引导一个大型的、原本安全的模型(强模型)产生有害的输出。
  2. 单次前向传递 :这种越狱攻击只需要对大型模型进行一次前向传递(即模型生成输出的过程),这大大减少了计算成本和时间。
  3. 跨模型攻击 :攻击者可以利用一个小型的不安全模型来影响大型模型的生成过程,这种攻击方式在多种不同的模型上都表现出了有效性。

工作原理:

  • 利用分布差异 :论文观察到,即使是经过安全对齐的 LLMs,在生成有害内容时,其初始生成的分布与未对齐的模型(越狱模型)有显著差异。这种差异主要出现在生成过程的初始阶段。
  • 引导生成 :通过调整大型模型的生成概率分布,使其更倾向于生成有害内容。这是通过将小型不安全模型的预测与大型安全模型的预测相结合,然后放大不安全模型的影响来实现的。

具体应用场景:

  • 安全测试 :这种越狱攻击可以用于测试和评估大型语言模型的安全性能,帮助开发者发现并修复潜在的安全漏洞。
  • 防御策略开发 :通过了解这种攻击方法,研究人员可以开发出更有效的防御策略,比如通过调整模型的对齐方式或生成策略来抵御此类攻击。
  • 政策制定 :政府和监管机构可以利用这些研究成果来制定更严格的人工智能使用政策,以防止技术被用于有害目的。

总的来说,这篇论文揭示了大型语言模型在安全对齐方面的脆弱性,并提出了一种新的攻击方法,这对于人工智能领域的安全研究和实践具有重要意义。