Meta 今日发布了开源大模型 Code Llama 70B,这是其代码生成模型的新版本。Code Llama 70B 经过 5000 亿个代码标记和代码相关数据的训练,支持 100000 个 Tokens 的更长上下文,使其能够处理和生成更长、更复杂的代码。Code Llama 70B 在 HumanEval 上得分为 67.8,与闭源模型 GPT-4(68.2)和 Gemini Pro(69.4)相当,远超此前的开源代码模型 CodeGen-16B-Mono(29.3)和 StarCoder(40.1)等。

GitHub 地址:https://github.com/facebookresearch/llama

Hugging Face 地址:https://huggingface.co/codellama

体验地址:https://labs.perplexity.ai

Meta 发布 Code Llama 70B,是之前 Code Llama 的升级版本,包括三个模型

阿里云公布多模态大模型研究进展,通义千问视觉理解模型 Qwen-VL 再次升级,继 Plus 版本之后推出 Max 版本,升级版模型拥有更强的视觉推理能力和中文理解能力,能够根据图片识人、答题、创作、写代码,并在多个权威测评中获得佳绩,比肩 OpenAI 的 GPT-4V 和谷歌的 Gemini Ultra。

演示地址:https://huggingface.co/spaces/Qwen/Qwen-VL-Max

GitHub 地址:https://github.com/QwenLM/Qwen-VL

通义千问视觉理解模型 Qwen-VL 升级版 Qwen-VL-Max 发布

相比 Qwen-VL,Qwen-VL-Plus 和 Qwen-VL-Max 拥有更强的视觉推理和中文理解能力,整体性能堪比 GPT-4V 和 Gemini Ultra。在 MMMU、MathVista 等测评中远超业界所有开源模型,在文档分析(DocVQA)、中文图像相关(MM-Bench-CN)等任务上超越 GPT-4V,达到世界最佳水平。目前 Qwen-VL-Plus 和 Qwen-VL-Max 限时免费,用户可以在通义千问官网、通义千问 APP 直接体验 Max 版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型 API。

通义千问视觉理解模型 Qwen-VL 升级版 Qwen-VL-Max 发布

来自南京大学计算机科学与技术系、上海人工智能实验室的研究人员提出了一个名为 SeeClick 的视觉图形用户界面(GUI)代理,它能够通过观察屏幕截图来自动化执行复杂的任务。这个代理特别之处在于,它不需要依赖于结构化文本,如 HTML,而是直接从界面截图中识别和执行操作,这使得它能够在多种设备上,如智能手机、桌面电脑和网页上工作。

GitHub 地址:https://github.com/njucckevin/SeeClick

论文地址:https://arxiv.org/abs/2401.10935

视觉图形用户界面(GUI)代理 SeeClick

主要特点:

  1. 视觉基础 :SeeClick 是基于大型视觉 - 语言模型(LVLM)构建的,它通过观察界面的截图来理解和执行任务。
  2. GUI 定位 :它能够根据指令准确定位屏幕上的元素,这是通过一种称为 GUI 定位(GUI grounding)的技术实现的。
  3. 预训练和数据自动化 :为了提高定位能力,SeeClick 通过预训练和自动化数据收集方法来增强其性能。
  4. 跨平台兼容性 :SeeClick 能够在 iOS、Android、macOS、Windows 和网页等多种 GUI 环境中工作。

工作原理:

SeeClick 的工作原理可以分为几个步骤:

  • 数据收集 :首先,从网页和移动应用中收集界面截图和相应的操作指令。
  • 预训练 :使用这些数据对 SeeClick 进行预训练,使其学会如何根据指令在截图中定位元素。
  • 任务执行 :在执行任务时,SeeClick 接收到一个界面截图和操作指令,然后预测出执行该操作所需的精确点击位置或输入文本。

具体应用场景:

  • 智能手机应用 :SeeClick 可以帮助用户自动化日常任务,比如设置闹钟、查看天气或管理日程。
  • 桌面应用 :在电脑上,它可以协助完成办公软件中的复杂操作,如编辑文档、处理电子表格等。
  • 网页自动化 :在网页上,SeeClick 可以执行如填写表单、搜索信息或进行在线购物等任务。
  • 测试和开发 :开发者可以使用 SeeClick 来自动化测试流程,确保软件界面的各个元素都能正确响应用户操作。

SeeClick 是一个强大的工具,它通过视觉理解和自然语言处理的结合,为用户提供了一个无需手动操作就能完成任务的自动化解决方案。

微软推出一种名为 SliceGPT 的新型后训练稀疏化方案,这是一种新的用于压缩大型语言模型的方法。该方法通过删除权重矩阵中的行和列来减小模型大小,从而降低计算和内存需求。具体来说,SliceGPT 首先对每个权重矩阵应用正交变换,然后删除变换后的矩阵中的部分列或行。

论文地址:https://arxiv.org/abs/2401.15024

特点:

  • 计算不变性 :提出了一种计算不变性,允许在不改变模型输出的情况下对每个权重矩阵应用正交变换。
  • 结构化稀疏性 :通过 PCA 计算,将信号矩阵投影到其主成分上,然后删除变换后的权重矩阵的行或列,实现结构化稀疏性。
  • 无需额外代码优化 :SliceGPT 的切片模型在没有额外代码优化的情况下运行更快,需要的 GPU 数量更少。

实现方法:

  1. 正交变换 :在 RMSNorm 连接的 Transformer 网络中,应用正交矩阵变换,使得网络保持不变。
  2. PCA 计算 :在每个网络层中,使用 PCA 计算来确定如何投影信号矩阵,以便在不影响模型性能的情况下删除权重矩阵的行和列。
  3. 稀疏化 :通过删除权重矩阵的行和列,以及相应的输入和输出信号矩阵的列,实现模型的稀疏化。

具体应用场景:

  • 模型部署 :在资源受限的环境中部署大型预训练模型时,SliceGPT 可以帮助减少所需的计算资源和内存。
  • 能源效率 :在数据中心或云计算环境中,使用 SliceGPT 可以提高能源效率,因为模型运行所需的 GPU 数量减少。
  • 移动和边缘计算 :在移动设备或边缘计算设备上,SliceGPT 可以使得大型语言模型更加实用,因为这些设备通常具有有限的计算能力和内存。

实验结果显示,在保持与原始密集模型相当的零样本任务性能的同时,SliceGPT 可以减小模型大小的 25% 以上。此外,SliceGPT 可以在不进行额外的代码优化或微调的情况下,在少量的 GPU 上运行,从而实现了计算效率的大幅度提升。总的来说,SliceGPT 为大型语言模型的压缩提供了一种有效的方法,能够在保持模型性能的同时显著减少计算和内存需求,适用于多种应用场景。

Eagle 7B 是一个拥有 7.52B 参数的开源模型,基于 RWKV-v5 架构,不仅推理成本低,还被评为全球最绿色的 7B 模型。它在超过 100 种语言(70% 英语,15% 多语言,15% 代码)的 1.1 万亿个令牌上训练,性能超越同类 7B 模型,英语评估表现直逼更大模型。它还是一个“无注意力 Transformer”,具有小型指令调整功能,适用于各种用例。

地址:https://blog.rwkv.com/p/eagle-7b-soaring-past-transformers

Demo 地址:https://huggingface.co/spaces/BlinkDL/RWKV-Gradio-2

模型地址:https://huggingface.co/RWKV/v5-Eagle

Google Deepmind 提出了一种名为 Generative Expressive Motion (GenEM) 的新方法,用于自主生成具有表现力的机器人行为。该方法利用了 LLMs 丰富的社交语境能力,以及它们根据指令或用户偏好生成动作的能力,来生成适应性强的表达式机器人运动。作者通过用户研究和模拟实验证明,他们的方法可以快速生成适应性强、可组合的行为,并能根据用户反馈进行调整。

项目主页:https://generative-expressive-motion.github.io

主要内容:

  • GenEM 框架 :GenEM 利用大型语言模型(LLMs)的丰富社交上下文和生成能力,通过少量示例(few-shot)和链式思维(chain-of-thought)提示,将人类语言指令翻译成机器人控制代码。
  • 用户研究 :通过在线用户研究,展示了 GenEM 生成的行为在用户反馈下是可感知的,并且在某些情况下,用户对 GenEM 生成的行为的感知甚至优于专业动画师设计的行为。
  • 模拟实验 :在移动机器人和模拟四足机器人上进行的实验表明,GenEM 能够生成适应性强、可组合的行为,并且能够响应用户反馈进行迭代修正。

特点:

  • 适应性 :GenEM 能够根据用户反馈快速修改行为,生成适应性强的表现力行为。
  • 可组合性 :GenEM 生成的行为可以基于已有的机器人技能和学习到的表现力行为进行组合,构建更复杂的行为。
  • 灵活性 :GenEM 不依赖于特定社交情境的专用数据集,而是通过上下文学习生成多样化的行为。

实现方法:

  • 表现力指令跟随 :GenEM 首先将人类表现力行为转换为机器人表现力行为,然后生成控制代码。
  • 行为生成 :使用 LLM 将人类表现力行为翻译成机器人表现力运动,再将这些运动转换为可执行的机器人代码。
  • 用户反馈 :用户可以提供迭代反馈来改进行为,GenEM 会根据反馈调整行为生成过程。

具体应用场景:

  • 人机交互 :GenEM 可以用于生成机器人在与人类互动时的表达性行为,如点头、摇头、道歉等。
  • 机器人服务 :在服务机器人领域,GenEM 可以帮助机器人更好地与人类沟通,提高服务效率。
  • 教育和娱乐 :在教育和娱乐场景中,GenEM 可以为机器人生成更具吸引力和表现力的行为,增强用户体验。

总的来说,GenEM 为机器人提供了一种灵活、适应性强且可组合的表现力行为生成框架,有助于机器人在多种社交场景中更自然地与人类互动。

EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) 是一种新的基线方法,用于快速解码大型语言模型 (LLMs),同时保证性能的稳定。这种方法涉及对 LLM 的次顶层上下文特征向量进行外推,从而显著提高生成效率。

GitHub 地址:https://github.com/SafeAILab/EAGLE

  • EAGLE 框架 :EAGLE 通过在特征层面(second-top-layer)进行自回归操作,而不是直接预测令牌(tokens),来加速 LLMs 的推理过程。它通过整合来自前一时间步的令牌序列来解决特征层面预测的不确定性问题。
  • 加速效果 :EAGLE 在 MT-bench 基准测试中,与标准自回归解码相比,实现了 3 倍的加速效果,比 Lookahead 快 2 倍,比 Medusa 快 1.6 倍。在某些情况下,EAGLE 的平均令牌生成速度达到了 160 tokens/s。

EAGLE 具有以下特点:

  • 在 gpt-fast 上实现了 2 倍的加速,这是已知最快的开源推理之一。
  • 比普通解码(13B)快 3 倍。
  • 比 Lookahead(13B)快 2 倍。
  • 比 Medusa(13B)快 1.6 倍。
  • 在生成文本的分布上,可证明与普通解码保持一致性。
  • 可训练(在 1 - 2 天内),并且可以在 8 个 RTX 3090 GPU 上进行测试。即使是 GPU 资源较少的情况也可以负担得起。
  • 可以与其他并行技术结合使用,如 vLLM、DeepSpeed、Mamba、FlashAttention、量化以及硬件优化。

新框架 EAGLE:用于加速大型语言模型(LLMs)的推断过程

AMD 发布了开源的 XDNA Linux 驱动程序,以支持 Linux 上的 Ryzen AI。该驱动程序目前处于树外状态,并已在 Ubuntu 22.04 LTS 上的 Linux 6.7 内核或更高版本上进行了测试。用户需要启用 IOMMU SVA 支持并构建 Xilinx XRT 软件才能使用该驱动程序。

地址:https://github.com/amd/xdna-driver

GitHub 仓库「rasbt/LLMs-from-scratch」提供了一个逐步指南,用于从零开始实现类似 ChatGPT 的语言模型(LLM)。该仓库包括代码和说明,用于自动化工作流程、管理软件包、确保安全性、使用 Codespaces 进行即时开发环境、利用 AI 与 Copilot 进行更好的代码编写、通过代码审查管理代码更改、使用问题规划和跟踪工作,以及在代码之外进行讨论。该仓库面向企业团队、初创公司和教育机构。

GitHub 地址:https://github.com/rasbt/LLMs-from-scratch

Imp 项目提供一系列强大的多模态小型语言模型(MSLMs)。目前释出的 imp-v1-3b 是一个仅有 3B 参数的强大 MSLM,它基于一个小而强大的 SLM Phi-2(2.7B)和一个强大的视觉编码器 SigLIP(0.4B),并在 LLaVA-v1.5 训练集上进行了训练。

GitHub 地址:https://github.com/MILVLG/imp

模型地址:https://huggingface.co/MILVLG/imp-v1-3b

多模态小型语言模型 imp-v1-3b