来自香港城市大学与纽约大学的研究人员提出了一个名为 V -IRL(Virtual Intelligence in Real Life)的平台,它旨在弥合数字世界与现实世界之间的感官鸿沟,使人工智能(AI)代理能够在一个虚拟但逼真的环境中与现实世界互动。V-IRL 平台利用真实的地理空间数据和街景图像,让 AI 代理能够在现实世界的虚拟表示中导航、执行复杂任务,并实时互动。

项目主页:https://virl-platform.github.io

主要功能:

  1. 地理空间交互: AI 代理能够利用真实的地理坐标在城市中定位自己,并使用地图、街景图像和相关信息来导航。
  2. 任务执行: 平台支持代理执行各种实用任务,如路线优化、地点推荐、城市基础设施评估等。
  3. 视觉感知: AI 代理能够通过街景图像进行视觉感知,识别和计数物体,以及执行视觉驱动的任务。

主要特点:

  1. 真实世界数据: V-IRL 平台使用来自 Google Maps Platform 的实时数据,确保代理与现实世界紧密相连。
  2. 灵活性和可扩展性: 平台设计灵活,可以与任意地理空间平台和 API 集成,支持研究人员在全球范围内创建和测试多样化的自主代理。
  3. 全球规模基准测试: 提供了全球规模的基准测试,用于衡量基础语言和视觉模型在现实世界数据上的性能。

工作原理: V-IRL 平台的核心是其层次化架构,包括环境(提供导航能力)、视觉(处理街景图像)、语言(支持决策和协作)以及代理(利用这些能力解决特定任务)。代理通过编写特定的运行(run)例程,结合平台的 API 和预训练模型来完成任务。平台还提供了自动数据和注释收集管道,以便在全球范围内进行规模化测试。

具体应用场景:

  1. 城市导航: AI 代理可以帮助用户规划最短路线,或在城市中寻找特定的地点。
  2. 旅游推荐: 代理可以根据用户的喜好和位置推荐餐厅或购物地点。
  3. 城市规划: 代理可以评估城市基础设施,如垃圾箱分布,为城市规划提供数据支持。
  4. 交互式助手: AI 代理可以与用户合作,提供个性化的旅行建议和行程规划。

V-IRL 平台为研究人员提供了一个强大的工具,用于开发和测试能够在现实世界中有效运作的 AI 代理,同时为未来的 AI 研究开辟了新的方向。

MiniCPM 是一系列端侧语言大模型,主体语言模型 MiniCPM-2B 具有 2.4B 的 非词嵌入参数量 。在综合性榜单上与 Mistral-7B 相近(中文、数学、代码能力更优),整体性能超越 Llama2-13B、MPT-30B、Falcon-40B 等模型。在当前最接近用户体感的榜单 MTBench 上,MiniCPM-2B 也超越了 Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha 等众多代表性开源大模型。MiniCPM 通过 Int4 量化技术,实现了模型的端侧部署能力。可以在手机等移动设备上运行,提供与人类说话速度相当的流式输出速度。( 详细介绍

GitHub 地址:https://github.com/OpenBMB/MiniCPM

主要特性:

1、优异的性能:MiniCPM 在多项公开的综合性评测集上展现了优秀的性能,特别是在中文、数学和编程能力方面,其整体性能超过了许多大型模型,如 Llama2-13B、MPT-30B 和 Falcon-40B。

2、多模态能力:基于 MiniCPM-2B 开发的多模态模型 MiniCPM-V,在同规模模型中表现最佳,超越了现有的多模态大模型,如 Phi- 2 构建的模型。

3、端侧部署:经过 Int4 量化处理后,MiniCPM 只占 2GB 空间,可以在手机上进行部署和推理,提供流畅的输出速度,略高于人类的说话速度。

4、资源高效利用:MiniCPM 支持在普通的 GPU 上进行高效的参数微调和全参数微调,这使得继续训练和二次开发的成本相对较低。即便是在资源有限的硬件上,也可以持续训练 MiniCPM 模型。

5、兼容性与灵活性:MiniCPM 模型兼容多种平台和框架,如 Huggingface Transformers 和 vLLM,为用户提供了灵活的使用选择。无论是进行文本生成、理解任务还是多模态任务处理,MiniCPM 都能提供强大的支持。

Stability AI 推出了一种新型的文本到语音(TTS)模型,它能够通过自然语言描述来生成高保真度的语音。这项技术允许用户通过简单的文本指令来控制语音的性别、口音、语速、音调和录音条件,从而创造出多样化的语音输出。简单来说就是你写下“一个印度口音的女声,语速较快”,模型就能生成相应的声音。

项目主页:https://www.text-description-to-speech.com

主要功能:

  1. 自然语言控制: 用户可以通过自然语言描述来指定语音的各种属性,如性别、口音、语速等。
  2. 高保真度语音生成: 系统能够生成与描述相匹配的高质量语音,即使在训练数据中没有直接对应的样本。
  3. 多样化的语音风格和录音条件: 系统能够模拟多种口音、语调和录音环境,如在嘈杂环境中的清晰语音。

主要特点:

  1. 无需参考语音: 与依赖于参考语音录音的方法不同,这项技术完全基于文本描述来生成语音。
  2. 大规模数据集训练: 使用了一个 45,000 小时的英语语音数据集进行训练,这使得模型能够学习到丰富的语音变化。
  3. 自动标签生成: 通过自动分类器和统计方法来为数据集生成标签,避免了昂贵的人工标注过程。

工作原理:

  1. 数据集准备: 使用两个英语语音语料库(LibriVox 和 LibriTTS-R),并为这些数据集生成自然语言描述,包括性别、口音、语速、音调和录音质量等属性。
  2. 模型训练: 使用一个基于 Transformer 的语音语言模型,该模型能够理解文本描述并生成相应的语音。
  3. 音频质量提升: 通过使用最新的音频编解码模型(如 Descript Audio Codec),在训练数据中包含少量高保真音频,系统能够生成高质量的语音输出。

具体应用场景:

  1. 有声书制作: 生成具有特定口音和风格的朗读者语音,用于有声书的制作。
  2. 虚拟助手和客服: 创建具有个性化声音的虚拟助手,提供更加自然和多样化的客户服务。
  3. 语言学习: 为学习者提供模仿不同口音和语调的练习材料。
  4. 娱乐和创意内容制作: 在电影、游戏和广播剧中创建多样化的角色语音。

这项技术通过结合大规模数据集和先进的语音合成模型,为用户提供了一个直观且灵活的工具,以创造和控制各种语音输出,同时保持高保真度和自然流畅性。

阿里开源了 Qwen1.5 模型,包括六种尺寸的基础模型和聊天模型:0.5B、1.8B、4B、7B、14B 和 72B。还提供量化模型,包括 Int4 和 Int8 GPTQ 模型,以及 AWQ 和 GGUF 量化模型。在测试中,70B 模型的评分超过了 Claude2.1,以及 GPT-3.5,距离 GPT- 4 还有一些距离。最高支持 32K 上下文。

项目主页:https://qwenlm.github.io/blog/qwen1.5

AI 创企 Meshy 今日宣布发布其第二代产品 Meshy-2。相较一代,Meshy- 2 能生成结构更好的网格和丰富的几何图形细节。并且,Meshy-2 还支持写实、卡通、低多边形和体素四种文本转 3D 图形的创作风格。在效率方面,只需要 25 秒,Meshy-2 就可以出图形预览,5 分钟内就能出精细结果。

体验地址:https://app.meshy.ai

Meshy 推出 Meshy- 2 文生 3D 图像模型

PopAi 是一款前沿的人工智能工作空间,它集成了 ChatGPT 与 DALL-E3 的强大功能,将阅读、写作和创作完美地融合在一个无缝平台中。这款工具彻底改变了传统的工作流程,提升了用户交互体验,让用户能够更专注于高级思维活动。

地址:https://www.popai.pro

PopAi:基于 ChatGPT 与 DALL-E3 的全方位工作助手

一、文档处理与创作

PopAi 能够处理各种类型的文档,包括 PDF、Doc/Docx、CSV 等。它不仅可以识别文档中的结构和内容,还能自动提取表格、图表以及识别图片中的信息。此外,PopAi 还支持创建流程图和专业写作,如 SEO 文章、博客、社交媒体管理、视频脚本等,使您的工作更加高效多样。

二、GPT-4V 图像 API 的支持

通过 GPT-4V 的图像 API,PopAi 不仅具备了强大的文档处理能力,还能进行图像相关的操作。例如,它可以将任何图像中的文本提取成可编辑的格式,方便用户进行修改和编辑。同时,PopAi 还支持使用截图来校对设计上的用词,拍照作业自动检查等功能,进一步提升了工作效率。

三、联网功能与解析文档链接

PopAi 支持联网功能,这意味着在写文档和 PPT 时,您无需离开平台即可自动查询网络信息并填充内容。此外,PopAi 还能直接解析诸如 arxiv 等平台的论文链接,无需下载上传,即可轻松获取所需信息。

四、分屏阅读与提示词生成器

分屏阅读功能使得用户能够更直观地查看和比较不同文档的内容,提升了阅读体验。而提示词生成器则可以帮助您快速生成符合要求的提示词,节省了大量时间。

五、DALL-E3 的接入与功能拓展

除了上述功能外,PopAi 还接入了 DALL-E3,这使得它具备了更多图像相关的功能。例如,PopAi 可以在 1 分钟内翻译图像中的文字,上传的任何图像都可以获取 Midjourney/Dall-e3 的提示。这些功能进一步拓展了 PopAi 的应用场景,使其成为了一款全方位的工作助手。

总之,PopAi 作为一款基于 ChatGPT 与 DALL-E3 的工作助手,具备了强大的文档处理、创作和图像处理能力。它的出现将彻底改变您的工作方式,提升工作效率和用户体验。

Galileo AI 是一款 UI 设计稿自动生成应用,支持文字、图片以及线稿直接生成 UI 设计稿。

地址:https://www.usegalileo.ai

UI 设计稿自动生成应用 Galileo AI

它的功能:

✅ 从文本生成移动和桌面用户界面

✅ 从截图和线框图生成用户界面

✅ 一键将设计导出到 Figma

✅ 通过文本提示编辑设计

✅ 生成多屏用户流程

来自复旦大学、俄亥俄州立大学、宾夕法尼亚州立大学和 Meta 的研究人员推出了一个名为 TravelPlanner 的基准测试,用于评估由大语言模型驱动的智能体在现实世界复杂场景下的规划能力。该基准聚焦于一个常见的实际生活规划问题——旅行规划,旨在测试这些智能体能否像人类一样,在预算、时间、交通、住宿、餐饮等多种约束条件下,成功制定多日行程。这些任务对于以往的 AI 来说是非常具有挑战性的。

项目主页:https://osu-nlp-group.github.io/TravelPlanner

主要功能与特点:

  • 丰富环境模拟:TravelPlanner 提供了一个包含约 400 万条互联网数据记录的沙箱环境,通过六种工具(如城市搜索、航班查询等)供智能体获取信息。
  • 多样化任务集:精心设计了 1225 个具有不同组合约束条件的用户查询及其参考答案,以全面考察智能体处理多种约束下规划任务的能力。
  • 真实挑战性:旅行计划涉及长决策链条、多个相互依赖的选择以及对显性和隐性常识约束的遵守,这对目前的语言模型智能体而言是一项艰巨的任务。

工作原理:

TravelPlanner 的工作原理分为几个阶段:

  1. 环境设置:创建一个静态的沙盒环境,代理可以访问预设的数据库来获取信息。
  2. 查询构建:根据出发城市、目的地、日期范围等基本信息构建旅行查询。
  3. 人类标注:由人类专家为合成的查询生成可行的旅行计划。
  4. 质量控制:确保每个查询都有至少一个可行的计划,并对自然语言查询及其对应的计划进行详细审查。
  5. 旅行规划服务:TravelPlanner 可以作为开发智能旅行规划助手的基础,帮助用户规划旅行路线、预订航班和住宿。
  6. AI 代理研究:研究人员可以使用 TravelPlanner 来测试和改进语言代理在复杂任务中的规划能力。
  7. 教育和培训:TravelPlanner 可以作为教学工具,帮助学生理解旅行规划的复杂性和 AI 在这一领域的应用。

具体应用场景:

在 TravelPlanner 中,语言智能体需要模拟真实的人类旅行规划过程,例如根据给定的出发地、目的地、时间和预算,查找合适的航班、预订符合要求的住宿、安排多样化的用餐选择以及游览景点等。然而,当前最先进的大型语言模型(如 GPT-4)在这类复杂任务上的成功率仅为 0.6%,表明现有的语言智能体还不能有效应对此类多约束规划任务。

尽管当前结果不尽人意,但 TravelPlanner 为未来研究提供了一个有意义且富有挑战性的平台,促使人工智能社区继续努力研发更高级别的语言智能体,使其能在更加接近人类日常操作的真实复杂环境中实现有效的规划能力。同时,值得注意的是,即使现在语言智能体的表现还有待提高,但它们能够尝试解决这种复杂的任务本身已经是 AI 领域的一项重要进展。随着技术的发展,未来的语言智能体有望帮助人们快速高效地完成诸如旅行规划这类繁琐的任务。

国内研究人员发布论文探讨了大语言模型(LLMs)在动态、互动和竞争场景中的决策能力,特别是在商业策略和股票市场分析等领域。研究者们通过两个基于博弈论的挑战性游戏来评估 LLMs 在快速变化环境中的动态推理能力。这些游戏设计得既明确又可控,便于精确评估 LLMs 的性能。

论文地址:https://arxiv.org/abs/2402.01521

大语言模型(LLMs)在动态、互动和竞争场景中的决策能力

主要功能:

  • 提升 LLMs 在动态环境中的决策和推理能力。
  • 通过模拟对手的行为和预测其后续动作,帮助 LLMs 做出更战略性的决策。

主要特点:

  1. K 级推理(K-Level Reasoning):这是一种新颖的推理方法,它通过递归地模拟对手的思考过程,基于可用的历史信息来预测对手的后续行动。
  2. 动态环境适应性 :K 级推理方法能够使 LLMs 更好地理解和适应动态变化的环境,从而在竞争中保持优势。

工作原理: K 级推理方法的核心是模拟对手的思考层次(k-level thinking),即预测对手可能的行动和策略。这个过程是递归的,LLMs 会根据对手的历史行为来预测他们可能的选择,并据此做出自己的决策。这种方法允许 LLMs 在决策时考虑到对手可能的反应,从而做出更优的选择。

具体应用场景:

  • 商业策略 :在商业环境中,企业需要不断调整策略以应对竞争对手的行动。K 级推理可以帮助企业预测市场动态和竞争对手的策略,从而制定出更有效的商业计划。
  • 股票市场分析 :投资者需要预测市场走势和他人的行为来做出投资决策。K 级推理可以辅助投资者理解市场集体行为,预测资产价值,以及如何在变化的市场中做出最佳投资选择。

总的来说,这项研究不仅为评估 LLMs 在动态推理方面提供了一个强有力的量化基准,而且显著提高了 LLMs 在动态环境中的决策能力。

来自复旦大学自然语言处理实验室、华中科技大学、瑞典 KTH 皇家理工学院的研究人员推出代码生成框架 StepCoder,旨在解决大型语言模型(LLMs)在生成复杂代码时面临的挑战,特别是在人类需求复杂时,代码生成任务变得困难。此框架结合了强化学习(RL)和编译器反馈。StepCoder 通过两个主要组件来提高代码生成的质量:Curriculum of Code Completion Subtasks(CCCS)和 Fine-Grained Optimization(FGO)。

论文地址:https://arxiv.org/abs/2402.01391

主要功能:

  • 提高代码生成的质量,特别是在处理复杂人类需求时。
  • 使用强化学习来优化模型,通过编译器反馈来指导模型生成更准确的代码。

主要特点:

  1. CCCS(课程式代码完成子任务):将复杂的代码生成任务分解为一系列更简单的子任务,逐步增加难度,帮助模型更容易地探索和学习。
  2. FGO(细粒度优化):在优化模型时,只考虑在单元测试中执行的代码片段,忽略未执行的部分,以提高优化的精确性。

工作原理:

  • CCCS:在训练初期,模型从接近目标状态(即代码的后半部分)开始探索,随着训练的进行,逐步向代码的起始部分移动。这样,模型可以从简单的序列开始学习,逐渐掌握更复杂的代码结构。
  • FGO:在计算损失函数时,使用动态掩码技术来屏蔽单元测试中未执行的代码片段,确保模型只基于执行的代码片段进行优化。

具体应用场景:

  • 代码生成 :StepCoder 可以用于自动生成符合特定编程要求的源代码,特别是在需要生成较长、复杂代码序列的任务中。
  • 编程教育和辅助 :作为编程教育工具,帮助学生或开发者理解代码结构,提供编程练习的解决方案。
  • 软件开发 :在软件开发过程中,StepCoder 可以辅助开发者快速生成代码,提高开发效率。

StepCoder 通过其创新的训练方法和高质量的数据集 APPS+,展示了在代码生成任务中,强化学习能够有效地提高生成代码的质量和效率。