【2023年10月9日AI晚报】全球首个70B长文本大语言模型LongAlpaca；微软发布166页多模态大模型GPT-4V说明书

154次阅读

共计 3629 个字符，预计需要花费 10 分钟才能阅读完成。

AI·快讯

10 月 9 日，港中文贾佳亚团队宣布联合 MIT 发布超长文本扩展技术 LongLoRA，据介绍，两行代码、一台 8 卡 A100 机器，可以将 7B 模型的文本长度拓展到 100k tokens，70B 模型的文本长度拓展到 32k tokens。同时，该研究团队还基于 LongLoRA 技术，发布全球首个拥有 70B 参数量的长文本对话大语言模型 LongAlpaca。目前，LongLoRA 技术和 LongAlpaca 已开源。（来源：智东西）

代码和 Demo 地址：https://github.com/dvlab-research/LongLoRA
论文地址：https://arxiv.org/pdf/2309.12307.pdf

近年来，不法分子不断翻新诈骗手段，让金融消费者防不胜防，个人财产安全受到严重威胁。IT 之家注意到，国家金融监督管理总局北京监管局近日发布风险提示，提醒消费者近期重点防范三种新型欺诈手段，守护家人亲朋财产安全。（来源：IT 之家）

AI 大模型是近年来人工智能领域的热门话题，它们可以实现各种令人惊叹的功能，如生成逼真的文本和图像，或者与人类进行流畅的对话。但这些大模型的背后，却有着一群默默无闻的数据标注员，他们每天为了给原始数据添加标签而辛苦工作，为 AI 技术提供训练所需的海量数据。（来源：IT 之家）

微软在 9 月 26 日发布了 Windows 11 的 9 月 26 日更新，其中包含了一项新的功能：Windows Copilot。这是一款基于人工智能的智能助手，可以与 Windows 的各种应用和功能交互，包括 Microsoft Office、画图、照片、Windows 设置等。Copilot 是 Bing Chat 的一部分，由 ChatGPT 和微软自己开发的大型语言模型（LLMs）驱动。不过，Copilot 并不是对所有用户都开放，目前只有美国（和北美）、英国以及部分亚洲和南美国家的用户可以使用。（来源：IT 之家）

《魔戒：咕噜》是一款根据托尔金的经典小说改编的授权游戏，由德国的 Daedalic Entertainment 开发，法国的 Nacon 发行。该游戏于 2023 年 9 月上市后，遭到了玩家和媒体的普遍差评，被认为是一款“令人失望”的作品。开发商随后发布了一封道歉信，承诺会通过后续更新来改善游戏体验。然而，最近有爆料称，这封道歉信竟然是由人工智能软件 ChatGPT 写出来的。（来源：IT 之家）

视觉中国官方公众号发布，该公司与华为云近日正式签署关于视觉大模型的合作协议，双方将以华为云盘古大模型为基础打造视觉大模型。在此次签约仪式之前，华为在上海举办了 2023 年华为全联接大会，主题为“加速行业智能化”，视觉中国也应邀参加了这一活动。早在 2023 年 7 月的华为云开发者大会上，视觉中国作为华为云大模型高质量数据联盟首倡单位参与了大会。视觉中国称，未来将与华为云携手共进，实现多模态大模型生态建设。双方将充分发挥各自的优势，积极推动视觉大模型项目的落地，加速人工智能在互联网行业的创新应用，为不断拓展无限创意的内容产业未来开辟新的前景。

据机器之心报道，9 月 29 日，微软发布针对 OpenAI 多模态大模型 GPT-4V 的 166 页“说明书”，覆盖详细测评和提示词使用技巧。该报告共分为 11 个章节，重点是对 GPT-4V 进行分析，以加深大众对大型多模态模型的理解。文章用很大篇幅介绍了 GPT-4V 可以执行的任务，包括用测试样本来探索 GPT-4V 的质量和通用性，现阶段 GPT-4V 能够支持的输入和工作模式，以及提示模型的有效方法。此前，OpenAI 于当地时间 25 日发布了 GPT-4V 视觉模型及其系统卡论文，但文档只有 18 页，很多内容都无从得知。

报告地址：https://arxiv.org/pdf/2309.17421.pdf

据新智元报道，10 月 5 日，来自威斯康星大学麦迪逊分校、微软研究院以及哥伦比亚大学的研究人员开源发布了端到端多模态大模型 LLaVA-1.5。据介绍，该模型不仅在 11 个基准测试上实现了 SOTA，甚至还可以直接对打 GPT-4V。此前，该团队于今年 4 月发布了 LLaVA 大模型。此次升级，研究人员通过使用带有 MLP 映射的 CLIP-ViT-L-336px，添加具有简单响应格式提示的、面向学术任务的 VQA 数据，大幅提升了 LLaVA-1.5 的性能。实验结果显示，架构更加简单的 LLaVA-1.5 只需要 120 万公开数据，即可超越用了 14.5 亿训练数据的 Qwen-VL 和 1.3 亿数据的 HuggingFace IDEFICS。其中，13B 模型的训练只需要 8 个 A100 芯片就可以在 1 天内完成。

论文地址：https://arxiv.org/abs/2310.03744
GitHub 开源地址：https://llava-vl.github.io

英国巴斯大学的 REVEAL 研究中心领导的一项新研究发现，观看一段使用深度伪造（deepfake）技术将自己的脸替换到别人身上的教学视频，与观看别人的教学视频相比，可以让学习变得更快、更轻松、更有趣。这一发现在两个不同的实验中得到了验证，一个是健身训练，另一个是公共演讲。在健身实验中，参与者观看了自己的脸被贴在一个更高水平的运动员身上的视频，然后模仿视频中的动作。结果显示，参与者在观看“自己”的视频后，无论是动作次数还是时间都有所提高，而且更加享受训练。在公共演讲实验中，参与者观看了自己的面部被贴在一个优秀的演讲者身上的视频，然后进行演讲。结果显示，参与者在观看“自己”的视频后，无论是信心还是演讲能力都有所提升，而且更加感到鼓舞和自豪。（来源：IT 之家）

美图公司今日发布自研 AI 视觉大模型 MiracleVision（奇想智能）3.0 版本。据了解，MiracleVision3.0 将全面应用于美图旗下影像与设计产品，并将落地电商、广告、游戏、动漫、影视五大行业。此外，美图还公布了 6 月 19 日发布的影像生产力工具最新数据：AI 视觉创作工具“WHEE”的优质 AI 效果生成数超过 550 万张；AI 口播视频工具“开拍”月活跃用户数突破 35 万；桌面端 AI 视频编辑工具“WinkStudio”累计服务近 10 万名视频创作者；主打 AI 商业设计的“美图设计室”助力近百万中小电商卖家降本增效；美图 AI 助手“RoboNeo”每天帮助近万名用户自动修图，比传统修图效率提升 35%。

体验地址：https://www.whee.com

美国风投公司 a16z 对目前市场上流量最高的 50 款面向 C 端用户开放的 AI 产品进行了排名。a16z 声称，此次排名主要参考的是 SimilarWeb 截至 2023 年 6 月的网站流量数据，对于有 App 的产品则是以估算（方法为 MAU 乘以每个用户平均月访问次数）流量数据，并进行了加权。a16z 同时表示，该榜单中不包括“没有提供网页版”的产品，也并未统计类似 Midjourney 等需要依托 Discord 等第三方平台来运行的产品。（来源：IT 之家）

谷歌旗下云部门 Google Cloud 今日发布了新的人工智能（AI）支持的搜索功能，可以帮助医护人员从不同类型的医疗记录中快速提取准确的临床信息。医疗保健行业拥有大量有价值的信息和数据，但临床医生很难找到这些信息和数据，因为它们通常是通过多种系统和格式存储的。而谷歌云今日发布的新搜索工具，将允许医生从临床记录、扫描的文档和电子健康记录中提取信息，这样就可以在一个地方访问这些信息。（来源：IT 之家）

据 BBC 报道，英国数据监管机构指责 Snapchat 旗下 My AI 功能给用户（尤其是儿童）带来潜在隐私风险。信息专员办公室（ICO）警告称，经过“初步调查”后，可能会关闭英国的 My AI 功能。Snapchat 表示正在“仔细审查”临时调查结果。Snapchat App 在英国拥有 2100 万用户，其中许多是儿童。ICO 表示特别担心 13-17 岁用户的潜在隐私风险。（来源：IT 之家）

正文完

关注公众号获取最新教程