共计 4991 个字符,预计需要花费 13 分钟才能阅读完成。
AI·快讯
1、微软发布 Turing Bletchley v3 视觉语言模型:必应搜索图片更精准
微软今天发布新闻稿,宣布推出第三代 Turing Bletchley 视觉语言模型,并逐步整合到必应(Bing)等相关产品中,可以大幅改进图像搜索体验。微软于 2021 年 11 月发布初版 Turing Bletchley 视觉语言模型,并于 2022 年秋季开始邀请用户,测试 Turing Bletchley v3 视觉语言模型。经过长时间的打磨之后,微软不断根据用户的反馈和建议,积极调整该模型,能够根据关键词提供更精准的图像内容。从博文中获悉,以中文“吃冰激凌的狗”为例,搜索结果更加符合关键词内容。微软表示目前已使用 Turing Bletchley v3 视觉语言模型,用于审核 Xbox 游戏服务上的内容,它可以帮助团队识别 Xbox 玩家上传到其个人资料中的图像和视频,营造更和谐的社区环境。(来源)
2、OpenAI 料将在未来 12 个月获得超过 10 亿美元营收
OpenAI 料将在未来 12 个月从人工智能软件和计算能力的销售中获得超过 10 亿美元营收。该报道还称,OpenAI 目前每月的收入超过 8000 万美元(当前约 5.83 亿元人民币),而去年全年的收入仅为 2800 万美元。除了 ChatGPT 之外,OpenAI 还通过直接向开发者和企业出售其 AI 模型的 API 访问权限以及通过与微软合作来赚钱,微软在今年 1 月向该公司投资了超过 100 亿美元。
3、谷歌云与英伟达宣布扩大合作伙伴关系
当地时间 8 月 29 日,谷歌云与英伟达宣布扩大合作伙伴关系以推进 AI 计算、软件和服务的发展。英伟达创始人兼首席执行官黄仁勋表示,“我们正处于一个拐点,加速计算和生成式人工智能结合在一起,以前所未有的速度加速创新。我们与谷歌云扩大合作将帮助开发人员加快基础设施、软件和服务的工作,从而提高能源效率并降低成本。”
4、微软招募首席软件工程师,推进 Xbox 游戏业务整合 AI 元素
根据微软官方更新的招聘信息,微软内部已组建名为“Xbox Gaming AI”的专业团队,借助生成式 AI 等技术的力量,负责为 Xbox 游戏和引擎带来全新的体验。Xbox Emerging Technologies 招聘信息显示,公司计划招募一位首席软件工程师,要求在游戏和 AI 两个领域都有资深经验,负责领导 Xbox Gaming AI 团队。微软在招募信息中表示,希望该工程师通过深度学习、增强基础模型等方式,帮助团队创建“Game AI”的未来。单从招聘信息来看,微软正在积极拓展 AI 在游戏领域的应用,但具体会有哪些改进目前不得而知。
5、微软完成基础设施升级,已邀请部分必应聊天用户测试第三方插件
微软于今年 5 月宣布,为必应聊天(Bing Chat)引入第三方插件,不过随后由于要升级相关的基础设施,导致推迟上线时间。微软 8 月 14 日发布基础设施升级已完成 99% 之后,国外科技媒体 Windows Latest 报道,微软目前已完成基础设施升级,并邀请极少数用户,测试全新的第三方插件。(来源:IT 之家)
6、机构示警:AI 生成的蘑菇科普书籍存在诸多错误,误食严重可导致死亡
非营利组织纽约真菌学会(NYMS)近日发出警告,表示亚马逊为代表的电商平台上,充斥着各种 AI 生成的蘑菇觅食科普书籍,其中存在诸多错误。如果某人在野外求生中,根据这些 AI 书籍的知识食用蘑菇,严重的可能会导致死亡。该机构表示亚马逊和其它电商平台上,各种 AI 生成的科普书籍泛滥,这对于入门,以及对某个知识不太熟悉的用户来说,如果误信这些错误信息,可能意味着“life or death”(生或死)。(来源:IT 之家)
7、谷歌 DeepMind 推出 SynthID 工具,能在 AI 生成的图像中嵌入隐形水印
为了应对日益增长的 AI 生成图像的问题,谷歌 DeepMind 团队今日推出了一款名为 SynthID 的工具,可以在 AI 生成的图像中嵌入人眼不可见的水印,但可以用专门的人工智能检测工具检测出来,以便于区分真实和虚假的内容。该工具已经在谷歌云平台上向部分客户开放。SynthID 的原理是在图像的像素中嵌入一个水印,但不会影响图像本身的质量和体验。该水印可以抵抗裁剪、缩放等常见的图片编辑操作,只有专门的 AI 检测工具才能识别出来。谷歌 DeepMind 的 CEO Demis Hassabis 表示,这种水印随着 AI 模型的改进,会变得更加隐蔽和强大。(来源:IT 之家)
8、谷歌推出全新人工智能助理 Duet AI:覆盖所有 Workspace 应用,月费 30 美元
谷歌今天宣布,将在所有的 Workspace 应用中推出人工智能助理 Duet AI,包括 Gmail、Drive、Slides、Docs 等。该公司表示,Duet 技术已经测试了一段时间,已经有超过一百万人体验了这款虚拟助手。现在,任何付费使用谷歌 Workspace 应用的用户都可以使用 Duet AI。Duet AI 也是一个涵盖很多应用特定功能的统称,在 Google Meet 中使用 Duet AI 意味着基于人工智能的光照和声音调整以及自动会议总结;在 Chat 中使用 Duet AI 意味着聊天长文自动摘要,让你不用花太多时间阅读。(来源:IT 之家)
9、植入物结合 AI 将大脑信号转为语音
荷兰拉德堡德大学和乌得勒支大学科学家成功将人类的大脑信号转化为人们能听得见的语音。借助植入物和人工智能解码来自大脑的信号,他们能够预测用户想说的话,准确率为 92% 至 100%。研究人员希望这项技术能够帮助瘫痪且无法沟通的患者再次“发声”。相关论文发表于最新一期《神经工程杂志》。(来源:科技日报)
10、行业面临生存威胁,美国媒体巨头正与 OpenAI 展开技术冷战
ChatGPT 等人工智能工具的强大有目共睹,在可预见的将来,一个个行业将被其颠覆,而媒体行业也不例外。因此,美国一些最大的新闻媒体正在积极采取防御措施,保护自己的内容不受 ChatGPT 的“侵略”。近期以来,多家新闻媒体在他们的网站上加入了新的代码,阻止 OpenAI 的网络爬虫工具 GPTBot 扫描他们的平台上的内容。据《卫报》上周报道,CNN、纽约时报和路透社已经屏蔽了 GPTBot。(来源:财联社)
11、阿联酋推出开源阿拉伯语 AI 大语言模型 Jais,拥有 130 亿参数
据 HuggingFace 页面显示,阿联酋研究团队近日宣布开源阿拉伯语大模型 Jais。据悉,Jais 是一个经过 130 亿个参数预训练的阿拉伯语和英语双语大型语言模型,在包含 720 亿个阿拉伯语词块和 2790 亿个英语 / 代码词块的数据集上进行训练。该模型由 Cerebras、阿联酋人工智能大学和 G42 旗下子公司 Inception 合作研发。目前这款模型现已开源,用户可以从 HuggingFace 下载其代码。
12、美图公司 AI 数字人生成工具 DreamAvatar 上线
据美图官方消息,美图公司旗下 AI 数字人生成工具 DreamAvatar 上线,首期推出“AI 演员”数字人服务,以 AI 驱动为核心,服务于视频内容创作、影视处理与剪辑等生产力场景。DreamAvatar“AI 演员”数字人的生成,不需要专业设备,一台手机就能轻松搞定。用户只需要将拍摄好的视频素材导入,并指定视频里的人物,剩下的一切都交给 AI 来操作。AI 会进行人体检测、跟踪、擦除、替换,以及背景修复,自动把真人替换成数字人。利用 3D 人体姿态估计和驱动算法,DreamAvatar 的 AI 演员能够做到动作与真人完美同步。目前,DreamAvatar“AI 演员”支持最长 10 秒视频的转化,共推出了机器人、兽人、类人三大题材共计 11 个不同风格的数字人形象,每个题材从造型风格、渲染风格都做了不同方向的细化,以给到用户多样性的体验和选择。
13、韩国科学技术院大学发布论文,为无声电影生成语音
韩国科学技术院大学的研究人员近日发布论文,介绍了一款利用大模型技术来为无声电影配音的方法。研究团队希望从无声视频中通过唇部运动来生成高质量语音,完成唇语到语音的转换。该方法使用自监督语音表示来消除同音异形,使用声学变异信息来建模多样化的语音风格。此外,研究团队还采用了基于流的后处理网络来捕捉和优化生成语音的细节。论文表示,该方法在语音自然性和可理解性方面达到了接近真实人类语音的生成质量。
14、同方知网与华为云签约共建“华知大模型”:基于盘古打造,面向知识服务行业
据同方知网官方消息,今日,在华为云盘古大模型主题论坛上,同方知网数字出版技术股份有限公司(以下简称“同方知网”)与华为云计算技术有限公司(以下简称“华为云”)正式签署中华知识大模型(以下简称“华知大模型”)及人工智能联合创新实验室合作协议。双方将基于华为云盘古大模型打造知识服务行业的 AI 大模型,实现知识服务行业高度智能化发展,推进更深层次的行业数字化转型。(来源:IT 之家)
15、AI 滥用版权内容,英国呼吁放弃版权豁免计划
据报道,一群英国国会议员日前呼吁政府对人工智能系统执行更明确和更严格的规则,以免一些版权内容被非法利用。英国文化、媒体和体育委员会(CMSC)周三在一份报告中称,为了尽快吸引人工智能企业和技术进入英国,政府提出了一项新的版权法豁免建议。如果该提议被通过,那么受版权保护的艺术和文化内容就将轻易沦落为生成式人工智能的培训资料。(来源:新浪科技)
AI·新创
1、降低法律咨询服务门槛,「LegalNow」推出 AI 法律协议咨询产品
AI 法律咨询服务商「LegalNow」,创办于 2023 年初,团队希望在 AI 大模型的基础上,打磨应用层产品,最终实现让 AI 完成更便捷、性价比更高的法律咨询服务。创始人 MasterLi 多年从事律师行业,他告诉 36 氪,律师的工作大体可抽象为两种能力,第一种是在客户错综复杂的事件及需求中找出一条法律逻辑,第二种则是将这样的逻辑结合法律规定和项目实际情况,为客户提供一个针对性的结论或解决方案。(来源:36 氪)
2、「小象智合」发布生成式 AI 设计系统,让包装设计“从一句话到生产交付”
从设计到生产的一站式包装智能服务平台「小象智合」发布了自研的生成式人工智能设计系统「ELEAI」,有望实现让用户通过对话指令,就可以得到从设计到最终包装及印刷成品的端到端体验。「小象智合」是一家专注于从设计到生产的包装印刷工业互联网平台,成立于 2015 年,总部位于北京,致力于通过在线包装设计平台、包装设计 SaaS 系统、包装设计生产管理系统、品牌一致性管理系统等一站式解决方案,帮助品牌实现敏捷、柔性的包装设计生产需求。(来源:36 氪)
3、清华 AIR 孵化,前阿里首席科学家“坐镇”,「水木分子」开源百亿参数生物医药大模型
水木分子由清华大学智能产业研究院(AIR)孵化,专注于开发生物医药行业基础大模型及新一代对话式生物医药研发助手,已于近期完成千万级种子轮融资。首席科学家聂再清同时担任着清华大学国强教授、AIR 首席研究员,在此之前,他更为人熟知的职业标签是阿里达摩院“大牛”、天猫精灵首席科学家。探索大数据与 AI 在医疗健康领域的应用,是这样一位产业界“老兵”在 2020 年年底重返清华后的主要工作之一。他带领团队在生物医药大数据领域开展了系列探索,通过大模型将复杂多模态生物医药数据、知识进行统一表示学习,提升药物研发任务效率。(来源:36 氪)
4、提供大模型开发环境,Modular 获 1 亿美元 A 轮融资
AI 初创企业 Modular 宣布获得 1 亿美元 A 轮融资,本次由 General Catalyst 领投资,谷歌风投、SV Angel、Greylock 等跟投。Modular 提供一种开发引擎,可将大模型实现模块化开发,无需重写或转换就能执行在 TensorFlow、PyTorch 框架中训练的模型,将其快速部署在服务器中实现场景化落地。Modular 还针对 AI 开发人员,开发了一种全新的编程语言 Mojo。据 Modular 介绍该编程语言的开发效率比 Python 快 90 倍。资料显示,Modular 创立于 2022 年 1 月,总部位于美国旧金山湾区。两位联合创始人 Chris Lattner、Tim Davis 曾在谷歌、苹果、特斯拉等世界知名企业担任过开发岗位领导者。
