【2023年8月22日AI晚报】清华大学联合字节跳动推出全新开源听觉大语言模型SALMONN；Meta 发布全新 AI 模型 SeamlessM4T

文章目录[隐藏]

[t-success icon='']AI·快讯[/t-success]

[t-success icon='']AI·快讯[/t-success]

1、微软邀请A3/A5 Microsoft 365用户，测试必应聊天企业预览版

微软8月22日发布新闻稿，邀请已经购买 A3 或者 A5 的 Microsoft 365 用户，测试必应聊天企业版（Bing Chat Enterprise）预览版。相比较常规版必应聊天，企业版最大的亮点在于，不会保存相关聊天数据，微软也不会使用这些数据来训练其 AI 模型。

2、最高 9.9 倍，微软推出 Olive 工具：大幅优化 AMD GPU 运行 AI 模型性能

微软公司近日发布新闻稿，介绍了全新的 Microsoft Olive 工具，最多可以让 AMD 旗下的 GPU 显卡运行模型性能提升 9.9 倍。Microsoft Olive 是由 Python 语言开发的工具，可以大幅优化 AMD GPU 运行大语言模型的性能。新闻稿中表示 Radeon RX 7900 XTX GPU 在启用 Microsoft Olive 工具之后，以运行 Stable Diffusion 模型为例，基于文本生成图像性能明显提升。Microsoft Olive 可以转换、优化、量化和自动调优模型，从而最大化性能输出。AMD 在官方测试中表示，在默认 PyTorch 路径上运行，AMD Radeon RX 7900 XTX 每秒提供 1.87 次迭代；不过开启 Microsoft Olive 工具优化模型之后，该 GPU 每秒可以迭代 18.59 次。（来源）

3、国际劳工组织发布报告，生成式 AI 重点影响女性为主的文书岗位

国际劳工组织（ILO）近日发布报告，表示生成式 AI 固然不会接管、替代所有人的工作，但对于以女性为主的文书岗位会产生较大影响。研究报告称尤其在发达国家，在文书相关岗位中女性员工的占比更高。在高收入国家，8.5% 的女性就业岗位可以实现高度自动化，而男性就业岗位占比为 3.9%。研究报告认为大多数工作岗位和行业开始朝着自动化方向发展，生成式 AI 是现有岗位的补充，而非替代。报告认为受生成式 AI 影响最大的岗位是文书工作，大约四分之一的工作可以通过自动化方式完成，交由生成式 AI 来生成文本、图像、声音、动画、3D 模型和其他数据。报告认为经理和销售人员等大多数其它职业受到生成式 AI 的影响并不会太大。（报告地址）

4、《纽约时报》屏蔽 OpenAI 的网络爬虫，禁止将其内容用于 AI 训练

《纽约时报》已经屏蔽了 OpenAI 的网络爬虫，这意味着 OpenAI 不能使用该出版物的内容来训练其人工智能模型。查看《纽约时报》的 robots.txt 页面，就可以看到《纽约时报》封禁了 GPTBot，这是 OpenAI 本月早些时候推出的爬虫程序，据悉《纽约时报》早在 8 月 17 日就屏蔽了这个爬虫。值得一提的是，《纽约时报》本月初更新了其服务条款，该条款禁止使用其内容来训练人工智能模型，《纽约时报》还在考虑对 OpenAI 提起知识产权侵权的法律诉讼。

5、云从科技：正式发布从容大模型1.5版本

云从科技于8月21日发布从容大模型1.5版本。该版本包含十亿级、百亿级、千亿级多种模型规格，实测性能在全球大模型综合性考试评测（C-Eval）中位居百亿级第1，总榜单第4。为了解决大模型落地的难题，从容1.5版本的重点是参数量为130亿的行业大模型，该模型从千亿大模型中蒸馏产生，在52类测试指标中有44类超过ChatGPT、29类超过GPT-4，这距离从容大模型正式发布仅仅过去2个多月时间。

6、美国法官最新裁定：纯AI生成的艺术作品不受版权保护

美国华盛顿一家法院近日裁定，根据美国政府的法律，在没有任何人类输入内容的情况下，人工智能(AI)创作的艺术作品不受版权保护。国地区法官Beryl Howell上周五(8月18日)表示，只有人工智能与人类作者合作的作品才能获得版权，并确认美国版权局驳回了计算机科学家Stephen Thaler代表其DABUS系统提出的申请。Thaler认为自己的人工智能系统DABUS拥有创造的艺术作品的版权，但美国版权局拒绝了他的申请，理由是"人类思维与创造性表达之间的联系"是版权保护的关键要素。

7、AI透过胸片估测患者年龄

日本科学家开发出一种先进的人工智能（AI）模型，能利用患者的胸部X射线影像准确估计其实际年龄。更重要的是，当发现估计年龄与真实年龄出现较大差异时，AI还可揭示患者罹患慢性病的情况。此项发现标志着医学影像学的巨大飞跃，为改进早期疾病检测和干预铺平了道路。研究结果发表于最新一期《柳叶刀·健康长寿》杂志。

8、巨量引擎：推出AI智能成片工具

近日，巨量引擎推出一款AI智能混剪工具，免费开放给抖音商家使用。据介绍，该款工具只需3条商品空镜素材，智能成片5分钟即可生成10+条符合抖音爆款的带货短视频。

9、清华大学联手字节跳动，推出全新开源听觉大语言模型

据 Github 页面显示，清华大学近日联手字节跳动，推出全新开源大语言模型SALMONN 。据介绍，SALMONN支持语音、音频以及音乐输入，他可以感知和理解不同类型的音频内容输入，并具备多语言语音识别和翻译以及语音推理等功能。据悉，SALMONN 与传统的语音识别、音频字幕生成等语音和音频处理任务相比具备更好的通用性，同时可以准确地听从使用者的指令。

10、ChatGPT 自定义指令功能已向欧洲和英国用户开放

据 OpenAI 官方消息，ChatGPT 的自定义指令功能现已面向欧洲和英国用户开放。自定义指令功能是 OpenAI 在今年7月底引入的新功能。该功能将在ChatGPT定制化一些指令，让机器人更具有个性化特色，满足使用者的需求，而且用户不用再在每次对话中重复偏好和信息。OpenAI 近期仍将重点放在 ChatGPT 的功能更新上，近期他们为ChatGPT更新了一系列小功能，比如提示词提醒、快捷键等等。此外， ChatGPT还在测试内容审核功能。

11、腾讯悄然为 QQ 客户端“用户二维码”引入“AI 生图”功能

腾讯 QQ 团队更新了 QQ 版本 8.9.75，悄然为移动平台的 QQ 客户端的“用户二维码”功能，改为“AI 生图”形式，官方在更新内容中宣称“二维码炫彩升级，趣味样式，精彩换不停”。腾讯 QQ 客户端新版“用户二维码”功能目前生成的图片大致以“隐藏有二维码的动漫人物图片”为主，但偶尔也会生成不同风格的纯二维码图片。

12、Meta 发布全新 AI 模型 SeamlessM4T，可转录和翻译近百种语言

Facebook 的母公司 Meta Platforms 今日发布了一种能够翻译和转录数十种语言的人工智能模型 ——SeamlessM4T，可以让说不同语言的人更有效地进行交流，为开发人类通用语言翻译器提供了助力。Meta 声称，SeamlessM4T 将与新的翻译数据集 SeamlessAlign 一同开源，它代表了人工智能驱动的“语音到语音”和“语音到文本”领域的“重大突破”。Meta 表示，该模型可以在近 100 种语言之间进行文本到语音的翻译，并支持 35 种语言的完全语音到语音翻译，而此前要想实现类似的操作只能在单独的 AI 模型中分别进行翻译。（来源:IT之家）

SeamlessM4T 支持：

1、近 100 种语言的语音识别。

2、近 100 种输入和输出语言的语音到文本翻译。

3、支持近 100 种输入语言和 36 种输出语言的语音到语音翻译。

4、支持近 100 种语言的文本到文本翻译。

5、支持近 100 种输入语言和 35 种输出语言的文本到语音翻译。

13、消息称微软将与 Databricks 公司合作，作为 OpenAI 外的另一种人工智能选择

据外媒 The Information 报道，虽然微软目前正青睐 OpenAI，此前已经向该公司投资 130 亿美元，但微软考虑到其不应当拘泥于一家公司，因此微软近日将与 Databricks 公司展开合作，作为 OpenAI 外的另一种人工智能解决方案选择。外媒表示，微软计划在 Azure 云服务中应用 Databricks AI 技术，这项服务可让用户打造自己 AI 模型，或使用平台提供的预设 AI 模型。（来源:IT之家）

[t-success icon='']AI·新品[/t-success]

1、频率探索获数千万元A轮融资，提供工业AI预测性维护解决方案

频率探索成立于2021年，是一家工业AI预测性维护公司。公司掌握了大量的工业设备机理研究数据及信号分析诊断方法，能够为设备故障提供早期诊断、故障量化、寿命预测及智能运维服务。预测性维护是工业互联网平台建设中的重要一环，能有效帮助企业更好监控、预测设备健康状况和运行维护。2022年5月1日，全国首项预测性维护国家标准开始实施，为预测性维护概念做了分类和推广。（来源：36氪）

AI PC装机指南