【2023年12月11日AI晚报】欧盟就《人工智能法案》达成协议；智谱AI发布文本质量评价模型CritiqueLLM

193次阅读

共计 2987 个字符，预计需要花费 8 分钟才能阅读完成。

AI·快讯

在历经马拉松式谈判后，欧洲议会、欧盟成员国和欧盟委员会三方 8 日晚就《人工智能法案》达成协议，该法案将成为全球首部人工智能领域的全面监管法规。欧盟内部市场委员蒂埃里·布雷东在社交媒体上发文表示：“欧盟成为第一个为人工智能使用设立明确规则的地区。《人工智能法案》不仅是一本规则手册，也将成为欧盟初创企业和研究人员引领全球人工智能竞赛的助推器。”（来源：新华社）

英国竞争和市场管理局（CMA）当地时间 12 月 8 日表示，其正在收集来自利益相关者的信息，以确定微软与 OpenAI 两家公司的合作是否威胁到谷歌人工智能研究实验室 Deepmind 总部所在地英国的市场竞争。对此，OpenAI 发言人表示，“微软的无投票权董事会观察员席位并未向他们提供管理职权或对 OpenAI 运营的控制权。”

微软 Edge Copilot 本月初解锁一项新技能，可以处理 YouTube 视频信息，帮助你总结视频内容。在经过媒体报道之后，微软广告与网络服务部门 CEO 米哈伊尔・帕拉欣（Mikhail Parakhin）也坦言，Edge Copilot 这项技能当前存在局限性。Edge Copilot 除了能显示视频摘要可以生成时间戳，即使上传的 YouTube 视频本身不包含时间戳，Copilot 也能通过分析视频内容，自动生成关键部分的时间戳和摘要，为观众提供详细的内容概览，无需手动快进视频。（来源：IT 之家）

OpenAI 的 GPT-4 大语言模型日前遭到部分用户投诉，部分用户表示，这段时间使用 ChatGPT 或 GPT-4 API 时，会遇到高峰期速度非常慢、敷衍回答、拒绝回答、中断会话等一系列问题。综合外媒 The Independent 等报道，上述问题通常会以这类形式体现：若用户请求 GPT-4 输入一段代码，它可能会只提供一些信息，随后再指示用户填写剩下的其他部分。有时候，GPT-4 甚至会告诉人们“你们完全可以自己完成这些工作”。（来源：IT 之家）

OpenAI“宫斗大戏”第一季，以山姆・阿尔特曼（Sam Altman）的回归暂告段落，而第二季可能“即将上演”。根据国外媒体 Business Insider 报道，自阿尔特曼回归以来，“宫斗”的另一个关键人物伊尔亚・苏茨克维（Ilya Sutskever）就没有出现在 OpenAI 旧金山的办公室内。（来源：IT 之家）

据彭博社、Tom’s Hardware 等外媒当地时间周五报道，谷歌发言人在采访中承认，前段时间谷歌发布的大语言模型 Gemini 演示视频并非实时录制。乍看之下，这个一镜到底的视频中，Gemini 模型可发现藏在指定塑料杯内的纸团，或者看出一张“连点成线”的图片画的是螃蟹。但是，谷歌发言人告诉彭博社，这段演示视频是利用镜头中的静止图像帧和文字提示“拼凑”而成的，Gemini 只能对输入的提示和静态图像做出反应。同样，视频中用户与 Gemini 的语音互动也由后期配音完成。（来源：IT 之家）

一项新的研究显示，ChatGPT 可能并不适合用来获取医疗信息。长岛大学的研究人员向 ChatGPT 询问了 39 个与药物相关的问题，这些问题都是来自该大学药学院药物信息服务中心的真实问题。随后，他们将 ChatGPT 的回答与经过培训的药剂师编写的答案进行比较。研究发现，ChatGPT 只有大约 10 个问题的回答是准确的，占总数的四分之一。对于其他 29 个问题，ChatGPT 的回答要么不完整，要么不准确，要么没有解决问题。（来源：IT 之家）

特斯拉 CEO 埃隆·马斯克认为，OpenAI 联合创始人和首席科学家伊利亚·苏茨克沃应该跳槽到特斯拉或他旗下的人工智能初创公司 xAI。上个月，苏茨克沃和其他 OpenAI 董事会成员一起，以模糊的理由解雇了首席执行官萨姆·奥特曼。奥特曼在一份关于他回归的声明中特别提到了苏茨克沃，他写道：“我对他没有恶意。虽然伊利亚将不再担任董事会成员，但我们希望继续保持我们的工作关系。”

OpenAI 在上周遭到部分用户投诉，许多用户声称，他们在使用 ChatGPT 或 GPT-4 API 时，会遇到回应速度慢、敷衍回答、拒绝回答、中断会话等一系列问题，OpenAI 承认了这一事实，并在声称将彻底、妥当地修复相关问题。OpenAI 此前解释称，GPT-4 变懒惰的原因是，OpenAI 从 11 月 11 日起就未再更新模型，而 GPT 模型也正因此变得不可预测，当前该公司正在着手修复问题。（来源：IT 之家）

据 GLM 大模型微信公众号今日发文，智谱 AI 近日提出了可解释、可扩展的文本质量评价模型 CritiqueLLM，该模型可以针对各类指令遵循任务上大模型的生成结果提供高质量的评价分数和评价解释。评价结果显示，在各项任务上 660 亿参数的 CritiqueLLM 与人工评分的相关系数均超过 ChatGPT，达到和 GPT- 4 相当的水平。尤其是在具有挑战性的无参考文本设定下，CritiqueLLM 能够在 3 项任务（包括综合问答、文本写作和中文理解）上超过 GPT-4，达到目前最优的评价性能。

论文地址：arxiv.org/abs/2311.18702
GitHub 地址：github.com/thu-coai/CritiqueLLM

据北京智源研究院微信公众号今日发文，智源研究院信息检索与知识计算组近日发布 LM-Cocktail 模型治理策略，旨在为大模型开发者提供一个低成本持续提升模型性能的方式：通过少量样例计算融合权重，借助模型融合技术融合微调模型和原模型的优势，实现“模型资源”的高效利用。

论文地址：arxiv.org/abs/2311.13534
GitHub 地址：github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail

据人民网报道，12 月 9 日，人民网正式发布“天目”智能识别系统，探索“用 AI 治理 AI”的内容风控新模式。“天目”由传播内容认知全国重点实验室（人民网）研发，能够对 AI 生成内容进行识别，对深度伪造内容进行检测，对合成手段进行追根溯源。公开测试数据显示，“天目”对国内外主要 AI 大模型生成中文文本的识别准确率达到 93%。系统支持单次最多 10 万字的数据检测，对疑似 AI 生成句段明确标识，一键生成检测报告。同时，系统不留存、不转用任何检测数据，充分保护用户的数据隐私与安全。