谷歌支持的Anthropic公布“AI宪法”,并用以训练其AI模型,以帮助构建“可靠、可解释和可操纵的AI系统”

169次阅读
没有评论

共计 1238 个字符,预计需要花费 4 分钟才能阅读完成。

由谷歌支持的 AI 初创公司 Anthropic 最近公布了一套针对 AI 发展的书面道德价值观,以帮助构建“可靠、可解释和可操纵的 AI 系统”。曾获得谷歌 3 亿美元投资的 Anthropic 在 3 月公布 Claude AI 模型时,特别强调对人类有益、诚实和无害特性。

该公司的 AI 聊天机器人“Claude”可以处理一系列较为复杂的任务,为了解决训练过程中无法预测人们可能会问的某些问题,Anthropic 采用了一种新的方法,为 Claude 提供了一套书面的道德价值观,以供其在决定如何回答问题时阅读和学习。

谷歌支持的 Anthropic 公布“AI 宪法”,并用以训练其 AI 模型,以帮助构建“可靠、可解释和可操纵的 AI 系统”

这些价值准则包括“选择劝阻和反对酷刑、奴役、残忍和不人道或有辱人格的回答”,并要求 Claude 选择最不可能被视为冒犯非西方文化传统的回答。Anthropic 的联合创始人杰克·克拉克(Jack Clarke)称,可以修改系统的结构,以便在提供有用的答案和无害之间取得平衡。

地址:https://www.anthropic.com/index/claudes-constitution

该公司说明,合宪 AI 是在 2 个阶段中,使用 监督式学习(supervised learning,SL) 强化学习(reinforcement learning,RL)训练模型。

第一阶段(SL)中,他们以原始模型根据 AI 原则和一些范例,训练模型自我批判和修改其回应,再以此微调原始模型。第二阶段中,研究人员以微调过的模型以 RL 方法训练,由 AI 模型评估 2 种 AI 回应的样本哪种较好。但此 AI 模型不是使用人类给的回馈意见作为准则,而是用 AI 根据一组原则产出的回馈为评估标准,选出更为无害的回应结果。Anthropic 认为,结合 SL 及 RL 的这种训练方式可改善人为介入的 AI 决策过程,最终使 AI 行为更能精准控制,且大幅减少人类偏见影响。

谷歌支持的 Anthropic 公布“AI 宪法”,并用以训练其 AI 模型,以帮助构建“可靠、可解释和可操纵的 AI 系统”

该公司指出,以合宪 AI 方法训练出的 Claude AI 聊天机器人更能应付对话人发动的攻击,并仍以有助益的态度回应,其回应答案中所含的恶意、毒性也大幅减少。另一个好处是更透明,人类可以说明、检查和了解 AI 遵循的原则。此外,由于使用 AI 自我监督训练,因此模型训练也能减少有害内容对人类的创伤。

而训练合宪 AI 模型聊天机器人的原则,正是该公司的“AI 宪法”。Anthropic 指出,目前版本的 AI 宪法以多个经典法则为基础,包括《联合国人权宣言》、DeepMind 公司的 Sparrow Principles,以及苹果的服务条款等信任与安全的最佳典范。

谷歌支持的 Anthropic 公布“AI 宪法”,并用以训练其 AI 模型,以帮助构建“可靠、可解释和可操纵的 AI 系统”

这部「宪法」用以训练 AI 聊天机器人的模型,提供其选择回应样本时的价值基准。其中一些原则包括,选择无害及合乎伦理的回应,不要选择有毒、种族偏见或性别歧视,以及鼓励非法、暴力行为的回应。选择展现具道德伦理的回应,不要表现出过于高傲、鄙视的态度。比较回应,避免选择说教及过于激烈的回应,尽可能选择无害、指控语气、礼貌、体贴及尊重的回应该公司说,这些原则并非最终版,只是集结现有的普世价值及 AI 业界规范,他们也希望未来有其他人加入这部宪法的编撰。

(部分内容来自:ITHOME

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-05-11发表,共计1238字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码