Persuasive Jailbreaker:使用说服技术来“越狱”或欺骗大语言模型

38次阅读
没有评论

共计 318 个字符,预计需要花费 1 分钟才能阅读完成。

Persuasive Jailbreaker 研究如何通过说服技巧来“越狱”或欺骗像 GPT- 4 这样的大语言模型,研究者们发现了 40 种不同的说服技巧,可以用来欺骗模型绕过其防火墙和安全措施,研究发现像 GPT- 4 这样越高级的模型对于说服性的敌对提示更加脆弱。这种方法成功率达到了 92%。

项目主页:https://chats-lab.github.io/persuasive_jailbreaker

论文地址:https://www.yi-zeng.com/wp-content/uploads/2024/01/view.pdf

GitHub 地址:https://github.com/CHATS-lab/persuasive_jailbreaker

Persuasive Jailbreaker:使用说服技术来“越狱”或欺骗大语言模型

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-11发表,共计318字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码