共计 318 个字符,预计需要花费 1 分钟才能阅读完成。
Persuasive Jailbreaker 研究如何通过说服技巧来“越狱”或欺骗像 GPT- 4 这样的大语言模型,研究者们发现了 40 种不同的说服技巧,可以用来欺骗模型绕过其防火墙和安全措施,研究发现像 GPT- 4 这样越高级的模型对于说服性的敌对提示更加脆弱。这种方法成功率达到了 92%。
项目主页:https://chats-lab.github.io/persuasive_jailbreaker
论文地址:https://www.yi-zeng.com/wp-content/uploads/2024/01/view.pdf
GitHub 地址:https://github.com/CHATS-lab/persuasive_jailbreaker
正文完
关注公众号获取最新教程
发表至:无分类
2024-01-11