Persuasive Jailbreaker：使用说服技术来“越狱”或欺骗大语言模型

浏览：135次阅读

共计 318 个字符，预计需要花费 1 分钟才能阅读完成。

Persuasive Jailbreaker 研究如何通过说服技巧来“越狱”或欺骗像 GPT- 4 这样的大语言模型，研究者们发现了 40 种不同的说服技巧，可以用来欺骗模型绕过其防火墙和安全措施，研究发现像 GPT- 4 这样越高级的模型对于说服性的敌对提示更加脆弱。这种方法成功率达到了 92%。

项目主页：https://chats-lab.github.io/persuasive_jailbreaker
论文地址：https://www.yi-zeng.com/wp-content/uploads/2024/01/view.pdf
GitHub 地址：https://github.com/CHATS-lab/persuasive_jailbreaker