如何“越狱”大语言模型

37次阅读

共计 781 个字符，预计需要花费 2 分钟才能阅读完成。

关于如何“越狱”大语言模型（LLMs），即通过特定的策略来绕过这些模型的安全限制，使其生成有害的内容。这里的“越狱”并不是指手机或电脑的越狱，而是指在人工智能领域中，通过技术手段使模型产生原本被设计为禁止的输出。

GitHub 地址：https://github.com/XuandongZhao/weak-to-strong

主要特点：

弱到强的越狱策略 ：论文提出了一种新的越狱方法，它不需要对模型进行复杂的修改或大量计算，只需要利用一个小型的、不安全的模型（弱模型）来引导一个大型的、原本安全的模型（强模型）产生有害的输出。
单次前向传递 ：这种越狱攻击只需要对大型模型进行一次前向传递（即模型生成输出的过程），这大大减少了计算成本和时间。
跨模型攻击 ：攻击者可以利用一个小型的不安全模型来影响大型模型的生成过程，这种攻击方式在多种不同的模型上都表现出了有效性。

工作原理：

利用分布差异 ：论文观察到，即使是经过安全对齐的 LLMs，在生成有害内容时，其初始生成的分布与未对齐的模型（越狱模型）有显著差异。这种差异主要出现在生成过程的初始阶段。
引导生成 ：通过调整大型模型的生成概率分布，使其更倾向于生成有害内容。这是通过将小型不安全模型的预测与大型安全模型的预测相结合，然后放大不安全模型的影响来实现的。

具体应用场景：