开源的AI文本检测模型Binoculars

42次阅读

共计 1061 个字符，预计需要花费 3 分钟才能阅读完成。

Binoculars 是一款开源的 AI 文本检测模型，它能够在零样本（zero-shot）的情况下，即不使用任何来自被检测模型的数据，准确地区分人类写作和机器生成的文本。这种方法特别适用于检测由现代大型语言模型（如 ChatGPT）生成的文本。实验结果显示，即使没有针对 ChatGPT 进行任何训练，Binoculars 也能在假阳性率仅为 0.01% 的情况下，检测出 ChatGPT 生成的大约 90% 的文本样本。

GitHub 地址：https://github.com/AHans30/Binoculars
Demo 地址：https://huggingface.co/spaces/tomg-group-umd/Binoculars

模型特点：

零样本检测 ：Binoculars 能够在没有特定模型训练数据的情况下工作，这使得它能够检测多种不同的 LLM 生成的文本。
双模型机制 ：Binoculars 通过两个预训练的 LLM（观察者模型和执行者模型）来分析文本。首先，使用观察者模型计算文本的对数困惑度（log perplexity），然后计算执行者模型在文本每个位置的下一个词的预测，并根据观察者模型计算这些预测的困惑度。
困惑度比值 ：Binoculars 的核心是计算一个比值，即文本的对数困惑度与执行者模型预测的困惑度的交叉困惑度（cross-perplexity）的比值。这个比值能够捕捉到机器生成文本的统计特征。
高准确率 ：在多种文本来源和不同情况下，Binoculars 能够在极低的误报率（0.01%）下检测到超过 90% 的 ChatGPT（及其他 LLM）生成的样本。

实现方法：

数据集 ：论文使用了多个数据集进行评估，包括新闻、创意写作和学生论文等，以及一些特定于领域的数据集，如 Open Orca。
性能评估 ：通过计算真正例率（True Positive Rate, TPR）和假正例率（False Positive Rate, FPR）来评估检测器的性能，特别关注在低 FPR 下的 TPR 值。
模型选择 ：论文中使用了开源的 Falcon-7B 模型（M1）和 Falcon-7B-Instruct（M2）作为观察者和执行者模型。这些模型在性能上非常接近，有助于 Binoculars 的检测效果。
阈值设定 ：为了区分人类和机器生成的文本，Binoculars 需要设定一个阈值。这个阈值是通过在多个参考数据集上进行优化来确定的。

Binoculars 的提出，为在没有访问特定 LLM 数据的情况下，检测机器生成文本提供了一种有效的方法，这对于社交媒体内容审核、学术抄袭检测等领域具有重要意义。

正文完

关注公众号获取最新教程