共计 1061 个字符,预计需要花费 3 分钟才能阅读完成。
Binoculars 是一款开源的 AI 文本检测模型,它能够在零样本(zero-shot)的情况下,即不使用任何来自被检测模型的数据,准确地区分人类写作和机器生成的文本。这种方法特别适用于检测由现代大型语言模型(如 ChatGPT)生成的文本。实验结果显示,即使没有针对 ChatGPT 进行任何训练,Binoculars 也能在假阳性率仅为 0.01% 的情况下,检测出 ChatGPT 生成的大约 90% 的文本样本。
GitHub 地址:https://github.com/AHans30/Binoculars
Demo 地址:https://huggingface.co/spaces/tomg-group-umd/Binoculars
模型特点:
- 零样本检测 :Binoculars 能够在没有特定模型训练数据的情况下工作,这使得它能够检测多种不同的 LLM 生成的文本。
- 双模型机制 :Binoculars 通过两个预训练的 LLM(观察者模型和执行者模型)来分析文本。首先,使用观察者模型计算文本的对数困惑度(log perplexity),然后计算执行者模型在文本每个位置的下一个词的预测,并根据观察者模型计算这些预测的困惑度。
- 困惑度比值 :Binoculars 的核心是计算一个比值,即文本的对数困惑度与执行者模型预测的困惑度的交叉困惑度(cross-perplexity)的比值。这个比值能够捕捉到机器生成文本的统计特征。
- 高准确率 :在多种文本来源和不同情况下,Binoculars 能够在极低的误报率(0.01%)下检测到超过 90% 的 ChatGPT(及其他 LLM)生成的样本。
实现方法:
- 数据集 :论文使用了多个数据集进行评估,包括新闻、创意写作和学生论文等,以及一些特定于领域的数据集,如 Open Orca。
- 性能评估 :通过计算真正例率(True Positive Rate, TPR)和假正例率(False Positive Rate, FPR)来评估检测器的性能,特别关注在低 FPR 下的 TPR 值。
- 模型选择 :论文中使用了开源的 Falcon-7B 模型(M1)和 Falcon-7B-Instruct(M2)作为观察者和执行者模型。这些模型在性能上非常接近,有助于 Binoculars 的检测效果。
- 阈值设定 :为了区分人类和机器生成的文本,Binoculars 需要设定一个阈值。这个阈值是通过在多个参考数据集上进行优化来确定的。
Binoculars 的提出,为在没有访问特定 LLM 数据的情况下,检测机器生成文本提供了一种有效的方法,这对于社交媒体内容审核、学术抄袭检测等领域具有重要意义。
正文完
关注公众号获取最新教程
![post-qrcode](https://pic.gametop10.cn/wp-content/uploads/2023/04/1680444958-weixinG.jpg)
发表至:无分类
2024-01-24