开源的AI文本检测模型Binoculars

29次阅读
没有评论

共计 1061 个字符,预计需要花费 3 分钟才能阅读完成。

Binoculars 是一款开源的 AI 文本检测模型,它能够在零样本(zero-shot)的情况下,即不使用任何来自被检测模型的数据,准确地区分人类写作和机器生成的文本。这种方法特别适用于检测由现代大型语言模型(如 ChatGPT)生成的文本。实验结果显示,即使没有针对 ChatGPT 进行任何训练,Binoculars 也能在假阳性率仅为 0.01% 的情况下,检测出 ChatGPT 生成的大约 90% 的文本样本。

GitHub 地址:https://github.com/AHans30/Binoculars

Demo 地址:https://huggingface.co/spaces/tomg-group-umd/Binoculars

开源的 AI 文本检测模型 Binoculars

模型特点:

  1. 零样本检测 :Binoculars 能够在没有特定模型训练数据的情况下工作,这使得它能够检测多种不同的 LLM 生成的文本。
  2. 双模型机制 :Binoculars 通过两个预训练的 LLM(观察者模型和执行者模型)来分析文本。首先,使用观察者模型计算文本的对数困惑度(log perplexity),然后计算执行者模型在文本每个位置的下一个词的预测,并根据观察者模型计算这些预测的困惑度。
  3. 困惑度比值 :Binoculars 的核心是计算一个比值,即文本的对数困惑度与执行者模型预测的困惑度的交叉困惑度(cross-perplexity)的比值。这个比值能够捕捉到机器生成文本的统计特征。
  4. 高准确率 :在多种文本来源和不同情况下,Binoculars 能够在极低的误报率(0.01%)下检测到超过 90% 的 ChatGPT(及其他 LLM)生成的样本。

实现方法:

  1. 数据集 :论文使用了多个数据集进行评估,包括新闻、创意写作和学生论文等,以及一些特定于领域的数据集,如 Open Orca。
  2. 性能评估 :通过计算真正例率(True Positive Rate, TPR)和假正例率(False Positive Rate, FPR)来评估检测器的性能,特别关注在低 FPR 下的 TPR 值。
  3. 模型选择 :论文中使用了开源的 Falcon-7B 模型(M1)和 Falcon-7B-Instruct(M2)作为观察者和执行者模型。这些模型在性能上非常接近,有助于 Binoculars 的检测效果。
  4. 阈值设定 :为了区分人类和机器生成的文本,Binoculars 需要设定一个阈值。这个阈值是通过在多个参考数据集上进行优化来确定的。

Binoculars 的提出,为在没有访问特定 LLM 数据的情况下,检测机器生成文本提供了一种有效的方法,这对于社交媒体内容审核、学术抄袭检测等领域具有重要意义。

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-24发表,共计1061字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码