共计 425 个字符,预计需要花费 2 分钟才能阅读完成。
为解决从公开网站上抓取资料的隐私与知识产权争议,OpenAI 在北京时间 8 月 8 日正式推出一款名为 GPTBot 的网络爬虫机器人,以更透明方式收集训练 AI 模型所需的数据信息。根据 OpenAI 介绍,GPTBot 和其他所有网络爬虫一样,从互联网上搜集能够用于训练 AI 模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止 GPTBot 爬取网页数据。
若网站管理员不希望被爬虫搜集资料,管理员可以在网站服务器的 robots.txt 文件中完全禁止 GPTBot 抓取信息,或自行决定 GPTBot 抓取网站上的指定信息。
如何禁止 GPTBot 访问
将 GPTBot 添加到网站的 robots.txt:
如何限制 GPTBot 访问,使其只爬取网站的一部分数据
将下列命令添加至网站的 robots.txt:
OpenAI 还列出了 GPTBot 使用的 IP 范围
正文完
关注公众号获取最新教程
