OpenAI推出网络爬虫工具GPTBot,站长们也可以选择禁止被爬取

244次阅读
没有评论

共计 425 个字符,预计需要花费 2 分钟才能阅读完成。

为解决从公开网站上抓取资料的隐私与知识产权争议,OpenAI 在北京时间 8 月 8 日正式推出一款名为 GPTBot 的网络爬虫机器人,以更透明方式收集训练 AI 模型所需的数据信息。根据 OpenAI 介绍,GPTBot 和其他所有网络爬虫一样,从互联网上搜集能够用于训练 AI 模型的有用数据。但它并不会收集需要付费的、或者违反隐私政策的数据。此外,网站所有者还可以选择限制或者禁止 GPTBot 爬取网页数据。

OpenAI 推出网络爬虫工具 GPTBot,站长们也可以选择禁止被爬取

若网站管理员不希望被爬虫搜集资料,管理员可以在网站服务器的 robots.txt 文件中完全禁止 GPTBot 抓取信息,或自行决定 GPTBot 抓取网站上的指定信息。

如何禁止 GPTBot 访问

将 GPTBot 添加到网站的 robots.txt:

OpenAI 推出网络爬虫工具 GPTBot,站长们也可以选择禁止被爬取

如何限制 GPTBot 访问,使其只爬取网站的一部分数据

将下列命令添加至网站的 robots.txt:

OpenAI 推出网络爬虫工具 GPTBot,站长们也可以选择禁止被爬取

OpenAI 还列出了 GPTBot 使用的 IP 范围

OpenAI 推出网络爬虫工具 GPTBot,站长们也可以选择禁止被爬取

官方原文地址:https://platform.openai.com/docs/gptbot

正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2023-08-08发表,共计425字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。