如何阻止 OpenAI 的新 AI 训练网络爬虫获取您的数据

作者：Terry2023.08.09来源：Web前端之家浏览：5370评论:0

ChatGPT 创建者正在训练下一代人工智能系统，据报道包括 GPT-5。一言可以止爬行。

ChatGpt 创建者 OpenAI 发布了一个新的网络爬虫，称为 GPTBot ，以及如何阻止它的说明。

ChatGPT是有史以来最强大的人工智能系统之一，尽管最近有报道称其智能摇摆不定。人工智能聊天机器人背后的公司 OpenAI 继续训练其大型语言模型 (LLM)，例如GPT-3.5 和 GPT-4。

谷歌和必应等搜索引擎使用网络爬虫来扫描网站和索引内容，人工智能公司也使用网络爬虫来培训法学硕士。这些模型从网站内容以及开发人员选择用来训练它们的任何其他数据中学习。使用网络爬虫可以让法学硕士能够对大量数据进行训练，从而加快这一过程。

OpenAI 在其 GPTBot 文档中指出：“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确，并提高其总体功能和安全性。” 该公司声称正在过滤掉需要付费墙访问、收集个人身份信息以及违反 OpenAI 政策的文本的网页

开发人员可以选择阻止 GPTBot 访问其网站并使用其信息来训练人工智能系统

要完全阻止 GPTBot 访问站点，站点所有者可以将 GPTBot 令牌添加到站点的 Robots.txt 和“Disallow: /”中。

OpenAI 还允许用户自定义 GPTBot 的访问权限，只允许其抓取网站的某些部分。要阻止 GPTBot 访问网站的部分内容，请将 GPTBot 添加到网站的 robots.txt 和“允许：/directory-1/”和“不允许：/directory-2/”并根据需要进行自定义。

赏您的支持是我们创作的动力！

温馨提示：本文作者系Terry ，经Web前端之家编辑修改或补充，转载请注明出处和本文链接：
https://jiangweishan.com/article/OpenAIGPTBot234234.html