著名的人工智能实验室OpenAI最近透露了有关其高级网络爬虫GPTBot的更多信息,GPTBot经过专门设计,可以仔细阅读网站并提取重要数据。然后,这些提取的数据在增强未来的AI模型(例如ChatGPT 5和未来的AI模型)中起着关键作用,这些模型严重依赖大量数据来提高性能和功能。
OpenAI解释说,GPTBot抓取的网页“可能被用来改进未来的模型”,并进一步推进新的LLM模型。通过允许 GPTBot 筛选您的网站,您可能会无意中为开发更准确的 AI 模型做出贡献,这些模型具有增强的一般功能和更好的安全措施。
“使用 GPTBot 用户代理抓取的网页可能会用于改进未来的模型,并经过过滤以删除需要付费墙访问权限、已知收集个人身份信息 (PII) 或包含违反我们政策的文本的来源。允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高其一般功能和安全性。下面,我们还分享了如何禁止 GPTBot 访问您的网站。
敏感数据和付费专区网站
OpenAI了解围绕网络数据的敏感性和隐私问题,强调它已经实施了严格的过滤器来防止任何违规行为。受付费墙保护的网站或收集个人身份信息的网站将超出 GPTBot 的范围。此外,任何违反OpenAI政策的内容都将被网络爬虫禁止。
然而,这一有希望的发展确实提出了一个复杂的问题。这种新发现的可能阻止OpenAI训练抓取的可行性,如果得到承认和尊重,似乎已经有点晚了,无法影响ChatGPT或GPT-4等模型的当前训练数据。这些模型已经使用几年前没有任何事先公告的情况下偷偷抓取的数据进行了训练。
例如,OpenAI 整理了截至 2021 年 <> 月的数据,这象征着其语言模型当前的“知识”截止时间。虽然这些早期的模型是在没有考虑网页同意的情况下训练的,但OpenAI与GPTBot的新方法可能表明,未来将转向提高透明度和尊重数据源偏好。通过更体贴和安全的方法,人工智能的未来似乎是确保技术进步和隐私保护之间的平衡。
阻止 OpenAI 抓取您的网站数据
但是,OpenAI了解并非所有网站所有者都希望GPTBot可以访问其内容。因此,他们提供了有关如何禁止 GPTBot 访问您的网站的说明。这可以通过将 GPTBot 令牌添加到您网站的漫游器.txt文件中来实现,其中包含以下行:
User-agent: GPTBot
Disallow: /
对于那些希望自定义 GPTBot 访问权限(仅允许其访问您网站的特定部分)的用户,您可以按如下方式修改您网站的 robots.txt 文件:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
OpenAI的爬虫,包括GPTBot,从这些特定的IP地址块调用网站。这些当前包括可能会在以后更改:
20.15.240.64/28 20.15.240.80/28 20.15.240.96/28 20.15.240.176/28 20.15.241.0/28 20.15.242.128/28 20.15.242.144/28 20.15.242.192/28 40.83.2.64/28
GPTBot 隐私和数据问题
如何在日志和分析中识别 OpenAI GPTBot
GPTBot 可通过其唯一的用户代理令牌和完整的用户代理字符串进行识别。用户代理令牌只是:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
GPTBot 的主要功能是抓取网页,然后可用于完善和改进未来的 AI 模型。请务必注意,GPTBot 在设计时考虑了隐私和安全。它过滤掉需要付费墙访问、收集个人身份信息 (PII) 或包含违反 OpenAI 政策的文本的来源。通过允许 GPTBot 访问您的网站,您正在为 AI 模型的进步做出贡献,提高其准确性、一般功能和安全性。
GPTBot 是人工智能领域的强大工具,旨在改进未来的模型,同时尊重用户隐私和内容限制。无论您选择允许还是禁止其访问您的网站,您现在都拥有做出明智决定的知识。