如何阻止 OpenAI 的爬虫抓取您的网站

尽管用户对 ChatGPT 喜爱有加,因其拥有海量信息,但网站拥有者却未必如此。

OpenAI 的 ChatGPT 利用网络爬虫抓取网站内容。如果你是网站的管理者,并且不希望 OpenAI 的爬虫程序访问你的网站,你可以采取以下一些方法来阻止它。

OpenAI 如何进行网站爬取?

网络爬虫,也常被称为网络蜘蛛或搜索引擎机器人,是一种自动化的程序,旨在扫描互联网以收集信息。 它会将这些信息整理成搜索引擎可以轻松访问的格式。

网络爬虫会索引每个相关 URL 的页面,并着重于那些与你搜索查询更相关的网站。 例如,假设你在谷歌上搜索特定的 Windows 错误。搜索引擎的网络爬虫会扫描它认为在 Windows 错误主题上具有权威性的网站的所有 URL。

OpenAI 的网络爬虫被称为 GPTBot。根据OpenAI 的官方文档,允许 GPTBot 访问你的网站有助于训练人工智能模型,使其更安全、更准确,甚至可以帮助扩展人工智能模型的功能。

如何阻止 OpenAI 爬取你的网站

与大多数其他网络爬虫一样,你可以通过修改网站的 robots.txt 文件(也称为机器人排除协议)来阻止 GPTBot 访问你的网站。 这个 .txt 文件放置在网站的服务器上,用于控制网络爬虫和其他自动化程序在你的网站上的行为方式。

以下是 robots.txt 文件的一些主要功能:

  • 可以完全阻止 GPTBot 访问网站。
  • 可以阻止 GPTBot 访问特定 URL 中的页面。
  • 可以告知 GPTBot 允许或禁止跟踪哪些链接。

以下是控制 GPTBot 在你的网站上行为的具体方法:

完全阻止 GPTBot 访问你的网站

  • 首先,创建你的 robots.txt 文件,然后使用任何文本编辑器进行编辑。
  • 在你的网站的 robots.txt 文件中加入以下内容,以阻止 GPTBot:
  •  User-agent: GPTBot
    Disallow: /

    只阻止 GPTBot 访问某些特定页面

  • 创建 robots.txt 文件,并使用你喜欢的文本编辑器进行修改。
  • 在你的网站的 robots.txt 文件中加入以下内容,以允许或禁止 GPTBot 访问特定目录:
  •  User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    请注意,更改 robots.txt 文件并非追溯性解决方案。GPTBot 如果已经从你的网站收集了任何信息,这些信息将无法被撤回。

    OpenAI 允许网站所有者选择退出抓取

    自从网络爬虫被用于训练人工智能模型以来,网站所有者一直在寻找保护数据隐私的方法。

    一些人担心人工智能模型基本上窃取了他们的工作成果,甚至认为网站流量的减少是因为用户不再需要访问网站就可以获取信息。

    总之,是否完全阻止人工智能聊天机器人扫描你的网站完全取决于你的个人选择。