怎样禁止AI抓取网站内容用于其训练

AI公司抓取网站内容用于其AI训练，站长本身并不一定愿意。过去几个月，主要AI服务都在商讨怎样让网站禁止AI蜘蛛抓取。网站有权这样做是无需讨论的，但什么方法更稳妥、简单是需要考虑的。出了各种方案，我一直关注着，但直到现在才写，是因为现在才出了有效简单的方法。

为什么要禁止AI蜘蛛抓取网站内容？

因为还没有明确有效的方式得到回报。就目前情况看，AI抓取内容和搜索引擎抓取内容还有点不一样。搜索引擎抓取内容后会给网站流量，SEO们巴不得多抓点。

AI把网站内容用于训练后，网站能得到什么还不确定。ChatGPT和Bard (Google的AI聊天服务)本身基本上是不给出处的，所以网站得不到流量。

Bing和Google都在尝试把生成式AI融入搜索，也就是Bing Chat和Google的SGE（search generative experience，搜索生成体验），这两个都是会给出出处链接的。方式和排版五花八门，还在演进中，可以肯定的是，网站可以得到流量。但Bing Chat和SGE使用范围还不大，以后全面上线后：

用户会不会点击AI回答里的链接？会和以前的第0位结果一样带来流量吗？但第0位结果往往是不完整的，而AI已经完整回答了问题，用户还需要点击吗？
能给出多少链接？搜索结果页面是10个链接，生成式搜索结果会是固定数吗？会是几个？
什么网站能得到链接？同一个话题，用于训练的肯定不是一个网站，那哪个网站会得到链接？和做SEO一样，人人有份吗？还是将集中于权威网站？怎样提高被引用的概率？将诞生另一种优化吗？
点击率是多少？和目前搜索结果类似？点击率差一点，搜索流量就将差异巨大。
等等

还都不知道啊。

像小博客也就考虑一下流量回报可能性，大公司还得考虑数据安全、版权、隐私、抗攻击性等更严重的问题。

怎样禁止AI抓取网站内容？

讨论了各种方法后，巨头们显然都意识到用robots文件禁止还是最方便的方法。

8月份，OpenAI发布了他们的抓取蜘蛛的新名字- GPTBot，网站可以像禁止其他蜘蛛一样，用robots文件禁止GPTBot抓取：

User-agent: GPTBotDisallow: /

这里有个有点吊诡、很多人又会忽略的地方：ChatGPT的训练数据来源可不一定限于GPTBot抓取的数据。OpenAI的官方文件显示，除了网上的公开信息，他们还可能使用来自第三方的授权信息，这个第三方都包括谁，就不知道了。

9月28号，Google发布了他们用于AI训练的专用蜘蛛名字：Google-Extended，同样可以用robots文件简单禁止：

User-agent: Google-ExtendedDisallow: /

Google的用词是，用robots文件禁止了Google-Extended蜘蛛，就禁止了Bard和Vertex AI（Google开放给用户使用的云端机器学习平台），以及今后所有用于这些产品的模块。所以禁了Google-Extended就应该彻底不会被用于Google的AI训练了。

比较有意思的是，Google说的是：

By using Google-Extended to control access to content on a site, a website administrator can choose whether to help these AI models become more accurate and capable over time.

歌词大意：通过控制Google-Extended，网站可以选择是否要帮助AI模型成长。

禁了，就是不帮助AI成长啊，有点道德绑架的意思啊，哈哈哈。

哪些网站禁止了AI抓取网站内容？

Google的禁止方法才发布，还不知道成效。OpenAI的方法公布一个多月，已经有不少大网站禁了GPTBot。

9月22号，Originality.ai发布帖子，统计了前1000名大网站禁止GPTBot等AI蜘蛛的情况，增长速度挺快，真是残忍：

前1000名大网站，已经有242个禁了GPTBot，占了能检查到robots文件的933个网站的26%。其中包括amazon，pinterest，quora，纽约时报，CNN，华盛顿邮报，路透社，等等。

图里的CCBot是Common Crawl的蜘蛛，一个非赢利组织，是个大型网站数据库，很多AI是用CC数据库训练的，说不定就是OpenAI 的第三方数据提供商之一，所以也被不少网站给禁了。

优网科技，优秀企业首选的互联网供应服务商

优网科技秉承"专业团队、品质服务" 的经营理念，诚信务实的服务了近万家客户，成为众多世界500强、集团和上市公司的长期合作伙伴！

优网科技成立于2001年，擅长网站建设、网站与各类业务系统深度整合，致力于提供完善的企业互联网解决方案。优网科技提供PC端网站建设（品牌展示型、官方门户型、营销商务型、电子商务型、信息门户型、DIY体验、720全景展厅及3D虚拟仿真）、移动端应用（手机站、APP开发）、微信定制开发（微信官网、微信商城、企业微信）、微信小程序定制开发等一系列互联网应用服务。

我要投稿

优网知识库

探索行业前沿，共享知识宝库

相关资讯

高端定制互联网应用服务商

热点资讯

制定你的俄语网站开发策略：为业务增长铺路

如何对外贸网站进行 SEO 优化

如何设置php最大运行时间？

宝塔面板不能登录常用处理方法

外贸电商网站该如何做SEO优化？

建站基础流程

大家都在看

谷歌关键字规划师使用指南，教你如何在SEO领域应用它

网站权重是什么？如何提高网站权重？

移动端SEO：构建适合移动端设备的网站的 10 个优化技巧

SEM精细化运营：从展现到转化的40个提升细节！

SEO优化入门：提升网站排名的实用策略

今日分享 | 如何在 Google 中获得更高的排名--13个步骤（2）

什么样的外链才算高质量的外链？

企微云

客户池

微信小名片

网站建设

优网科技

小名片

53AI

智慧教育解决方案

智慧答题解决方案

智慧建材解决方案

智慧家装解决方案

智慧家居解决方案

智慧校园解决方案

企业微信解决方案

教育机构解决方案

家校互动解决方案

微信客服解决方案

智能收款解决方案

家装行业解决方案

建材行业解决方案

家居行业解决方案

家电行业解决方案

品牌网站设计

网页设计

APP开发

微信公众号定制开发

小程序开发

制作网站

企业建站

微网站

微官站

手机网站建设

我要投稿