即使使用robots.txt拒绝访问,AI爬虫真的会遵循它吗?到目前为止,验证这一点的唯一方法是手动解析服务器日志。 Microsoft Clarity 中的新功能改变了这一点。
- robots.txt 不可强制执行,即使 AI 爬虫忽略它,也没有技术方法可以阻止它,但 Clarity 的新功能现在可以识别违规机器人。
- 如果发现违规行为,可以采取多种处理方式,不仅包括更新 robots.txt,还包括在 CDN/WAF 级别进行阻止。
- 管理AI爬虫同时避免对SEO影响的一个现实方法是判断机器人是保护还是违反,而不是全部阻止。
目次
你现在能看到什么
2026年6月23日、Microsoft 在 Clarity Bot Analytics 仪表板中添加了检测和显示 robots.txt 违规行为的功能我做到了。
到目前为止,机器人分析已经能够掌握访问次数等指标,例如“哪个机器人访问了该网站以及访问了多少次”。
通过此更新,您现在可以检查哪些机器人仍在访问 robots.txt 中禁止的 URL。
您可以检查违规请求占所有机器人访问的百分比以及一段时间内的趋势。您还可以按机器人名称、操作员、活动类型进行过滤,并检查发生违规的具体 URL。
现在可以使用数值和特定名称来可视化“人工智能可能以某种方式学习它”的主观假设。
使用条件
要使用此功能,您必须在项目设置的 AI Visibility 部分连接 CDN。
支持三种 CDN:Fastly、Amazon CloudFront 和 Cloudflare。如果您已经在使用 Bot Analytics 连接 CDN,则可以继续使用它,无需任何其他配置。
对于 WordPress 网站,您可以通过将 Microsoft Clarity WordPress 插件更新到最新版本来使用它,而无需连接到 CDN。请先检查插件版本,如果您使用旧版本,该功能将不会显示。
检查 Clarity 中是否存在违规行为的步骤
打开 Bot Analytics 仪表板后,请检查以下步骤:
步
使用违规卡检查您的违规率
检查仪表板顶部的“违规”卡。显示违规请求占所有机器人请求的百分比。该数字越高,忽略 robots.txt 的访问就越多。
步
使用趋势线查看趋势
检查违规率随时间变化的图表,看看是否有增加趋势,或者是否在特定时间突然增加。将此与新的人工智能爬虫出现的时间或现有爬虫的行为发生变化的时间进行比较将有助于确定原因。
步
过滤以缩小违规机器人的范围
使用三个过滤器:操作员、机器人名称和活动类型来识别哪个操作员的哪个机器人违规。
您可以将范围缩小为“操作员 X 的一个名为 〇〇 的机器人违规”,而不是“不知何故存在违规”。
步
检查发生违规的URL
检查哪些 URL 和路径被违规访问。我们会检查您不希望人们访问的区域是否成为目标,例如付费内容、会员专用页面和特定目录。
步
比较合规和不合规的机器人
通过并排查看遵循 robots.txt 的机器人和不遵循 robots.txt 的机器人,了解整个网站的机器人访问质量。通过了解违规机器人在总数中的比例,您可以确定操作的优先级。
梅古尔特编辑部
通过添加违规,您现在可以根据数据而不是猜测做出决策。特别是,能够查看访问了“哪个机器人”和“哪个 URL”比您想象的更方便。
我个人认为,检查违规机器人的名称比检查违规率更有价值。
发现 Clarity 违规后该怎么办
更新robots.txt
如果robots.txt中没有提及,添加相关的用户代理请。另一方面,如果已经描述的机器人违规,则内容可能存在问题。
还有一些像 Bytespider 这样的机器人在同时写入多个用户代理时会忽略 Disallow。所以,将每个机器人编写在单独的块中更可靠。是。
用户代理:GPTBot 用户代理:ClaudeBot 用户代理:Bytespider 禁止:/
用户代理:GPTBot
禁止:/
用户代理:ClaudeBot
禁止:/
用户代理:Bytespider
禁止:/
然而,更新 robots.txt 只是第一步。重写 robots.txt 对于忽略 robots.txt 并访问它的机器人来说效果有限。
处理不愿意遵守的机器人需要采取以下步骤:
CDN/WAF 级别的阻止
要真正阻止忽略 robots.txt 的机器人,您需要在服务器和 CDN 级别阻止它们。是。
如果您使用的是 Cloudflare,您可以使用 WAF 自定义规则指定和阻止用户代理,或使用名为 AI Labyrinth 的功能。
AI Labyrinth 是一种机制,可引导忽略 robots.txt 的机器人进入循环有意准备的内容的循环。这使您可以在不消耗服务器资源的情况下处理它。
IP 地址级别的拦截也很有效,但机器人有时会频繁更改 IP,因此将其与用户代理的拦截结合起来更为现实。
此外,Clarity 的机器人分析功能需要 Fastly、Amazon CloudFront 或 Cloudflare 的 CDN 连接。是。如果您已经实施了它,您可以免费维护它。
继续监控的选项
仅仅因为您发现违规行为并不一定意味着您必须立即阻止它。在确定违规机器人所针对的 URL、访问频率以及是否存在实际损害后确定响应也是现实的。
通过不断检查 Clarity 的趋势线,您可以快速检测新机器人的出现或现有机器人行为的变化。
与其一下子全部屏蔽,了解实际情况后缩小行动范围的想法对于管理AI爬虫同时避免影响SEO也是合理的。
梅古尔特编辑部
我什至被告知,如果我在没有彻底检查的情况下屏蔽该网站,该网站将不再出现在谷歌的搜索结果中,或者其排名将大幅下降。
原因是 Googlebot 与其他恶意机器人一起被阻止。如果您同时阻止来自海外的访问,也会发生类似的情况。
你应该阻止所有人工智能爬虫吗?
当您看到违规行为(访问)时,很自然地想要阻止一切。然而,一次性阻止它们并不是一个好主意。判断的标准是“机器人是在保护robots.txt还是违反了它?”是。
遵守 robots.txt 的机器人尊重网站运营商的意图。通过阻止这些机器人,您将放弃您的网站内容在人工智能答案和搜索结果中被引用的机会。
Microsoft Clarity 的一项研究表明,通过 AI 引入的用户转化率比通过自然搜索引入的用户转化率大约高 11 倍。虽然体量还很小,但AI流入的质量已经达到了不可忽视的水平。
另一方面,反复违反 robots.txt 的机器人则不同,因为它们忽视了网站运营商的意图。值得考虑处理由 Clarity 的 CDN/WAF 级别违规检测功能识别的机器人。
一旦组织起来,判断的标准就很明确了。
- 遵循 robots.txt 的机器人 → 基本上允许(可以从 AI 涌入中受益)
- 忽略 robots.txt 的机器人 → 考虑在 CDN/WAF 级别进行阻止
- 身份不明或行为可疑的机器人→先监控了解实际情况再做决定
与其查看所有区块,不如使用 Clarity 了解实际情况,然后缩小行动范围。这是一种管理人工智能爬虫的实用方法,对您的网站影响最小。
为什么 robots.txt 会被 AI 爬虫忽略
缺乏执行力的原因
robots.txt 是放置在网站根目录中的文本文件,它告诉爬虫“请不要访问此 URL。”
然而,这只是一种安排;它不是一种技术上阻止访问的机制。它与在服务器端控制访问的机制(例如 .htaccess 和基本身份验证)有着本质上的不同。
由爬虫决定是否遵守robots.txt中写入的内容。
搜索引擎爬虫多年来一直保护robots.txt,并不是因为技术上被迫这样做,而是因为习惯和商业信任。然而,随着人工智能爬虫的激增,这种假设开始崩溃。
保护机器人和不保护机器人的实际状态
各大AI爬虫对于robots.txt的态度因运营商的不同而差异很大。
人类(ClaudeBot・Claude-User・Claude-SearchBot)
我们已经正式声明了遵守robots.txt的政策,并且我们也明确声明我们不会规避验证码。所有三个爬虫的行为和用法都在其官方文档中公开。
因此,透明度在各大AI爬虫中处于较高水平。
Anthropic 是否从网络上抓取数据?网站所有者如何阻止抓取工具?
OpenAI(GPTBot・ChatGPT-User)
GPTBot 是一个学习型爬虫,声明它符合 robots.txt。
另一方面,截至 2025 年底,我们已正式宣布对 ChatGPT-User 的立场,即“用户明确指定 URL 并查看它的行为与使用浏览器访问它的行为相同”,并更改了我们的政策,将其从 robots.txt 中排除。
Google(Google-扩展)
Google-Extended 作为专用令牌提供,用于控制您的内容是否用于训练 Gemini 或 Vertex AI。
如果 robots.txt 中写入了 Disallow,则将应用该规则。此外,常规搜索索引不受影响。
然而,Google-Extended并不是一个独立的抓取工具。这是一种控制现有Googlebot抓取结果是否用于学习的机制。因此,其机制与其他AI爬虫略有不同。
字节蜘蛛(字节跳动)
许多网站运营商报告说,即使在 robots.txt 中指定了访问限制,这些限制也会被忽略并继续访问。这是一个典型的爬虫难以处理的例子,因为官网没有明确的解释。
PSA |字节跳动和 Bytespider 机器人 |建议屏蔽
Bytespider 和 robots.txt
Bytespider:为什么字节跳动的AI爬虫最受争议
困惑
《连线》调查显示,受 robots.txt 爬行限制的网站是使用匿名 IP 地址访问的。
据报道,AWS已就此事启动了Perplexity调查,行业内担忧情绪蔓延,其中包括诉讼风险。
可以通过编写 robots.txt 来保护您的假设并不适用,至少不适用于所有爬虫。这正是 Clarity 违规检测功能发挥作用的情况。
