Perplexity 欺骗性地访问被禁止的网站来收集信息

人工智能搜索引擎 Perplexity 甚至从拒绝访问的网站秘密收集数据。 Cloudflare 的调查揭示了使用隐形技术进行抓取的现实。

应该如何保护网络的信任来换取人工智能的进化?本文对其方法、行业反应及其对日本的影响进行了通俗易懂的解释。

Perplexity是一家开发人工智能搜索引擎的初创公司,被指控无视网站运营商的意愿获取数据。

大型互联网基础设施公司Cloudflare 2025 年 8 月发布的研究报告据称,Perplexity甚至利用技术手段从被限制访问的网站获取信息。

结果,人工智能使用网络内容时的道德和规则再次受到质疑。现在,让我们看看问题到底是什么以及使用了哪些技术。

Cloudflare指出的“两种类型的爬虫”

Perplexity 正式发布了“Perplexity-User”和“PerplexityBot”等用户代理(访问网络时的身份信息)。这些合法机器人通常会引用名为 robots.txt 的文件来确定它们是否具有访问权限。

然而,根据 Cloudflare 的调查,当合法机器人被阻止时,Perplexity 会使用伪装成 Chrome 浏览器的“隐形机器人”。

这个隐形机器人使用类似于 macOS 上的 Google Chrome 的用户代理,隐藏了它自动访问该网站的事实。

更严重的问题是,这个假机器人使用的 IP 地址与 Perplexity 的官方 IP 地址范围不同。也就是说,即使该网站封锁了Perplexity,也无法完全避免造成这种情况。

忽略 robots.txt? AI公司面临的内容获取障碍

robots.txt是网站运营商的行业标准机制,用于明确指示“不应抓取此页面”。搜索引擎和爬虫通常​​会尊重这一点,并且不会访问指定的页面。

然而,据说 Perplexity 忽略了 robots.txt 中的指令,或者在没有首先阅读的情况下访问了它。

Cloudflare 在收到客户举报后开始调查。我们确认 Perplexity 还访问了多个网站本应禁止的区域。

这不仅仅是一个技术问题。互联网建立在“尊重他人意愿”的潜规则之上,违反这一规则可能会损害行业信任。

Cloudflare 验证和技术发现:他们是如何发现的?

得益于 Cloudflare 先进的验证方法和网络监控技术,Perplexity 的行为被曝光。

事实上,我们不仅通过简单地分析访问日志,还通过使用人工智能和网络指标成功识别了“隐形机器人”,这是使这个问题曝光的一个主要因素。

使用私有域和 Perplexity 响应内容进行验证

Cloudflare 创建了几个不对任何人开放的新测试域(例如 testexample.com、secretexample.com),以验证 Perplexity 的行为。

这些域名没有在搜索引擎中注册,并且是为了不被外人发现而设置的。

此外,robots.txt文件包含“拒绝所有机器人访问”的设置,WAF(Web应用程序防火墙)也阻止了Perplexity的已知机器人。换句话说,他们故意制造了一种合法爬虫无法访问的情况。

当我们向 Perplexity 询问有关这些域的问题时,令人惊讶的是,Perplexity 生成了一个答复,其中包含实际发布在私有域上的内容的详细信息。这是明确的证据,表明这些信息是通过规避正常访问限制而获取的。

用户代理欺骗/ASN 轮换技术

最引起Cloudflare注意的是Perplexity使用的“隐形技术”。当 Perplexity 的机器人被阻止时,据说它试图使用以下技术获得欺诈性访问。

  • 欺骗 macOS 上的 Google Chrome 用户代理(例如Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)...
  • 使用公司 IP 范围之外的地址进行访问
  • 在不同 ASN(互联网上的自治系统编号)之间切换时发送请求

下表总结了 Cloudflare 观察到的两类 Perplexity 爬虫的特征。

类型用户代理每天的请求数知识产权特点
常规爬虫Perplexity-用户 / PerplexityBot约2,000万〜2,500万官方IP范围
隐形卷轴UA 在 macOS 上伪装成 Chrome约300万〜600万私有 IP/ASN 轮换

Cloudflare 使用“指纹识别”(机器学习和网络信号的结合)识别了隐形机器人。如果没有这些技术,Perplexity 的行为可能不会被注意到。

《困惑》为何受到“伦理批评”?

对 Perplexity 行为的越来越多的批评不仅仅是技术问题,还涉及互联网的信任和道德方面。

虽然人工智能正在迅速发展,但在幕后,人们提出了一个基本问题:“未经许可可以使用数据吗?”

人工智能发展与“越权学习”问题:什么是允许的,什么是不允许的?

提高AI模型的准确性需要大量的文本、图像、视频等训练数据。因此,许多人工智能公司都收集并利用了互联网上的信息。

然而,近年来,版权和使用许可问题已成为热门话题,社会对未经授权的抓取和使用内容的审查也变得更加严格。

《困惑》过去也曾因抄袭文章内容而受到包括美国《连线》在内的多家媒体的批评。

事实上,当 Perplexity 的首席执行官在一场名为 Disrupt 2024 的活动上被问及抄袭和学习之间的区别时,他无法给出明确的答案,这增加了人们对公司立场的不信任。

目前的隐形滚轴问题引起了特别的批评,作为这一趋势中出现的“故意无视规则”的一个例子。受到质疑的基本价值观是,仅仅因为某件事在技术上可行并不意味着它是允许的。

为什么选择 OpenAI 作为模型?

在其他AI公司中,Cloudflare对OpenAI的态度给予了高度评价。 OpenAI明确定义了其爬虫(例如ChatGPT-User),并公开了用户代理和IP信息。

此外,Cloudflare 报告称,它已确认 robots.txt 中的阻止指令被正确读取并停止访问。

Cloudflare 正在推出一种由 OpenAI 提出的名为“Web Bot Auth”的新身份验证方法,据称该方法可能成为未来的行业标准。

事实上,OpenAI 正在致力于使用这种方法为 HTTP 请求添加正确的签名,使网站运营商更容易识别谁正在访问该网站。

下面,我们简单总结一下Perplexity和OpenAI在应对态度上的差异。

企业名用户代理披露遵守 robots.txt知识产权透明度存在额外的冒充行为
困惑部分发布在很多情况下被忽视一部不明确是(隐形机器人)
开放人工智能全面披露遵守明确指出没有任何

从比较中可以看出,即使在开发人工智能时,不同公司对道德和规则的态度也存在很大差异。在考虑未来什么样的规则将成为标准时,OpenAI 的努力将是一个重要指标。

该问题带来的未来挑战及其对日本的影响

Perplexity 的隐形滚动问题凸显了人工智能与网络之间关系的全球挑战。未来,类似问题可能会变得更加复杂和扩大。

那么,我们可以从这个案例中学到什么?日本的网络运营商和内容持有者应该如何准备?

AI时代的内容保护:运营商应采取的3项措施

网站内容未经许可被用于人工智能学习的风险将持续增加。特别是,如果没有足够的对策,日本中小型媒体和个人博客可能会成为目标。因此,以下技术防御措施非常重要。

  • robots.txt 中的正确设置:引入了明确拒绝 AI 爬虫的描述(例如用户代理:GPTBot / Disallow: /)
  • WAF 的 IP 限制/机器人拦截:增强设置以阻止主要机器人 IP 范围
  • AI反爬虫服务介绍:利用Cloudflare等提供的AI抓取块功能。

特别是,Cloudflare在免费套餐的情况下也提供了“AI爬虫拦截功能”,其吸引力在于易于实施。未来,必须意识到您的网站被用于人工智能学习的风险并提前采取预防措施。

未来所需的全球规则和标准化运动

单靠每家公司来预防此类问题的努力都是有限的。更根本的是,需要就使用人工智能收集数据时允许和禁止的内容达成国际协议和标准化。

Cloudflare 正在与互联网工程任务组 (IETF) 合作,对 robots.txt 扩展和 Web Bot Auth 进行标准化。

未来,这可能会导致人工智能爬虫能够被准确识别,网站可以制定明确的策略来允许或拒绝它们。

此外,Cloudflare 在一项名为“内容独立日”的倡议中加强了明确表示拒绝 AI 学习的能力。目前已经宣布超过 250 万个网站明确拒绝 AI 训练。

这些发展对日本的网站运营商具有重大影响。在审查如何保护公司内容和处理人工智能的使用时,重要的是要关注未来的规则形成趋势。

在这个人工智能逐渐融入日常生活的时代,我们再次质疑互联网的本质,互联网不仅基于技术,还基于“规则和信任”。

关于我