Perplexity被指控抓取明确阻止AI抓取的网站

据互联网基础设施提供商 Cloudflare 称，人工智能初创公司 Perplexity 正在抓取并抓取那些明确表示不想被抓取的网站的内容。

周一，Cloudflare发布研究报告称，其观察到这家人工智能初创公司忽略了阻止，并隐藏了其抓取和爬取活动。Cloudflare 的研究人员写道，这家网络基础设施巨头指责 Perplexity 在试图抓取网页时隐藏了其身份，“试图绕过网站的偏好设置”。

Perplexity 等 AI 产品依赖于从互联网上获取大量数据，而 AI 初创公司长期以来一直在未经许可的情况下从互联网上抓取文本、图像和视频，以使其产品正常运行。近年来，一些网站试图通过使用网络标准 Robots.txt 文件进行反击，该文件会告知搜索引擎和 AI 公司哪些页面可以被索引，哪些页面不应该被索引，但迄今为止，这些努力的效果好坏参半。

Perplexity 似乎有意通过改变其机器人的“用户代理”（即通过设备和版本类型识别网站访问者的信号）来规避这些阻止；此外，据 Cloudflare 称，Perplexity 还改变其自治系统网络（ASN），本质上是一个用于识别互联网上大型网络的数字。

Cloudflare 在帖子中写道：“我们在数万个域名和每天数百万个请求中观察到了这种活动。我们能够通过机器学习和网络信号的组合来识别这个爬虫。”

Perplexity 发言人 Jesse Dwyer 驳斥了 Cloudflare 的博客文章，称其为“推销”。他在一封电子邮件中补充道，文章中的截图“显示没有内容被访问”。在后续邮件中，Dwyer 声称 Cloudflare 博客中提到的机器人“甚至不是我们的”。

Cloudflare 表示，他们最初注意到这种行为是在其客户抱怨 Perplexity 仍在抓取和抓取他们的网站内容后，尽管他们在 Robots 文件中添加了规则，并专门屏蔽了 Perplexity 已知的机器人程序。Cloudflare 表示，他们随后进行了测试检查，并确认 Perplexity 确实绕过了这些屏蔽。

Cloudflare 表示：“我们观察到，Perplexity 不仅使用其声明的用户代理，而且还使用通用浏览器，当其声明的爬虫程序被阻止时，该浏览器旨在在 macOS 上模拟 Google Chrome。”

该公司还表示，已将 Perplexity 的机器人从其验证列表中删除，并添加了新的技术来阻止它们。

Cloudflare 最近公开反对人工智能爬虫。上个月，Cloudflare宣布推出一个市场，允许网站所有者和出版商向访问其网站的人工智能爬虫收费。Cloudflare 首席执行官马修·普林斯当时就发出警告，称人工智能正在破坏互联网的商业模式，尤其是出版商的商业模式。去年，Cloudflare 还推出了一款免费工具，以防止机器人爬取网站数据来训练人工智能。

这并不是 Perplexity 第一次被指控未经授权进行抓取。去年，《连线》杂志等新闻媒体指控 Perplexity 抄袭其内容。