Cloudflare 现在将默认阻止 AI 爬虫
据周二发布的公告,主流互联网架构提供商 Cloudflare 现在将默认屏蔽已知的 AI 网络爬虫,以防止它们“未经许可或付费访问内容”。Cloudflare 将开始询问新域名所有者是否允许 AI 爬虫,甚至允许部分发布商实施“按次付费”收费。
按次付费计划将允许发布商为访问其内容的 AI 爬虫设定价格。AI 公司可以查看价格,并选择是否注册“按次付费”服务或拒绝。目前,该服务仅面向“部分领先的发布商和内容创作者”,但 Cloudflare 表示,它将确保“AI 公司能够以正确的方式使用优质内容——获得许可并支付报酬”。
Cloudflare 一直在帮助域名所有者对抗人工智能爬虫。该公司于 2023 年开始允许网站屏蔽人工智能爬虫,但该功能仅适用于遵守网站 robots.txt 文件的网站。该文件是一份不可强制执行的协议,用于指示机器人是否可以抓取网站内容。Cloudflare 去年开始允许网站屏蔽“所有”人工智能机器人——无论它们是否遵守网站的 robots.txt 文件——现在,这项设置已为 Cloudflare 新客户默认启用。(该公司通过将爬虫与已知人工智能机器人列表进行比较来确定需要屏蔽的爬虫。)Cloudflare 还在 3 月份推出了一项功能,将网络爬虫送入“人工智能迷宫”,以阻止它们未经许可抓取网站内容。
包括美联社、《大西洋月刊》 、《财富》杂志、Stack Overflow 和 Quora 在内的多家大型出版商和在线平台都已同意 Cloudflare 新的 AI 爬虫限制措施,因为网站正在应对未来越来越多的人通过 AI 聊天机器人而非搜索引擎查找信息的情况。Cloudflare 首席执行官马修·普林斯 (Matthew Prince)在上周的 Axios Live 活动上表示:“过去六个月,人们对 AI 的信任度有所提高,这意味着他们不再阅读原创内容。”
此外,Cloudflare 表示正在与人工智能公司合作,帮助验证这些爬虫程序,并允许它们“明确说明其用途”,例如,它们是将内容用于训练、推理还是搜索。网站所有者可以查看这些信息,并确定允许哪些爬虫程序进入。
普林斯在新闻稿中表示:“原创内容使互联网成为上个世纪最伟大的发明之一,我们必须齐心协力保护它。人工智能爬虫一直在无限制地抓取内容。我们的目标是将权力交还给创作者,同时继续帮助人工智能公司进行创新。”