Cloudflare新政策敦促AI公司为出版商内容付费并分离搜索与训练爬虫

摘要:

Cloudflare近日宣布,对使用其服务的网站默认配置进行重要调整,向整个人工智能行业设定一项新的“最后期限”:要求AI公司在今年9月15日前,将用于传统搜索的网络爬虫,与用于AI代理和模型训练的爬虫进行明确区分,否则这些“混合用途”爬虫将在大量带广告页面上被默认拦截。

根据Cloudflare公布的细则,凡是同时用于搜索、AI代理调用以及模型训练的数据抓取爬虫,如果访问的是承载广告的网页,将在默认配置下被阻止抓取,除非网站所有者主动修改相关设置。 这些新的默认设置将适用于新接入Cloudflare的客户、现有客户新创建的网站,以及所有现有的免费用户站点。 这一举措将直接影响AI模型提供方获取网页内容用于训练和生成服务的方式,也会改变AI代理服务背后的数据供给格局。

Cloudflare指出,大多数网站所有者希望自己的内容可以通过传统搜索引擎被发现,同时也乐于在一定条件下被AI服务引用,但他们并不希望自己的知识产权在未经授权的情况下被免费、大规模挪用。 Cloudflare在说明中点名“全球最大的搜索引擎”(明显指向Google),称其相较其他AI公司,掌握着“约两倍的可访问信息量”,原因在于这家搜索巨头让站点难以在保持搜索可见的同时又完全规避AI使用。

Google则一直反驳类似的概括性指责,强调其提供了名为“Google Extended”的机器人供站点选择,用于明确拒绝网站内容被用于AI训练以及Gemini Apps、Vertex API等AI产品和服务,而不影响网站在Google搜索中的收录。 不过,Google的核心爬虫Googlebot在为搜索索引页面的同时,也会为诸如AI Overviews和AI Mode等搜索内嵌AI功能提供数据支撑。

Cloudflare联合创始人兼首席执行官Matthew Prince在公告中表示,随着互联网流量结构发生变化,“如今互联网上的绝大部分流量已非人类访问”,而此前行业预期这种“机器人流量超过人类流量”的拐点要到明年才会出现。 他强调:“既然如此,我们必须走得更远、动作更快,才能让一个可持续的生态系统真正形成。”

Prince称,Cloudflare的新工具和合作伙伴关系,将为网站持有者在AI时代提供更高的可见性和商业机会,同时也利好那些用途清晰、意图透明的AI爬虫。 他希望,通过调整默认策略,可以倒逼“混合用途爬虫”将传统搜索与代理调用、训练用途明确拆分开来。 在对外业务层面,Cloudflare一方面提供多种产品帮助用户搭建自有AI系统,另一方面也在近年推出了一系列针对出版商和内容方的“控制权增强”工具。

早在2024年,Cloudflare就上线了专门对抗AI爬虫的工具,随后在2025年又推出名为“Pay Per Crawl”的市场,让网站可以向AI爬虫收取抓取费用。 最新消息显示,这一模式正在进一步演化为“Pay Per Use”,即不再只按“抓取行为”计费,而是根据内容在AI系统中实际“创造价值”的情况向AI公司收费。

Cloudflare方面指出,这种“按使用付费”的模式不仅为出版商提供新的收入渠道,也有助于节省其带宽和算力资源,因为其内部数据表明,超过50%的AI爬虫抓取流量都花在反复抓取并未发生更新的页面上。 通过新的计费与控制机制,出版商可以将有限资源优先用于真正有价值的请求,同时对“无效重复抓取”施加经济约束。

在具体落地合作上,Cloudflare目前已与Ceramic.ai和You.com两家伙伴展开试点。 当出版商选择加入该计划后,只要其内容出现在Ceramic的AI搜索结果中,或者被You.com访问为某一段“付费高级内容”,出版商即可获得相应报酬。 Cloudflare表示,其他AI公司也可以根据自身产品形态,对这种付费模式进行定制和扩展。

在监管和舆论对AI抓取与版权问题日益关注的大背景下,Cloudflare此番政策调整与商业模式升级,显然旨在为出版商争取更多话语权和收益空间,同时给AI公司施加新的透明度和合规压力。 对AI行业而言,在继续依赖海量网页内容训练和运行各种智能代理的同时,如何在技术便利性与内容方权益之间取得平衡,将成为未来一段时间内无法回避的核心议题。

查看评论
created by ceallan