返回上一页  首页 | cnbeta报时: 17:12:59
免费午餐时代终结 AI巨头要交“过路费”
发布日期:2025-07-03 07:14:04  稿源:快科技

马斯克和特朗普,这对白宫二人转最近“嘴炮大战”进入到 2.0 时期。和这对欢喜冤家类似的,是国外出版商集团和 AI 巨头之间的相爱相杀——一方面有大出版商要和 AI 公司合作,另一方面也有出版商誓死要把 AI 巨头告破产。

根据数据,AI 搜索和 ChatGPT 出现后,全球网站流量都在下降;另一方面,AI 巨头的“AI 爬虫”却不顾爬虫协议,以数万次的爬取不断侵蚀所有网站的数据。

这时候,终于有一家基建公司站了出来,挽着内容创作者的手说:“我们可以对 AI 巨头说不!”

Cloudflare,这家掌控全球约 20% 网络流量的互联网基础设施巨头,被网民誉为“赛博菩萨”的公司,在 2025 年 7 月上线了一个实验性产品和交易市场:“Pay Per Crawl”——给 AI 爬虫立下了新规矩:

要么获得许可,要么付费。

简单来说,这个功能的本质是给网站内容创作者一个选项“开关”:可以选择允许 AI 爬虫自由访问,按次爬取收费,抑或者直接封锁访问。

按照 Cloudflare 创始人的说法,“内容是驱动 AI 引擎的燃料,因此,内容创作者直接获得报酬才是公平的。”

对 AI 公司来说,想继续抓取全网内容来训练模型,不能再像以前那样“免费吃大餐”。但也不是没有好处,因为根据明码标价付费,可以避免版权争议问题。

Cloudflare 这次的“防虫”举措,能缓解 AI 爬虫的肆意攻击吗?更重要的是,这家公司能否利用自己独特的地位,建立起一个全新的 AI 时代内容分发和变现模式?

AI巨头的“免费午餐”

过去几十年,大多数网页默认是公开“可爬”的。Google、Bing 这类搜索引擎为网站带来流量,有了流量,网站再通过广告或销售订阅变现——这是搜索时代的隐形契约。

可 AI 时代,传统搜索流量骤降,这笔账越算越亏。

AI 公司把全网内容当作训练燃料,却几乎不用给大部分创作者回报。当用户直接在 AI 聊天机器人里提问,答案往往来源于总结好的内容,而不是数十个蓝色链接,不会给网站带来更多流量。

甚至于Google这样的搜索巨头本身也在变化,以前他们提供网站链接列表,如今他们在搜索页面推出了“人工智能概述”,据他们的报告,75% 的查询用户无需点击任何链接就得到了解答。

Cloudflare 2025 年 7 月的最新数据显示:Google的爬虫大约每 6 至 7 次抓取给网站带回 1 次点击,而 OpenAI 则是 1500 次才换来 1 次跳转,Anthropic 的比例甚至更夸张,高达 73300 次换 1 次。


各大公司 AI 爬虫每次抓取为网站带来的点击比例|图片来源: Cloudflare

这意味着,传统的“内容换流量”模式失效了。相比传统搜索引擎,AI 巨头们吃掉了海量网站内容,却不给“导流”,这种失衡让一些内容生产者愈发难以为继。

“有了 OpenAI,网站流量获取难度比Google时代高出 750 倍,而有了 Anthropic,难度更是高达 3 万倍。原因很简单:我们越来越不再消费原创内容,而是消费它们的衍生品。”Cloudflare CEO Matthew Prince 在一篇博文中称,“这不是一个公平的交易”。

AI 公司爬数据也不是没有代价的,这两年 AI 巨头一直被指控“偷内容”来训练大模型,引发全球范围的版权诉讼潮,尤其是纽约时报等新闻机构和 OpenAI 诉讼不断。


活跃的大厂 AI 爬虫机器人|图片来源: Cloudflare

因此,Cloudflare 推出“Pay Per Crawl”,建立一个“按次付费爬取”的市场,想要解决的正是这个问题。

该公司设计了一个权限和支付系统,网站可以在后台选择对 AI 爬虫“允许、封锁或收费”,AI 爬虫如果想抓取该网站内容,必须注册、验证身份,并在每次访问时完成支付。

如果顺利,这一模式能让网络内容从“广告变现”走向“内容授权变现”,开拓全新的收入来源。无论是大媒体,还是冷门小博客,都能在 AI 时代拥有议价权,被 AI 付费使用。

为了强调其意义,Cloudflare CEO 还将“Pay Per Crawl”推出的这一天称为:

“内容的独立日”。

AI “过路费”怎么收?

当然,设想很美,但技术怎么落地?

Cloudflare 这家公司起家靠的是提供 CDN、DDoS 防护、DNS、零信任安全等服务,它在全球 300 多个城市部署了节点,承载约 20% 的 Web 流量,给它当“中介”提供了方便。

“Pay Per Crawl”建立在它全球 CDN 网络的中间层:它能在访问请求进到源站前就识别和处理 AI 爬虫。站长可以在 Cloudflare 后台设定三种模式:允许、收费、封锁。


站长可以在后台设定允许、收费或封锁|图片来源: Cloudflare

所有新加入 Cloudflare 的网站默认封锁 AI 爬虫,除非站长主动允许。只有与 Cloudflare 建立合作关系的 AI 公司才能参与支付机制,否则将被封锁。

如果 AI 爬虫向付费 URL 发起请求,尚未付费,Cloudflare 就会返回 HTTP 402 Payment Required 状态码——一个过去几乎没人用的、专门为“网络支付”预留的状态码。AI 爬虫可以在请求里带上支付信息,以表示同意支付配置的价格,一旦匹配价格就放行返回 200 OK,并自动结算。

Cloudflare 本身则是这个交易的“收银台”,负责聚合账单和分发收益。


Cloudflare 会返回 HTTP 402 Payment Required 状态码|图片来源:Cloudflare


爬虫可以在请求里带上支付信息|图片来源: Cloudflare


HTTP 200 OK 响应确认收费|图片来源: Cloudflare

更重要的是,这并不是靠简单的 User-Agent 欺骗就能绕过的。Cloudflare 要求 AI 公司注册密钥,用数字签名保证身份。这也是为了防止“山寨爬虫”冒充合规者逃避支付。

过去,robots.txt 是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎的爬虫哪些页面可以抓取,哪些不可以,但它只是网站的“礼貌建议”,很多 AI 爬虫根本不理会。Cloudflare 的方案改变了这一点,把现有的、靠 robots.txt 的“软约束”变成了“硬闸门”。

不过,据 Cloudflare 称,目前排名前 10000 的域名中,只有约 37% 拥有 robots.txt 文件。


给 AI 爬虫设置关卡|图片来源: Cloudflare

如果要参与 Cloudflare 的爬取付费市场,爬取方、被爬取方都必须开设 Cloudflare 账户。截至目前,“Pay Per Crawl”仍处于内测阶段,仅部分大型出版商参与,如 BuzzFeed、《大西洋月刊》和《财富》等,Cloudflare 还在持续公开征集有意向的内容创作者和抓取者。

“我们预计按次付费模式将迎来显著发展。”Cloudflare 官方称。

虽然目前仍处于初期阶段,但该公司对未来还有很多设想。比如,出版商或其他机构可以针对不同内容类型收取不同费用,或者根据 AI 应用的用户数量进行动态定价,或者根据训练、推理、搜索等不同领域引入更细粒度的定价策略。

他们还认为,按次付费爬虫的真正潜力或许会在 Agent 智能代理的世界中显现。

“如果智能代理付费墙能够完全以程序化的方式运作,会怎样?想象一下,你可以请你的深度研究助手帮你整理最新的癌症研究、法律简报,或者帮你找最好的餐厅——然后给这位智能代理一笔预算,用于获取最有用、最相关的内容。”

“以 HTTP 402 响应代码为基石的首个解决方案,将开启一个智能代理能够以程序化方式协商访问数字资源的未来。”Cloudflare 称。

Internet 的十字路口

从经济层面来说,这可能是 AI 和广大内容创作者“重新谈判分账”的开端。

现在,只有头部大媒体能和 AI 公司谈授权(比如 纽约时报告了 OpenAI 后才谈成和解),绝大多数中小网站、论坛甚至个人作者都被“默默爬走”,毫无反抗的能力,或者说意识。Cloudflare 的方案,实际上可以把这种议价能力普及到更广泛的网站。

据 Cloudflare 团队称,他们与新闻机构、出版商和大型社交媒体平台进行了数百次对话,他们一致“希望允许 AI 爬虫访问其内容,但希望获得报酬。”

对于支持者来说,“Pay Per Crawl”模式在理念上很“公平”:创作者有了收入,AI 公司也避免了法律风险,长远看能推动整个产业走向更合规的内容许可。


图片来源: Cloudflare

当然,AI 公司未必开心,互联网数据不再免费,要抓新内容,就得花钱,这意味着算力之外的成本要素。

但另一方面,这也或许会抑制滥抓取,也迫使 AI 模型开发者在数据上更有选择性——比如针对性购买高价值的内容,而不是一股脑地把各种网站内容都喂进模型里。

Matthew Prince 称,“AI引擎就像一块瑞士奶酪,真正能够填补这块奶酪孔洞的全新原创内容,比如今占据网络大部分版面的重复性、低价值内容更有价值。”

在他看来,流量一直以来都无法准确衡量内容的价值,“如果我们能够开始对内容进行评分和评估,不是根据它产生了多少流量,而是根据它对知识的促进程度(以它填补了多少 AI 引擎“瑞士奶酪”中的现有孔洞来衡量)——我们不仅可以帮助 AI 引擎更快地进步,而且有可能促进高价值内容创作的新黄金时代。”

不过,数字权利倡导者可能会提出:小型 AI 创业团队、研究者、开源社区,能否承担这样的数据成本?学术研究、公益存档这些“良性爬虫”会不会寸步难行,只能访问有限、低价值的数据源?

在一个广告收益下滑、流量成本高涨的现实里,会有多少网站愿意无偿开放给 AI 爬虫吸血?这会不会成为“封闭化”的开始,让互联网失去它的自由与共享精神?

如果全网都默认封锁收费,这会不会无意中加剧“大厂垄断”?毕竟,大厂比较有钱。

“Pay Per Crawl”模式,一方面试图解决 AI 吸血内容却不反哺的问题,另一方面,也有可能在无意中加高 AI 创新的门槛,回到版权保护与知识开放的老命题。

当然,Cloudflare 只是给网站更多自主权。网站所有者完全可以选择对公益、非营利项目继续免费开放。权力仍然在创作者手里。不管怎么说,他们值得获得“补偿”。

在 Cloudflare CEO 的话里,这场变革的目标是“构建更美好的互联网”。“我们尚不知道所有答案,但我们正在与一些顶尖的经济学家和计算机科学家合作寻找答案。”

目前,其他其他 CDN 和安全提供商(比如 Akamai、Fastly、Amazon CloudFront)尚未宣布类似的功能。


把 AI 爬虫机器人挡在门外|图片来源: Cloudflare

虽然 Cloudflare 的“Pay Per Crawl”看起来只是一个 CDN 产品的新功能,但从某种意义上说:

它可能成为互联网走到一个分岔口的信号。

在搜索时代,内容的价值是通过用户访问转化为广告收益。但 AI 时代,用户可能根本不会再点进网站——所有答案都在聊天机器人里总结生成。是继续让 AI 大模型免费挖掘网络内容,还是在数据获取上回归“互惠”原则,让创作者获得应有的补偿?补偿又能有多少?

这个早期实验可能在为一个新的 AI 时代数据经济形态铺路,无论成败如何,它的立场很明显:AI 不能无限透支创作者的耐心,并在“开放”的名义下把人的劳动变成免费的燃料。

“网络正在发生变革,它的商业模式也将随之改变。在这个过程中,我们有机会从过去的 30 年里学到好的地方,让它在未来变得更好。”

至于,事情是不是能真的变好,像 Cloudflare 自己承认的那样:

“这仅仅是个开始。”

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 17:12:59

文字版  标准版  电脑端

© 2003-2025