Cloudflare开始免费提供阻止AI机器人的一键式解决方案

摘要:

越来越多的人认为,生成式人工智能有可能使开放网络变得比以前更糟。目前,所有大型科技公司和人工智能初创企业都依赖于从网络上抓取所有原创内容来训练其人工智能模型。问题是,绝大多数网站对此并不感冒,也没有给予许可。不过,问问微软人工智能首席执行官就知道了,他认为开放网络上的内容本来就应该免费抓取。

就在上周,Akamai 的一份报告再次证实,机器人在整个网络流量中的占比非常大,人工智能让网络犯罪分子和不诚实的企业更容易得手。

2024-07-04-image-2.png

使用 Cloudflare 提供的内容交付和防火墙服务的网站和内容创建者现在又多了一个简单易用的解决方案,可以遏制大科技公司在没有明确授权的情况下释放机器人和采集网站内容的能力。

大多数流行的人工智能公司(如 OpenAI)已经开始提供一种方法,通过在服务器上的robots.txt 文件中添加自定义规则来阻止爬行机器人。然而,这些解决方案只有在机器人被设计为真正遵守这些规则时才会起作用--问题在于:1)并非所有公司都愿意遵守 robots.txt 指令;2)许多人工智能公司在提供这种"选择退出"之前就已经放弃了一切可能--Cloudflare 表示,其绝大多数客户(多达 85%)已经选择以这种方式阻止人工智能机器人。

Cloudflare 提供的新一键式解决方案既适用于免费客户,也适用于付费客户,它似乎可以有效打击不遵守 robots.txt 规则的人工智能机器人。Cloudflare 可以识别机器人,并为每个机器人创建单独的指纹,而且它发誓会随着时间的推移自动更新其指纹数据库。

2024-07-04-image-16.webp

作为互联网上最大的 CDN 网络之一,Cloudflare 可以从平均每秒超过 5700 万次的网络请求中推断出数据。

该公司列出了一份当今网络上最活跃的人工智能机器人名单,其中 Bytespider、GPTBot 和 ClaudeBot 是访问量最大的三个机器人。Bytespider 由中国公司和 TikTok 所有者字节跳动运营,很可能使用从 40% 受 Cloudflare 保护的网站上抓取的内容来训练其大型语言模型。

GPTBot 正在访问 35% 的网站,并收集数据用于训练 ChatGPT 和 OpenAI 提供的其他生成式人工智能服务。Cloudflare 表示,ClaudeBot 最近的请求量增加了 11%,并被用于训练 Anthropic 开发的同名 LLM 算法系列。

2024-07-04-image-4.png

虽然通过静态分析可以更容易地识别这些众所周知的机器人,但 Cloudflare 还可以检测到假装成真人浏览网页的机器人。

该公司开发了自己的全球机器学习模型,基本上是利用人工智能技术来识别假装成其他东西的人工智能机器人。Cloudflare表示,其模型能够"适当标记"来自躲避性人工智能机器人的流量,未来将用于检测新的刮擦工具和假冒机器人,而无需先生成新的机器人指纹。

查看评论
created by ceallan