返回上一页  首页 | cnbeta报时: 15:09:19
知名维修网站iFixit抱怨Claude发起DDoS攻击 1天访问数百万次抓取数据训练AI
发布日期:2024-07-25 14:49:56  稿源:蓝点网

Claude 是人工智能开发商 Anthropic 开发的人工智能应用程序,和大多数人工智能开发商一样,Anthropic 派出的爬虫每天会在互联网上检索并抓取海量内容用来训练人工智能模型。iFixit 是业界知名的拆解维修网站,该网站有诸多文字和图片类的拆解文章,于是 Anthropic 派出的爬虫也对 iFixit 发起了疯狂的抓取。

该网站管理员在 X/Twitter 上抱怨称:我知道你渴望数据,Claude 真的很聪明,但你真的需要在 24 小时内对我们的服务器进行一百万次攻击吗?你不仅不付费就窃取了我们的内容,还占用了我们的开发运营资源,这太不酷了。

网站日志显示 ClaudeBot 每分钟对 iFixit 发起数以千计的访问,这会 iFixit 服务器产生的负面影响,因为这种抓取不仅会消耗服务器 CPU 资源还会消耗网络带宽,任何一个网站都不愿意看到这种情况。

iFixit 在接受 404media 采访时称:

我们是世界上最大的维修信息数据库,如果他们未经允许就把所有信息都拿走、导致我们服务器瘫痪。iFixit 目前拥有数百万个链接,包括各种维修指南、维修修订历史、博客、新闻帖子、研究、论坛、社区贡献的维修指南以及问答等。

对于抱怨 Anthropic 的支持团队并未道歉并且给出了如下回应:

按照行业标准 Anthropic 使用各种数据源进行模型开发,例如通过网络爬虫收集的互联网上的公开数据。我们的抓取不应该具有侵扰性和破坏性,我们的目标是适当的情况下尊重抓取延迟将干扰降到最低。

对网站来说最简单的方式就是直接屏蔽 Claude 爬虫,蓝点网也同样面临 Claude 爬虫的 DDoS 攻击,该爬虫确实会以每分钟几千次的频率进行抓取,这对蓝点网服务器产生了影响所以我们早早就屏蔽了 Claude 爬虫。

要屏蔽的话可以在 robots.txt 里添加以下内容:

User-agent: ClaudeBotDisallow: /

当然为了保险起见我们还在 Nginx 上使用了正则表达式匹配 ClaudeBot 爬虫,如果 ClaudeBot 爬虫未遵守 robots.txt 协议继续抓取,那可以直接拦截。

为了避免爬虫无法抓取 robots.txt 文件建议站长先更新 robots.txt,几天后如果在网站日志里仍然能看到 ClaudeBot 抓取非 robots.txt 文件的记录,那就代表未遵守协议,可以直接通过 Nginx 返回 HTTP 444 丢弃连接降低服务器负载。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 15:09:19

文字版  标准版  电脑端

© 2003-2024