随着Google AI概览(AIO)功能影响网站流量、AI生成内容充斥网络,业内早有预测:这一功能迟早会耗尽人类原创数据,转而大量引用完全由AI创作的信息。如今这一趋势已现端倪——一项最新研究发现,大约10%的AIO引用来源其实是AI产出。
人们担心,大量AI生成 “垃圾”内容出现在网上后,像AIO这样的服务会开始引用这些内容。由于AI生成材料常出现臆造且难以验证的现象,AI模型学习自身产出的风险也不断增加,这种“AI学习AI”的反馈循环令人担忧。
据AI内容检测公司Originality.ai发布的新研究,该公司对2.9万个“影响个人健康、安全、财务状况或幸福感”的Google高风险(YMYL)查询进行了随机抽样,分析了Google搜索顶部AIO引用的链接及对应的前100条自然搜索结果。Originality.ai称,使用其AI内容检测工具后,发现有10.4%的AIO引用来源极有可能是AI生成的内容。
早在2023年,英国和加拿大研究者就曾在一项论文中提出“递归的诅咒”(The Curse of Recursion),指出AI模型若频繁引用AI生成材料,会造成“不可逆缺陷”,并首次提出“模型崩溃”概念。Originality.ai的报告认为,这一现象在长期内加剧了模型崩溃的隐患。虽说AIO自身不是AI模型训练的数据,但AIO推广AI内容来源,却无形中提高了后者的曝光和权威性,这会导致更多AI材料最终被纳入日后训练数据。
Google方面对该研究结果表示质疑,一位发言人称Originality.ai“依赖片面数据和不可靠技术”,强调目前AI检测工具远不精确、容易出错。同时,Google表示AIO引用的链接会动态调整,基于相关性、实用性和时效性挑选。
值得注意的是,Originality.ai虽然承认AI检测工具并非十全十美,但官方表示,该工具的准确率在各类测试中表现出色。
该研究还指出,AIO引用内容中有74.4%仍为人类原创,15.2%因文本过少、链接失效或为视频、PDF页面等而无法识别。此外,有52%的AIO引用内容并不在Google搜索该关键词的自然结果前100条之列,其中12.8%同样被标记为AI生成。