Google AI 概览内容中已有超过10%引用自AI生成材料

随着Google AI概览（AIO）功能影响网站流量、AI生成内容充斥网络，业内早有预测：这一功能迟早会耗尽人类原创数据，转而大量引用完全由AI创作的信息。如今这一趋势已现端倪——一项最新研究发现，大约10%的AIO引用来源其实是AI产出。

人们担心，大量AI生成 “垃圾”内容出现在网上后，像AIO这样的服务会开始引用这些内容。由于AI生成材料常出现臆造且难以验证的现象，AI模型学习自身产出的风险也不断增加，这种“AI学习AI”的反馈循环令人担忧。

据AI内容检测公司Originality.ai发布的新研究，该公司对2.9万个“影响个人健康、安全、财务状况或幸福感”的Google高风险（YMYL）查询进行了随机抽样，分析了Google搜索顶部AIO引用的链接及对应的前100条自然搜索结果。Originality.ai称，使用其AI内容检测工具后，发现有10.4%的AIO引用来源极有可能是AI生成的内容。

早在2023年，英国和加拿大研究者就曾在一项论文中提出“递归的诅咒”（The Curse of Recursion），指出AI模型若频繁引用AI生成材料，会造成“不可逆缺陷”，并首次提出“模型崩溃”概念。Originality.ai的报告认为，这一现象在长期内加剧了模型崩溃的隐患。虽说AIO自身不是AI模型训练的数据，但AIO推广AI内容来源，却无形中提高了后者的曝光和权威性，这会导致更多AI材料最终被纳入日后训练数据。

Google方面对该研究结果表示质疑，一位发言人称Originality.ai“依赖片面数据和不可靠技术”，强调目前AI检测工具远不精确、容易出错。同时，Google表示AIO引用的链接会动态调整，基于相关性、实用性和时效性挑选。

值得注意的是，Originality.ai虽然承认AI检测工具并非十全十美，但官方表示，该工具的准确率在各类测试中表现出色。

该研究还指出，AIO引用内容中有74.4%仍为人类原创，15.2%因文本过少、链接失效或为视频、PDF页面等而无法识别。此外，有52%的AIO引用内容并不在Google搜索该关键词的自然结果前100条之列，其中12.8%同样被标记为AI生成。