近年来,利用公共数据集和人工智能(AI)生成的论文数量急剧增加,引发学界担忧。《科学报告》(Scientific Reports)等期刊的编辑发现,大量内容雷同的论文涌入评审流程,这些论文均基于美国国家健康与营养调查(NHANES)的公开数据。
统计显示,2014至2021年间,此类论文年均仅4篇,但2022年后数量飙升,截至2024年10月已达190篇,增速远超健康领域研究的整体水平。
这些论文通常采用固定模式:选定一种健康问题、一个关联因素及特定人群,通过替换变量生成“新发现”。研究者指出,类似现象也出现在遗传学、文献计量学等领域,表明公共数据集正被滥用为“科研填词游戏”。此外,ChatGPT等AI工具的普及可能被用于改写相同结论以规避抄袭检测,而“论文工厂”的介入进一步加剧了问题。
分析发现,许多论文选择性使用NHANES数据以追求统计学显著结果,导致假阳性率极高。例如,关于抑郁症的28篇研究中,仅13篇通过假阳性校正。更广泛的数据显示,使用NHANES的论文从2023年的4926篇增至2024年的7876篇,其他大型数据集如《全球疾病负担研究》(Global Burden of Disease Study)也可能面临类似风险。
这一现象暴露了科学出版和科研评价体系的弊端。开放获取期刊通过收取高额费用发表低质论文,而研究者迫于职业压力追求数量而非质量。学界警告,若不彻底改革激励机制,问题将持续恶化,最终损害科学的公信力。