预印本网站arXiv的一项最新研究证实:用太多社交媒体上的低质内容训练AI聊天机器人,会给它们造成类似“脑损伤”的后果,导致智商和情商双双掉线。这项研究揭示了关键问题:当大语言模型被大量“短平快”、耸人听闻的社交帖子喂养后,它们的推理能力会率先崩盘。模型会开始“偷懒”,跳过关键推理步骤,甚至完全放弃思考,直接输出错误答案。更糟的是,数据中“垃圾”比例越高,这种降智效果就越明显。

为了量化影响,研究团队搞了次大型“AI人格测试”。他们用一百万条X平台的帖子训练了包括Meta的Llama 3和阿里巴巴的Qwen在内的多个开源模型。测试发现,原本性格还算正常的模型,在“垃圾信息”的持续投喂下,负面人格特质被放大,甚至开始显现出“精神病态”倾向。
后续的补救实验也不乐观。试图通过优化指令或掺入好数据来“治病”,效果有限。模型那种放弃深度思考、直奔答案的“坏习惯”已经养成,难以根除。这证明,事后的修修补补,远不如从数据源头做好“健康饮食”。
核心启示很简单:数据质量是AI的命根子。专家强调,未来必须对训练数据进行极其严格的筛选和过滤,从源头屏蔽低质噪音。
眼下,像领英这样的平台已宣布将用户数据用于AI训练。这项研究无疑敲响了警钟:在疯狂投喂数据之前,我们是否做好了“垃圾分类”?否则,我们得到的可能不是智能助手,而是一群受过“脑损伤”的AI。