研究人员开发出新型人工智能系统 可准确检测伪造的数字作品
随着逼真的虚假视频变得越来越容易制作,并被更广泛地用于传播虚假信息、针对个人和造成伤害,加州大学河滨分校的研究人员开发了一种新的人工智能系统,旨在检测这些数字伪造品。
电气与计算机工程教授 Amit Roy-Chowdhury 和加州大学河滨分校 Marlan and Rosemary Bourns 工程学院的博士生 Rohit Kundu,与Google的一个团队合作,构建了一个能够识别视频篡改的人工智能模型,即使这种篡改不仅仅是简单的换脸或修改音频。(Roy-Chowdhury 还是加州大学河滨分校人工智能研究与教育 (RAISE) 研究所的联合主任,该研究所是加州大学河滨分校最近成立的一个跨学科中心。)
该工具名为“识别篡改和合成视频的通用网络”(UNITE),其工作原理是分析整个视频帧,而不是仅仅关注人脸。它检查背景细节和运动模式,使其成为首批能够不依赖面部线索识别篡改或完全合成视频的系统之一。
从换脸到完全伪造的世界
“深度伪造技术已经进化了,”昆杜说道,“它们不再只是换脸那么简单。现在人们使用强大的生成模型,制作从人脸到背景都完全虚假的视频。我们的系统就是为了捕捉所有这些。”
UNITE 的发布正值人工智能驱动的文本转视频和图像转视频工具在网上日益普及之际。这些技术几乎让任何人都能制作出极具说服力的虚假视频,引发了公众人物、组织以及民主进程公正性的严重担忧。
“这些工具变得如此唾手可得,真是令人恐惧,”昆杜说道。“任何具备一定技能的人都可以绕过安全过滤器,制作出逼真的视频,让公众人物说出他们从未说过的话。”
不需要人脸的探测器
Kundu 解释说,早期的深度伪造检测器几乎完全关注面部线索。
“如果画面中没有人脸,很多探测器根本就无法工作,”他说。“但虚假信息的形式多种多样。改变场景背景也同样容易扭曲真相。”
为了解决这个问题,UNITE 使用基于 Transformer 的深度学习模型来分析视频片段。它可以检测到细微的空间和时间不一致性——这些线索经常被之前的系统忽略。该模型借鉴了名为 SigLIP 的基础 AI 框架,该框架提取不局限于特定人物或物体的特征。一种名为“注意力多样性损失”的新颖训练方法促使系统监控每一帧中的多个视觉区域,从而防止其仅仅关注人脸。
一个模型检测所有
最终成果是一个通用检测器,能够标记一系列伪造品——从简单的面部交换到没有任何真实镜头生成的复杂、完全合成的视频。
“这是一个可以处理所有这些场景的模型,”昆杜说。“这就是它具有通用性的原因。”
研究人员在田纳西州纳什维尔举行的2025年计算机视觉与模式识别大会(CVPR)上展示了他们的研究成果。他们的论文题为《迈向通用合成视频检测器:从人脸或背景操作到完全AI生成的内容》,由Kundu领导,概述了UNITE的架构和训练方法。合著者包括Google研究人员Hao Xiong、Vishal Mohanty和Athula Balachandra。CVPR由IEEE计算机学会和计算机视觉基金会共同赞助,是全球影响力最大的科学出版平台之一。
由 Google 资源提供支持
Kundu 与Google的合作(Kundu 曾在Google实习)提供了对广泛数据集和计算资源的访问,以便在广泛的合成内容上训练模型,包括从文本或静止图像生成的视频 - 这些格式通常会难倒现有的检测器。
尽管 UNITE 仍处于开发阶段,但它可能很快会在防御视频虚假信息方面发挥重要作用。其潜在用户包括社交媒体平台、事实核查人员以及致力于防止被操纵视频传播的新闻编辑室。
“人们有权知道他们所看到的是否真实,”昆杜说道。“随着人工智能越来越擅长伪造现实,我们也必须更擅长揭示真相。”
编译自/scitechdaily