核心要点
- 深度伪造技术对社会构成严重威胁,其危害包括散布不实信息、通过伪装身份损害他人声誉以及引发国家安全冲突。
- 尽管人工智能技术提供了检测深度伪造品的工具,但这些工具并非完美无缺,人类的判断力在识别深度伪造品方面仍然发挥着不可替代的作用。
- 人类和人工智能检测工具在识别深度伪造品时各有优劣,将二者的能力结合起来,可以提高检测的成功率,并有效减轻深度伪造技术带来的风险。
深度伪造技术对社会各方面都构成了威胁。 我们识别虚假信息的能力对于消除不实信息至关重要。随着人工智能技术的进步,在检测深度伪造品方面,我们究竟应该信任人类还是机器呢?
深度伪造的潜在危害
随着人工智能技术的飞速发展,深度伪造的危险对我们每个人都构成了日益严重的威胁。以下是深度伪造技术带来的一些最紧迫问题的简要概述:
- 信息误导:深度伪造的视频和录音可以用来散布虚假信息,例如制造假新闻。
- 身份冒用:通过伪装成他人,深度伪造可能会损害个人声誉,或欺骗那些信任他们的人。
- 国家安全:深度伪造带来的最可怕的场景是伪造全球领导人煽动冲突的影像或音频。
- 社会动荡:各方也可能利用虚假的视频和音频来煽动特定群体的怒火和内乱。
- 网络安全:网络犯罪分子已经开始使用人工智能语音克隆工具,通过冒充熟人发送令人信服的信息来攻击个人。
- 隐私和同意:恶意利用深度伪造技术在未经个人允许的情况下获取其肖像。
- 信任危机:如果我们无法区分真假,那么准确的信息也会变得不可信。
深度伪造技术只会变得越来越逼真,因此我们需要强大的工具和流程来检测它们。人工智能正在以深度伪造检测模型的形式提供一种这样的工具。然而,就像旨在识别由人工智能生成的文本的算法一样,深度伪造检测工具也并非完美。
目前,人类的判断力是我们唯一可以信赖的另一种工具。那么,我们在识别深度伪造品方面真的比算法更胜一筹吗?
算法在检测深度伪造方面是否优于人类?
深度伪造已经成为一个足够严重的威胁,以至于科技巨头和研究机构都在投入大量资源进行相关研究与开发。2019年,Meta、微软和亚马逊等公司联合发起了一项活动,提供了100万美元的奖金,以奖励最准确的深度伪造检测模型,这项活动被称为深度伪造检测挑战赛。
在公开视频数据集上,表现最佳的模型的准确率达到了82.56%。然而,当用包含10,000个未曾见过的视频的“黑盒数据集”对这些模型进行测试时,表现最佳的模型的准确率仅为65.18%。
我们还有大量研究分析了人工智能深度伪造检测工具在与人类进行比较时的表现。当然,每项研究的结果各不相同,但总的来说,人类的成功率要么与深度伪造检测工具持平,要么优于它们。
2021年发表在《美国国家科学院院刊》上的一项研究表明,“普通人类观察者”的准确率略高于领先的深度伪造检测工具。然而,研究还发现,人类参与者和人工智能模型容易犯不同类型的错误。
有趣的是,悉尼大学的研究发现,人类的大脑在无意识地识别深度伪造品方面比我们有意识的努力更有效。
检测深度伪造品中的视觉线索
深度伪造检测的科学非常复杂,所需的分析也会因视频的性质而异。例如,2020年朝鲜领导人金正恩的臭名昭著的深度伪造视频基本上就是一个头部讲话的视频。在这种情况下,最有效的深度伪造检测方法可能是分析视觉元素(嘴唇的运动)和听觉元素(语音)是否不一致。
人类专家、普通观众和算法都可以进行这种分析,即使结果有所不同。麻省理工学院提出了八个问题来帮助识别深度伪造视频:
- 注意面部。高端的深度伪造几乎都是面部变换。
- 注意脸颊和额头。皮肤是否显得过于光滑或皱纹过多?皮肤的老化程度是否与头发和眼睛的老化程度相似?深度伪造在某些方面可能不一致。
- 注意眼睛和眉毛。阴影是否出现在你期望的位置?深度伪造可能无法完全展现场景中自然的物理现象。
- 注意眼镜。是否有眩光?眩光是否太多?当人移动时,眩光的角度是否会改变?深度伪造可能再次无法完全展现照明的自然物理原理。
- 注意面部毛发或缺乏。这些面部毛发看起来是真的吗?深度伪造可能会添加或移除小胡子、鬓角或胡须。然而,深度伪造可能无法使面部毛发的变化完全自然。
- 注意面部痣。痣看起来是真的吗?
- 注意眨眼。这个人眨眼的次数是否足够或过多?
- 注意嘴唇的动作。一些深度伪造是基于口型同步的。嘴唇的动作看起来自然吗?
最新的人工智能深度伪造检测工具可以分析相同的因素,但其成功程度各不相同。数据科学家也在不断开发新方法,例如检测屏幕发言者面部的自然血液流动。新方法和对现有方法的改进可能会使人工智能深度伪造检测工具在未来始终优于人类。
检测深度伪造中的音频线索
检测深度伪造音频是一个完全不同的挑战。如果没有视频的视觉线索,也没有机会识别视听不一致,深度伪造检测在很大程度上依赖于音频分析(在某些情况下,元数据验证等其他方法也可以提供帮助)。
伦敦大学学院于2023年发表的一项研究发现,人类可以在73%的时间里检测到深度伪造语音(英语和普通话)。与深度伪造视频类似,人类听众通常可以直观地检测到人工智能生成的语音中不自然的语音模式,即使他们无法明确指出哪些地方不正常。
常见的迹象包括:
- 口齿不清
- 缺乏表达
- 背景或干扰噪音
- 声音或言语不一致
- 声音缺乏“饱满度”
- 过度脚本化的表达
- 缺乏不完美之处(错误开始、更正、清嗓子等)
同样,算法也可以分析深度伪造语音的相同信号,但新方法正在使这些工具更加有效。研究人员指出,人工智能在声道重建中存在无法模拟自然语音的模式。他们的结论是,人工智能语音生成器可以产生与狭窄声道(大约为吸管大小)相匹配的音频,而没有人类语音的自然运动。
来自霍斯特·格尔茨研究所的早期研究分析了英语和日语的真实音频和深度伪造音频,揭示了真实语音和深度伪造音频之间在高频方面的细微差异。
人类听众和人工智能检测模型都可以察觉到声道和高频的不一致。在高频差异的情况下,人工智能模型在理论上可以变得越来越准确——尽管人工智能深度伪造技术也是如此。
人类和算法都会被深度伪造所欺骗,但方式不同
研究表明,人类和最新的人工智能检测工具在识别深度伪造品方面具有相似的能力。成功率可能在50%到90+%之间变化,具体取决于测试的参数。
一般来说,人类和机器都会受到深度伪造技术的欺骗,程度相似。但关键的是,我们在不同的方面容易受到影响,这可能是我们应对深度伪造技术风险的最大优势。结合人类和深度伪造检测工具的优势,可以弥补各自的弱点,并提高成功率。
例如,麻省理工学院的研究发现,人类比人工智能模型更擅长识别世界领导人和名人的深度伪造品。它还发现,人工智能模型在处理多人镜头时遇到了困难,尽管它认为这可能是由于算法在单个发言者的镜头上进行训练造成的。
相反,同一项研究发现,人工智能模型在处理低质量的镜头(模糊、颗粒感、黑暗等)时表现优于人类,这些镜头可能被故意用来欺骗人类观众。同样,最近的人工智能检测方法,例如监测特定面部区域的血液流动,包含了一些人类无法进行的分析。
随着更多方法的开发,人工智能检测我们无法检测到的迹象的能力只会提高,但其欺骗能力也会提高。最大的问题是深度伪造检测技术是否会持续超越深度伪造技术本身。
在深度伪造时代以不同的方式看待事物
人工智能深度伪造检测工具将不断改进,深度伪造内容本身的质量也将不断提高。如果人工智能的欺骗能力超过了其检测能力(就像人工智能生成的文本一样),那么人类的判断力可能是我们对抗深度伪造的唯一工具。
每个人都有责任了解深度伪造的迹象以及如何识别它们。除了保护自己免受欺诈和安全威胁之外,如果我们失去了对现实的感知,我们在网上讨论和分享的所有内容都容易受到虚假信息的影响。