您关于 Deepfakes 的一站式解释器,并使用 Faceswap 轻松制作它们。
人工智能不再那么“人工”了。 这些时代使它危险地接近我们人类。
它可以建议、写作、创造艺术,现在看起来和说话都像活人一样。
这是我们应该利用的该领域的最新发展之一。 但是,这也是我们必须提防的。
什么是 Deepfakes?
Deepfake这个词是深度学习和fake相结合而产生的。 简而言之,您还可以假设这是经过专业操作或深度伪造的媒体。
根据维基百科,这也称为合成媒体,其中对现有图像、音频或视频进行修改以完全代表其他人。
通常,deepfakes 让知名人士看起来会说一些他们本来不会说的话。
以其创作者的功力,真假难辨。
Deepfakes 如何运作?
简而言之,原始视频的一部分(比如一张脸)被一个看起来相似的假人所取代。 在这种情况下,它也可以称为换脸,就像这个“奥巴马”视频中那样。
然而,它不仅限于视频,我们还有 deepfakes 图像和音频(谁知道呢,在不久的将来会出现 deepfake VR 头像)。
资料来源:迪士尼
这些诡计背后的工作方法主要取决于应用程序和底层算法。
根据迪士尼的这篇研究论文,有多种技术,包括编码器-解码器、生成对抗网络 (GAN)、基于几何的深度伪造等。
但是,以下部分主要受其与 Facewap 配合使用的方式的影响。 这是一款免费开源的 Deepfake 软件,允许多种算法获得预期的结果。
生成 deepfakes 的三个主要过程:提取、训练和转换。
#1。 萃取
这是关于从媒体样本(原始样本和交换样本)中检测和挤出感兴趣的主题区域。
基于硬件能力,可以有许多算法来选择有效检测。
例如,Faceswap 根据 CPU 或 GPU 效率有几个不同的提取、对齐和遮罩选项。
提取只是识别整个视频中的面部。 对准点任何面部的关键特征(眼睛、鼻子、下巴等)。 最后,遮罩会遮挡图像中除感兴趣区域之外的其他元素。
输出所花费的总时间对于选择任何选项都很重要,因为在平庸的硬件上选择资源密集型算法可能会导致失败或需要很长时间才能呈现可接受的结果。
除了硬件之外,选择还取决于参数,例如输入视频是否受到手部动作或眼镜等面部障碍物的影响。
最后,一个必要的元素是清理(稍后解释)输出,因为提取会有一些误报。
最终,对原始视频和伪造视频(用于交换)重复提取。
#2。 训练
这就是制造 deepfakes 的核心。
训练是关于神经网络的,它由编码器和解码器组成。 在这里,算法被输入提取的数据以创建用于稍后转换的模型。
编码器将输入转换为向量表示,以训练算法从向量重新创建人脸,就像解码器所做的那样。
之后,神经网络评估其迭代并通过分配损失分数将它们与原始迭代进行比较。 随着算法不断迭代,这个损失值会随着时间的推移而下降,当预览可以接受时你就停止了。
训练是一个耗时的过程,输出通常会根据其执行的迭代和输入数据的质量而得到改善。
例如,Faceawap 建议每张至少 500 张图片,包括原始图片和用于交换的图片。 此外,图像之间应该有显着差异,在独特的照明下涵盖所有可能的角度,以获得最佳娱乐效果。
由于训练长度,一些应用程序(如 Faceswap)允许中途停止训练或稍后继续。
值得注意的是,输出的逼真度还取决于算法的效率和输入。 并且再次受到硬件功能的限制。
#3。 转换
这是deepfake创作的最后一章。 转换算法需要源视频、训练模型和源对齐文件。
随后,可以更改一些与色彩校正、蒙版类型、所需输出格式等相关的选项。
配置完这几个选项后,您只需等待最终渲染。
如前所述,Faceswap 可与多种算法一起使用,并且可以在两者之间进行调整以获得可容忍的换脸。
这就是全部?
不!
这只是换脸,是深度换脸技术的一个子集。 换脸,就像字面意思一样,只是替换了一部分脸,让人们对 deepfakes 可以做什么有一个模糊的了解。
为了进行可信的交换,您可能还需要模仿音频(更广为人知的声音克隆)和整个体格,包括适合画面的所有内容,如下所示:
那么,这里有什么作用呢?
可能发生的情况是,deepfake 作者自己拍摄了视频(如最后几秒所示),将对话与摩根弗里曼的合成声音进行口型同步,并替换了他的头。
总而言之,这不仅仅是换脸,而是整个画面,包括音频。
你可以在 YouTube 上找到大量的 deepfakes,以至于让人不敢相信什么。 只需一台配备高效显卡的功能强大的计算机即可开始。
然而,完美是很难实现的,对于 deepfakes 来说尤其如此。
对于一个令人信服的可以误导观众或让观众惊叹的深度造假,需要技巧和几天到几周的时间来处理一两分钟的视频。
有趣的是,这就是这些算法目前的能力。 但是未来会怎样,包括这些应用程序在低端硬件上的有效性如何,这让整个政府都感到紧张。
但是,我们不会深入探讨其未来的影响。 取而代之的是,让我们自己检查一下如何做,以获得一点乐趣。
创建(基本)Deepfake 视频
您可以在此 deepfake 应用程序列表中检查许多用于制作模因的应用程序。
其中之一是 Faceswap,我们将使用它。
在继续之前,我们会确保一些事情。 首先,我们应该有一个描述不同情绪的目标的高质量视频。 接下来,我们需要一个源视频来切换到目标上。
此外,在继续 Faceswap 之前,请关闭所有图形卡密集型应用程序,如浏览器或游戏。 如果您的 VRAM(视频 RAM)少于 2 GB,则尤其如此。
第 1 步:提取人脸
此过程的第一步是从视频中提取人脸。 为此,我们必须在输入目录中选择目标视频并列出提取的输出目录。
此外,还有几个选项,包括检测器、对准器、掩蔽器等; 每个的解释都在 Faceawap 常见问题解答中,在这里重复这些信息是一种浪费。
资料来源:Faceswap 常见问题解答
通常最好查看文档以获得更好的理解和体面的输出。 但是,您可以通过将鼠标悬停在特定选项上来找到 Faceswap 中的有用文本。
简而言之,没有通用的方法,人们应该从最好的算法开始,然后逐步成功地创建一个令人信服的深度伪造。
对于上下文,我使用了 Mtcnn(检测器)、Fan(对准器)和 Bisenet-Fp(掩蔽器),同时保持所有其他选项不变。
最初,我尝试将 S3Fd(最佳检测器)和其他几个掩码结合使用。 但是,我的2Gb Nvidia GeForce GTX 750Ti首当其冲,进程屡屡失败。
最后,我调低了我的期望和设置来完成它。
除了选择合适的检测器、掩蔽器等之外,设置 > 配置设置中还有一些选项可以帮助进一步调整各个设置以帮助硬件。
简单的说,Batch-Size、Input Size、Output Size尽量选择最小,LowMem等选项勾选。这些选项不是通用的,是根据特定的section来的。 此外,帮助文本进一步帮助选择最佳选项。
尽管此工具在提取人脸方面做得非常出色,但输出帧的数量可能远远超过训练(稍后讨论)模型所需的数量。 例如,它将包含所有面孔(如果视频有多个面孔)和一些根本没有目标面孔的不正确检测。
这导致清理数据集。 要么检查输出文件夹并删除自己,要么使用 Faceswap 排序来获得一些帮助。
使用上述工具将按顺序排列不同的面孔,您可以将必要的面孔放在一个文件夹中,然后删除其余面孔。
提醒一下,您还需要对源视频重复提取。
第 2 步:训练模型
这是创建 deepfake 的最长过程。 这里,Input A 指的是目标人脸,Input B 是关于源人脸的。 此外,模型目录是保存训练文件的地方。
这里最重要的选项是 Trainer。 有很多单独的缩放选项; 但是,适用于我的硬件的是 Dfl-H128 和具有最低配置设置的轻量级训练器。
接下来是批量大小。 较大的批量大小会减少整体训练时间,但会消耗更多 VRAM。 迭代对输出没有固定影响,您应该设置足够高的值并在预览可接受后停止训练。
还有一些设置,包括创建具有预设间隔的延时摄影; 然而,我用最少的训练模型。
第 3 步:切换到原件
这是deepfake创作的最后一个壮举。
这通常不会花费太多时间,并且您可以使用许多选项来快速获得所需的输出。
如上图所示,这些是开始转换需要选择的几个选项。
大多数选项已经讨论过,例如输入和输出目录、模型目录等。一个重要的事情是对齐,它指的是目标视频的对齐文件 (.fsa)。 它在提取期间在输入目录中创建。
如果尚未移动该特定文件,则 Alignments 字段可以留空。 否则,可以选择该文件并转到其他选项。 但是,如果您之前已经清理过提取物,请记住清理比对文件。
为此,这个迷你工具位于工具 > 对齐中。
首先在 Job 部分选择 Remove-Faces,选择原始对齐文件和清理后的目标面文件夹,然后单击右下角的 Alignments。
这将创建一个修改后的对齐文件,与优化的面文件夹相匹配。 请记住,我们需要将其用于要交换到的目标视频。
更多配置包括颜色调整和蒙版类型。 颜色调整决定蒙版混合,您可以尝试一些,检查预览,然后选择最佳选项。
口罩类型更重要。 同样,这取决于您的期望和可用的硬件。 通常,您还需要考虑输入视频的特性。 例如,Vgg-Clear 适用于没有障碍物的正面,而 Vgg-Obstructed 也可以处理障碍物,例如手势、眼镜等。
接下来,Writer 根据您想要的输出提出一些选择。 例如,选择 Ffmpeg 进行视频渲染。
总的来说,deepfake 成功的关键是预览一些输出并根据时间可用性和硬件的效能进行优化。
Deepfake的应用
Deepfakes 有好的、坏的和危险的应用。
好的部分包括由实际存在的人重新创建历史课程以提高参与度。
此外,在线学习平台正在使用它们从文本生成视频。
但最大的受益者之一将是电影业。 在这里,很容易想象真正的主角表演特技,即使是冒着生命危险的特技演员。 此外,制作多语言电影将比以往任何时候都容易。
不幸的是,坏的有很多。 事实上,迄今为止最大的 Deepfake 应用程序有 96%(根据这份 Deeptrace 报告)是在色情行业将名人面孔换成色情演员。
此外,deepfakes 还被用来攻击“标准”的非名人女性。 通常,此类受害者的社交媒体资料上有高质量的照片或视频,用于制作 deepfakes。
另一个可怕的应用程序是网络钓鱼,也就是语音网络钓鱼。 在一个这样的案例中,一家英国公司的首席执行官根据其德国母公司“首席执行官”的命令转账了 243,000 美元,后来才发现这实际上是一通深度伪造的电话。
但更危险的是deepfake挑起战争或要求投降。 最近的一次尝试是乌克兰总统沃洛德米尔·泽伦斯基 (Volodymyr Zelenskyy) 告诉他的部队和人民在正在进行的战争中投降。 然而,这一次的真相被劣质视频泄露了。
总而言之,deepfake 应用程序很多,而且才刚刚起步。
这给我们带来了百万美元的问题……
Deepfakes 合法吗?
这主要取决于当地政府。 虽然,明确的法律,包括什么是允许的,什么是不允许的,还有待观察。
不过,显而易见的是,这取决于你使用深度造假的目的——目的。 如果您打算在不扰乱交换目标的情况下娱乐或教育任何人,几乎没有任何伤害。
另一方面,无论司法管辖区如何,恶意应用程序都应受到法律惩罚。 另一个灰色地带是侵犯版权,需要适当考虑。
但重申一下,您应该向当地政府机构查询合法的深度伪造应用程序。
留意!
Deepfkaes 利用人工智能让任何人说话。
不要相信你在互联网上看到的任何东西是我们应该采取行动的第一个建议。 有大量的错误信息,而且它们的功效只会增加。
而且由于创建它们只会变得更容易,所以现在是我们学习如何发现 deepfakes 的时候了。