总统踹门、女神下海，AI 技术给了我们多少造假的可能？

女神下海是所有宅男的梦想，大多数人只能心里想想，但有的技术宅却靠自己的双手解决了这个问题。最近，一段以「神奇女侠」扮演者盖尔·加朵为「主角」的色情短片在网络上开始流传，仔细看就会发现，盖尔·加朵的脸只是被「换」到了别人身上，视频的主角并不是女神本人。

这段视频出自国外 Reddit 论坛，作者是一位叫 deepfakes 的网友，除了「神奇女侠」盖尔·加朵，他的作品还有很多，艾玛·沃特森（赫敏）、麦茜·威廉姆斯（二丫）、斯嘉丽·约翰逊（黑寡妇）均在其中，这些视频都是用 AI 技术辅助合成的。

这不是尖端技术，用开源项目就可以实现

没有人可以百分百模仿别人的脸，即使是日本成人电影中的波多野结衣、东尼大木，也只是某个角度和明星相似，再加上网友的恶搞，才在网上流行起来。这次「移花接木」的盖尔·加朵视频不是模仿秀，也不是复杂的 CG 技术，只是靠现有的 AI 开源项目，用机器学习进行大量训练，然后合成了色情短片。

deepfakes 不是专业的研究人员，只是对机器学习感兴趣，他所用的技术全部基于 TensorFlow、Keras 等开源软件。deepfakes 用 Google 图片搜索、公开的图库和 YouTube 视频搜集了大量图像，然后用这些素材训练深度学习网络。经过反复的训练，系统就可以识别出盖尔·加朵的正确图像，算法会自动将其他图像变得和训练对象更相似。

deepfakes 在 Reddit 中提到，他使用的算法和前段时间英伟达用来改变天气的技术类似。英伟达使用的是生成式对抗网络（GAN），这种模型擅长处理视觉数据，所生成的图像更锐利、清晰。英伟达用这个技术可以将晴天的视频转换成雨天，以此来欺骗视觉。

有 AI 行业的研究人员表示，这已经不再是尖端技术，用消费级显卡处理这种效果只需要几个小时。

如何让女神的细节更完美？

仔细看这段视频，会发现盖尔·加朵的脸并不是和身体完美贴合，偶尔还是会有错位、失真的现象，有时候声音和口型也对不上。考虑到只是一个程序员的个人作品，能达到这样的程度已经很让人震撼。

机器学习需要大量素材来训练，即使是选择名人作为训练对象，在面部表情上也无法做到尽善尽美，Face2Face 可以解决这些细节问题。利用面部追踪技术，可以将真人的面部细节复制到已有的视频中，利用它可以制造大量具有表情细节的视频素材。

（点击查看视频）

如果我们再多一点「野心」，口型对应的问题可以解决吗？答案是肯定的。

华盛顿大学的研究人员开发出一种新的算法，可以将人说话的声音转化为对应嘴型，然后将其移植到一个现有的视频素材中，生成一段全新的视频，视频中人说话时嘴唇的动作几乎和声音完美对应。

研究人员使用的素材是奥巴马，因为深度学习的算法需要有大量数据做支撑，而他的视频在网上有较多的素材，机器学习会更容易实现。据研究人员透露，整个学习过程需要用 17 个小时的视频作为训练素材。从技术上讲，完全可以把任何人的声音安插到其他人的脸上。

视频中左边是原版的视频。右边是经过算法合成的新视频，用的还是左边视频中的声音，但图像是全新生成的。

（点击查看视频）

口型的问题解决了，这样我们会得到一个由盖尔·加朵的脸、色情女星的身体和声音组成的视频，并且口型和声音能够同步。当然，熟悉盖尔·加朵的人肯定会察觉到异样，毕竟声音和人不对应。

既然图像可以创造，那么声音呢？

在 2016 年 Adobe Max 大会上，开发人员展示了一款代号为 Project VoCo 的软件。它和之前的音频编辑软件不同，你可以在一段声音里直接插入和改动某几个单词。理论上只要有约 20 分钟的录音，Project VoCo 就可以理解一个人声音的构成并进行复制。也就是说利用它可以生成一段你从未说过，但确实是你声音的话。

像 Photoshop 一样编辑声音的技术并不是空想，一个叫 Descript 的音频编辑软件已经正式推出。将声音转化为文字后，你可以通过编辑文本来对音频进行剪切、复制、粘贴、删除和插入等操作。当然，可编辑的音频数量要基于素材的丰富度。

Descript 和 Project VoCo 一样，能基于已有声音素材进行编辑，要重新创造一段话还是很难。想要在色情片中听到完美的声音还原，还要考虑语气、情绪等因素影响，不然做出的视频只能是鬼畜效果。

用 Face2Face 制造有面部表情的视频素材，用音频编辑软件生成声音素材，然后用 deepfakes 的机器学习系统换脸，并用华盛顿大学研究人员的技术让声音和口型对应。这样，声音、图像、表情、口型问题都解决了。

技术难度并不是唯一限制

用技术来还原人物形象的做法在电影中已经出现很多次。《速度与激情 7》中用 CG 技术还原了已经去世的保罗·沃克，《星球大战外传：侠盗一号》中还原了彼得·库欣。这些 CG 技术难度很大，成本也高，AI 技术、机器学习的普及让制造假视频变得简单起来。

前几年网上流行过一段奥巴马踹门的视频，后来被证明是通过剪辑合成的。如果这些场景放到今天用 AI 来实现，恐怕微商们不需要 20 万也可以和前美国总统合影了。

难度并不是新技术推行的唯一限制，我们更应该考虑的是这些技术被滥用之后，引发的道德、伦理、版权等问题。直播、短视频等平台生产出大量内容，手机的面部识别功能也开始普及，如果这些数据被人恶意利用，造成对个人、社会的影响是无法估量的。

AI 可以造出女神，也可以造出魔鬼。

头图来源：DeviantArt

编辑：Rubberso

这不是尖端技术，用开源项目就可以实现

如何让女神的细节更完美？

既然图像可以创造，那么声音呢？

技术难度并不是唯一限制

最新文章