本文来自根新未来,作者/陈根。
当相貌可以美颜,年龄可以加减,背景可以绿幕时,如何辨别我们所看到的真和假也是一个难题。
时间是最神奇的滤镜。不久前,迪士尼公司发布了一个专用于影视制作的年龄调整算法,可以让演员变得更年轻或更年老。这种算法可以让年老的演员扮演年轻人,反之,也可以让年轻演员扮演自己老年时。这样的效果虽然并不足以用于漫威电影,但它也是换脸技术迈出的新一步。
今天,随着人工智能(AI)的飞速发展,AI深度合成技术门槛正在降低,AI换脸技术逐渐深入大众生活,出现在各种各样的影视作品和生活场景中,当然,这为我们带来了更好的影音体验——不过,当相貌可以美颜,年龄可以加减,背景可以绿幕时,如何辨别我们所看到的真和假也是一个难题。
“返老还童”大法
在过去的几年里,在电影制作和广告中使用数字老化或减龄人类角色的情况急剧增加,比如在《爱尔兰人》(The Irishman)中让罗伯特-德尼罗(Robert De Niro)显得更年轻,或是在抗击疟疾的广告活动中让大卫-贝克汉姆看起来衰老,都需要用到Re-Age技术。一般来说,有两种不同的方法常用于CG数字re-age。
第一种,就是沿用传统的三维面部建模pieline,对一个完整的三维re-age面部装备进行建模、动画和渲染,以取代场景中的原始肖像。这种方法需要在re-age前制作一个完整的三维面部装备来辅助操作,由于其复杂性并且所需时间过长,通常只会应用在那些顶级流量的明星演员上或是有特写的镜头。
第二种,则是遵循一个纯粹的二维照片的工作流程,对拍摄完成后的视频中每一帧进行编辑合成,改变演员的年龄。虽然这种方法所提供的整体控制不如完全的三维方法,但与三维方法相比,这种方法极其简单易用,也不需要提前对演员进行面部扫描并制作面部装备。因此,二维数字re-age在业内逐渐受到关注,并被用于一些大片的制作中,如《蚁人》中的迈克尔-道格拉斯和《惊奇队长》中的塞缪尔-杰克逊的re-age。
另外,尽管re-age的二维工作流程是比较直观且简便的,但其仍然需要专业人员逐帧对表演视频进行手动编辑。过去的技术大多依托2D绘画工作流,通常需要一帧一帧的手工操作,即使是熟练的特效设计师也需要几天时间才能完成。除了耗时之外,目前市面上针对面部图像进行自动老化处理的人工智能技术还未成熟,大多数都难以达到在业内被实际使用的程度,因为它们通常会出现面部特征丢失、分辨率损害以及后续视频帧不稳定的结果。比如,在使演员变老时,每一帧都必须整合预期的耳朵和鼻子的增长,肌肉张力的丧失和面部皮肤的下垂,动态皱纹的增加,甚至皮肤色素和血流的变化。
当然,不管是三维面部建模,还是遵循二维照片的工作流程,其制作过程都耗时费力。尤其是在手机视频上看到的小缺陷,比如表情和嘴部动作不协调,在大银幕上会被放大数倍,产生严重的违和感,如果非要应用于电影,也需要大量手动的微调才能确保高质量,但价格却令令影视公司望而生畏:高端的视觉效果通常每分钟要花上数百万美元
而近日,迪士尼在网络走红的堪称“返老还童”的算法却有可能帮人们解决成本高企的问题。迪士尼的“返老还童算法”被称为FRAN,与过去的模型相比,FRAN的优势是显而易见的。
过往模型在改变年龄的过程中往往都聚焦在人脸身上,会忽略掉人像后面的背景,比如DLFS直接就扣掉了背景图。并且帧与帧之间的过渡也不是很流畅。而FRAN可以精确地保留演员的外观,即使在头部动作幅度很大时或光线变化的情况下也能如此。除此之外,FRAN的灵活性也更强,可以任意调节想要的年龄。FRAN还允许后期人员对生成的视频进行二次调整,使整个视频更加自然。
简单来说,FRAN能够使用数据信息来预测真人演员面部的哪些区域会老化,以及如何将皱纹和下巴叠加到既有视频片段上,或者从既有画面的人物脸上删除皱纹。有了FRAN,未来,影视作品中或许就不再需要靠化妆师改变演员年龄视觉效果。不过,FRAN仍有一些局限性,FRAN可能不适合进行重大的年龄改变,例如从很小的年龄开始重新变老,并且当演员变老时,头皮头发的变灰效果不会反映出来,因为这些围观数据还没有被收入训练出FRAN的数据库中。
真真假假的世界?
迪士尼宣称FRAN是第一个针对视频人脸的年龄处理技术,具有实用性、全自动、可操作性。在论文中,迪士尼研究工作室解释FRAN是一个神经网络,它使用一个大型数据库进行图像处理,该数据库已包含随机合成的属于不同年龄段的成组面孔,不需要找到数千张不同年龄段真实人物的图像,然后进行更一步的照明和背景合成。
具体来看,根据迪士尼发布的相关论文,其中第一个关键思路是解决收集训练数据的问题,以便在较长的时间跨度下让模型学习到如何搭建人脸。但对于真实场景中存在的大量人物来说,这是一项几乎不可能完成的任务。因此,研究人员使用了StyleGAN2随机生成了大量的年龄在18岁至85岁之间的人工合成人脸,有了这样一个数据集,就可以用于模型训练。
论文中的第二个关键思路就是神经网络架构的搭建。FRAN采用的是U-Net架构。在生成的过程中,FRAN会预测面部的哪些像素点会随着年龄的增长而改变,比如增加或去除皱纹,然后这些结果会作为额外的视觉信息通道覆盖在原来的脸上。在这个过程中,还可以选择使用预先训练好的人脸分割网络:BiSeNetV2,并设置局部的输入和输出年龄值,来限制皮肤区域的再老化,使生成的效果更好。
可以说,FRAN的出现为影视制作减轻了塑造跨年龄角色的负担。不仅免去传统换脸技术的长耗时和高花费,也减少了妆造刻画年龄的经济成本。接下来,只要演员演技在线,便能自然地在屏幕上演绎人物、
FRAN的意义是不言自明的。一方面,以FRAN为代表的算法可用来升级音视频剪辑技术,为影视制作中的特效呈现更好的效果,减轻视频编辑人员的工作压力;另一方面还可以减少因为演员、拍摄场景的局限,拓展电影的创作空间,衍生出更多改编作品。未来,这一类技术显然还将更深入地嵌进我们的生活。
不过,随着AI换脸日益逼真,技术门槛越来越低,虽然也带给影视内容应用更高效率、更低制作成本等好处,但随之而来的造假、欺诈等问题,真假混淆使得人们却愈发缺失安全感。
毕竟,当开源软件涌现时,我们开发技术获取成本大大降低,并且能够被不具备专业知识的普通人利用并轻易制作。制造这样的视频并不需要很高的技巧,机器学习算法与面部映射软件相结合,伪造内容来劫持一个人的声音、面孔和身体等身份信息变得廉价而容易,普通大众一键便可制造想要的视频。
但是,当相貌可以美颜,年龄可以加减,背景可以绿幕时,我们又如何来辨别所见世界的真假?实际上,自从摄影术、视频、射线扫描技术出现以来,视觉文本的客观性就在法律、新闻以及其他社会领域被慢慢建立起来,成为真相的存在,或者说,是建构真相的最有力证据。
然而,就像ChatGPT越来越具有类人性一样,当我们越来越分辨不清我们的对面是机器还是人类时,越来越难以辨别我们所浏览的视频真假时,我们曾经对“眼见为实”的相信也将受到极大的挑战。
事实上,在FRAN这类算法快速发展时,人们也试图通过技术手段规范这项技术的使用。比如,2019年,斯坦福大学研究员Tom Van de Weghe联合计算机、新闻等行业的专家,成立了相关的研究小组,以提升公众对这一现象的认知度,设计深度合成的识别应对方案。然而,技术发展速度往往高于破解速度。随着鉴别器在识别假视频方面做得越来越好,生成器在创建假视频方面也做得越来越好。
然而,迄今为止,几乎所有关于技术的立法都滞后于技术的发展,技术演进的加快是必然的趋势,但如何回应技术演进中诞生的问题,也是身处于日新月异时代的我们需要思考的事情。