本文来自人民邮电报,作者:北京交通大学 李婧文。
近来,以ChatGPT为代表的AIGC(人工智能生成内容)技术大火,成为全球关注的焦点,其中运用的深度合成技术作为人工智能应用的一部分,是近年来计算机算法的热门应用之一,被广泛应用于智能服务、音视频制作、媒体传播和信息服务中。深度合成技术是利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等信息的技术,包括文本转语音、语音编辑、音乐生成、人脸生成、人脸替换、图像增强、场景声制作等技术。
深度合成技术是计算机算法应用的一个方面,也是深度学习技术的应用之一。从起源方面看,深度合成技术最初起源于卷积神经网络,该技术具有极强的表征学习能力,能够通过仿照生物知视觉皮层,针对像素和音频进行深度学习。随着深度学习技术、虚拟现实技术特别是“生成对抗网络”技术的不断发展,深度合成技术发展迅速,并被广泛应用到文本、图像、音频、视频的生成制作中。
从具体的应用技术看,应用者主要采用以下技术:一是篇章生成、文本风格转换、问答对话等对文本内容进行生成或者编辑的技术。这类技术属于文本信息编辑技术,利用这类技术可以快速生成文本信息和文本作品,对文本信息进行编辑处理。二是文本转语音、语音转换、语音属性编辑等对语音内容进行生成或者编辑的技术,通过这类技术既可以实现文本信息和语音信息的相互转换,也可以实现不同语音格式和标准之间的自动转换。三是音乐生成、场景声编辑等对非语音内容进行生成或者编辑的技术,利用这类技术能够生成制作音频信息、音乐作品和场景声音。四是人脸生成、人脸替换、人物属性编辑、人脸操控、姿态操控等对图像、视频内容中人脸等生物特征进行生成或者编辑的技术,通过这类技术实现生成人脸、更换人脸、操控人脸活动等视频图像动作效果。五是图像增强、图像修复等对图像、视频内容中非生物特征进行编辑的技术,通过这类技术可以修复甚至生成新的图像。六是三维重建等对虚拟场景、虚拟人物进行生成或者编辑的技术,这一技术可以用于编辑生成虚拟人物和虚拟场景。
随着人工智能等新技术新应用的发展和交互式服务市场拓展,深度合成技术被广泛应用于智能服务、音视频制作和信息传播服务中。在应用场景中,有时使用某一种技术,有时则是多种技术综合性应用。从当前的应用实践看,深度学习技术主要应用于以下场景和服务中。
(一)新闻生成。应用者利用深度合成技术,借助数据挖掘、机器学习以及自然语言处理等技术应用,能够自动生成和编辑新闻消息与其他文字作品。应用者基于大数据分析平台,可以在极短的时间内抓取新闻点,收集和分析相关资料,并按照指令形成新闻或者稿件。2016年6月今日头条上线自动写新闻机器人xiaomingbot,在里约奥运会期间撰写了大量的赛事新闻,并在此后的工作中生成了两万余篇新闻作品。几乎同时,腾讯也推出了新闻机器人Dreamwrite,第一时间生成新闻资讯,形成新闻作品。这些技术的应用,极大提高了新闻生产和传播的效率。
(二)音频制作。深度合成技术被广泛应用于有声阅读、资讯播报、订单播报、智能硬件、音乐和场景音制作等方面。一方面,使用者可以利用深度学习和编辑处理等技术将文本信息转化为语音信息,合成有声读物和音乐、场景音等音频产品,如百度的在线语音合成软件能够将文本信息直接转换为语音信息,应用到阅读听书、资讯播报、电子图书、背景音场景音制作等服务中;另一方面,使用者可以利用声音模拟和声音克隆等语音合成技术对目标对象的录音进行模型训练,然后通过语音转化和合成技术复制目标对象的声音,实现对目标对象声音的克隆,用于语音播报、配音等场景中,如国内一些主流导航软件提供的流量明星的个性化语音服务,很多就是使用了这一技术。
(三)智能客服。应用者利用机器学习和数据采集,通过语音识别、语义理解技术,判断用户的提问意图,通过文语转化和知识图谱技术,找到相关问题的解决方案,并借助深度训练等技术给用户作出解答。在表现形式上,应用者通过客服机器人或者智能对话系统实现上述应用,该技术在金融、保险、政务服务等多个领域已得到应用。目前华为公司开发的QAbot能够在多种客户服务问答场景中自如应答,及时拦截处理高频易混淆的问题,这不仅大幅提升了问答效率和准确率,而且还大幅降低了客服运维的人力成本。
(四)人脸合成。应用者利用深度合成技术,对图像、视频中人物形象的生物特征进行生成或者编辑,合成人脸图像或者替换人脸图像,实现“造脸”“变脸”“换脸”等效果。2017年红迪网(Reddit)用户利用名人面孔合成虚假色情视频并在网上广泛传播,酿成网络舆情事件,利用的就是这一技术。此前网上曾广泛流传的伪造美国总统发布新闻信息的虚假视频,利用的也是这一技术。目前这一技术已被广泛应用在图像视频制作中,利用这一技术,影视制作公司可以在背景、整体布局不变的情况下实现人物形象的自由更换,实现“抠图”“替身”等技术操作。
(五)姿态操控。操作者通过改变目标对象的脸部表情、头部等身体部位的位置的办法,实现对目标对象的面部特征和身体姿态的操控。操控嘴的形状、脸部肌肉、眼睛和眉毛动作,可以实现操控目标对象的脸部表情;操控人的肢体动作和躯干动作,可以实现操控目标对象的身体姿态。通过这一技术,可以让静的目标动起来、活起来,同时,也能改变或者生成新的表情动作。这一技术被用于交互式场景和影视制作中,特别是一些动画作品和科幻人物的制作中。
(六)虚拟人物。综合运用声音制作、声音克隆、人脸合成、姿态操控等深度合成技术,同时采用实时面部表情控制、姿态与语音驱动等技术,可以生成虚拟人物,制作虚拟主播,实现虚拟主播的互动播报。这一技术在新闻传播方面已经得到广泛应用。此前已有新闻媒体推出虚拟主播进行新闻信息播报,同时推出虚拟主播与其他虚拟人物对话,实现AI合成主播面对面采访虚拟动漫人物。通过深度合成技术生成的虚拟人物除了应用在虚拟主播外,还可以应用在场馆讲解、产品介绍、迎宾接待、在线教育等多个场景中。