本文来自微信公众号“DVBCN中广5G”,【作者】呢喃。
11月15日,国家广播电视总局科技司公布了《数字虚拟人技术要求》行业标准报批稿。
该文件规定了广播电视和网络视听行业数字虚拟人的技术要求,对于数字虚拟人分类、应用场景、形象、驱动技术、平台能力、安全能力提出规范要求。适用于广播电视和网络视听行业数字虚拟人的系统建设、创作和应用。
按照文件中定义,数字虚拟人即基于现实世界设计,通过计算机生成,再借助真人或计算驱动,在多模态输出设备呈现的虚拟人物。
按照人物形象分类,分为2D数字虚拟人和3D数字虚拟人;按照交互模式分类,分为非交互式数字虚拟人和交互式数字虚拟人;按照驱动模式分类,分为算法驱动型数字虚拟人和真人驱动型数字虚拟人。
数字虚拟人主要应用场景分为内容播报、交互客服、虚拟演播和内容创作等。其中内容播报包含新闻资讯播报/手语播报、电影/电视/专题片/纪录片介绍和直播带货等;交互客服包含虚拟客服、智能助手和交互问答等;虚拟演播包含综艺主持、虚拟演唱会、文娱活动和用户代理虚拟分身等;内容创作包含影视创作、视频创作、广告创作和游戏创作等。
总体技术架构包括数字虚拟人形象、算法驱动能力、真人驱动能力、平台能力和安全能力等内容。数字虚拟人形象包括2D真人、2D卡通、3D写实、3D卡通和建模技术。算法驱动包括驱动能力、合成能力和多模态能力。其中,驱动能力又分为文本驱动能力、语音驱动能力和视频驱动能力;合成能力包含语音合成能力和视频合成能力;多模态能力包含语音识别能力和自然语言处理能力。
总体要求中,数字虚拟人形象,应满足如下要求:
a)符合场景的任务设定,在人物形象、表情、服饰等方面得体、美观;
b)支持全身、大半身、半身不同景别姿态;
c)形象完好,不存在扭曲、马赛克、跳帧、破损、音视频延时、口唇不一致等情况;
d)支持装扮、服饰的更换;
e)不存在侵犯第三方权利及法律法规禁止的其他情形。
2D真人数字虚拟人形象方面,支持真人形象复刻,形象逼真自然,语音自然流畅;支持通过照片、视频等方式生成形象,保证面部五官、肤色、牙齿、明暗等准确还原。2D卡通数字虚拟人形象,应支持2D卡通形象绘制,对特有的卡通形象进行建模;支持不同景别、姿态,形象灵动活泼,动作自然舒展。
3D写实数字虚拟人形象,应支持通过3D建模或真人扫描等方式刻画形象,头部模型覆盖面部、口腔、上下牙、舌头、独立左右眼球、眼睑、泪腺等;头部、面部、身体纹理有效区域面积高;毛发系统,如头发、睫毛、面部绒毛等纹理清晰。支持对形象的美型、加工和风格化等;支持不同角度、景别、姿态的灵活转换;支持丰富的动作类型;支持光照效果的处理,如光影、折射、反射等效果;支持人形骨骼、蒙皮建模;支持按1:1的比例,对真人进行复刻。3D卡通数字虚拟人形象,应支持3D卡通形象绘制等方式,对特有的卡通形象进行建模;支持不同景别、角度、姿态,形象灵动活泼,动作自然舒展;支持丰富的动作类型。
数字虚拟人算法驱动能力方面,应支持单一技术驱动和混合技术驱动的方式;数字虚拟人展示应支持端侧渲染,宜兼容多操作系统。
数字虚拟人视频驱动能力,应支持计算机视觉算法,基于记录面部表情和肢体动作的视频,驱动生成数字虚拟人的语音、动作、表情、口型;支持的视频包括通过摄像头记录人体面部表情、肢体动作的视频;支持实时或离线的驱动方式。
数字虚拟人语音合成能力,应支持端到端语音合成模型,支持HiFi-GAN、VAE、Diffusion(扩散模型)、Glow(流生成模型)、DurIAN等多种语音合成模型;音合成效果自然,音质音效贴近真人;实现字词级别的音量、时长的细粒度控制,实现音量、语速的调节;实现多情感高表现力的可控语音合成效果,根据文本内容自动切换合成不同情感的语音;支持针对应用场景(包括播报、解说、诗歌、阅读、客服等),生成多种语音合成风格。
数字虚拟人视频合成能力,应支持多种渲染引擎技术对数字虚拟人形象进行渲染,包括UE、Unity等;支持图像增强技术,改善视频质量和用户体验;支持视频离线合成或实时渲染合成;支持通过人脸的图像或视频内容进行视频合成;支持不同分辨率、码率的视频合成;在1080P分辨率条件下,视频合成实时率不高于1;合成后的视频流畅,支持帧率不小于25FPS。
数字虚拟人多模态能力,应发音准确,不存在漏音吞音、多余发音、音素错误、音调错误等情况;语速、停顿断句、音高、音长、音量、重音等符合自然语言发音规律;语音语调舒适;常见多音字发音正确。口型、唇形自然,与发音同步,符合发音的规律,具备饱满度和表现力。动作精准、自然,与交互语境契合,动作包括但不限于头部、肢体、全身等部位。支持实时渲染技术,支持基于物理光照和实际环境光源、相机位置、材质参数等实时计算,完成图像渲染。在交互客服场景下,支持多轮对话能力,根据上下文内容或用户的问询,进行判断选择,完成用户交互;支持通过对话树等方式,完成不同业务场景下的多轮对话流程跳转及应答。
数字虚拟人平台,应支持针对内容播报、交互客服、虚拟演播、内容创作等应用场景;支持创作不同类型的数字虚拟人;支持数字虚拟人形象的资产管理、业务服务配置及内容生产服务;支持数字虚拟人形象租赁;支持数字虚拟人形象选型、音色配置、背景空间管理、发音及动作配置、会话管理、流程管理等功能;支持多种AI模型和算法;平台生成的数字虚拟人具备多模态交互能力;具备丰富的语音及动作库;支持离线、实时的数字虚拟人生成方式;真人驱动型平台技术支持真人驱动的模式,真人驱动可以和算法驱动混合使用,相互接管。
数字虚拟人平台部署,应支持公有云部署、私有云部署或本地化部署方式;应支持多类型前端接入能力,包括但不限于PC、移动终端、大屏设备等终端接入设备,以及网页、APP、小程序、H5等应用形式,满足系统的前端兼容性;宜支持运用微服务、集群的部署方式;宜采用负载均衡、分布式数据库等技术。