本文来自微信公众号“DVBCN中广5G”,作者/张晓宝。
8月22日,以“融合创新面向未来”为主题的第三十届北京国际广播电影电视展览会(BIRTV2023))——主题报告会成功举行,中国工程院院士丁文华会上做了关于《数字创意技术发展》的主题报告。
2016年,国务院发布了《“十三五”国家战略性新兴产业发展规划》,其中就新增了“数字创意”的内容,涉及到了有数字文化创意技术装备创新提升工程、数字内容创新发展工程、创新设计发展工程。在2018年国家统计局发布的《战略性新兴产业分类(2018)》中,又确定了统计涉及有数字创意的口径和产品服务。
根据统计数据,2022年全国规模以上文化及相关产业企业营业收入达12.18万亿元,按可比口径计算,比上年增长0.9%。数字创意产业所涉及的学科包括有计算机科学与技术、信息与通信工程、电子科学与技术、光学工程、控制科学与工程、网络空间安全、人工智能等等,包含了数字内容的生产、传播和呈现端到端全部环节的核心技术,数字创意技术也是实现超高清、元宇宙等典型媒体应用的重要支撑。
LLM具备文本逻辑推理、上下文理解、多轮对话能力,使得AI产生了通用性的文本创作能力,已超过原有的搜索(知识问答),标志着AGI的诞生。而AGI大模型可基于一个模型适配多业务场景,模型参数大,能学习海量数据知识,泛化能力强,可实现基于人类反馈的强化学习。AIGC正在改变数字内容的生成方式,特别是当前AI作画、AI创作视频的持续发展应用,但AI Hyper Connection才是未来的目标。
当前,数字人的构建也相当火爆,传统的数字人构建方法中,需要基于全身的3D扫描,其建模数据量是巨大的,MC驱动也要依靠真人的“动作+表情”以实现捕捉,还有着正向渲染、弱交互能力等缺陷。而面向未来基于AI的数字人构建方法中,其可以实现多角度照片替代全身扫描,通过“已有建模模型+AI”可逼近真人效果,驱动则是基于“表情基+指定动作基”可实现,支持逆向渲染+正向渲染+交互的多种方式,基于大模型的具身交互能力。
在计算机视觉效果引擎及平台技术方面,当前主要依托于像Epic的Unreal Engine平台及英伟达的Omniverse平台等,因此,需要面向高效高质的数字环境、数字人、数字物件构建属于我们的数字对象的技术支撑平台,需要构建基于虚拟世界“互联互通+相互融合”的支撑技术。
专用视频编解码技术当前已经极为成熟了,未来更需要面向内容和对象的视频编码,例如能提供AR远程交互会议模式,也需要元宇宙中的语义编码,如能涉及到矢量化全集传输+终端的按需局部呈现等,另外也要有下一代的图像编码,涉及有光场、全息编码技术,以及多模态协同编码等。
在XR近眼显示技术方面,当前的VR显示已可达到4K的量级,像今年苹果公司新发布的Apple Vision Pro,其单眼显示为3644*3144(也就是4K),交互性方面已能支持眼动追踪、手势追踪、声音控制,图像处理方面具备Foveated Renderer,支持孪生数字人实时交互能力。
面向未来的话,AR眼睛将成为大众型的入口终端,可以基于AR眼镜透视(See Through)能力打造“前端多媒体信息增强+后台智能化云端处理”。也就是说,在前端“眼镜呈现+手机算力”能否提供丰富增强信息体验,而后台云平台则能结合AI大模型解决跨模态信息即时生成的过程。
车载领域,工信部方面有提到,要启动智能网联汽车准入和上路通行试点,组织开展城市级“车路云一体化”示范应用,支持有条件的L3及更高级别的自动驾驶功能商业化应用。因此,未来自动驾驶也有望向“L3+”方向发展。而智能座舱则可打造为“第三空间”,其中涉及的车载信息娱乐系统、基于车联网的娱乐信息分发、数据广播、驾驶员感知等方面,也将是未来的信息通信及广电传媒等都将能涉及的领域。
最后,丁文华表示,数字创意与人工智能、元宇宙等前沿技术紧密结合,具备广阔的产业应用前景。数字创意也具有显著的学科交融特性,仅靠单一学科是无法满足发展要求的,需要形成跨学科联动研究。此外,数字创意的研究方向覆盖广泛,应抓住时间尽早布局共性关键技术研究,推动产业向前发展。