以下为文字采访实录:
Q:看今天视频编码专题论坛的议程安排,咱们涌现和艾瑞咨询将在会上联合发布智能视频编码行业白皮书,请您简单介绍一下我们定义的智能视频编码,与我们目前接触的AI辅助视频编码又有什么区别呢?
A:您的问题非常专业,一般的观众可能不太会理解AI辅助编码。编码是视频处理非常基本的操作,它的主要作用是把视频的体积降下来,在传输中节约带宽。编码是一个复杂的一个数学计算,它在历史上经历了很多次迭代。智能或者说人工智能也是一个存在已久的话题,但在最近10年左右发展得非常迅速。在过去这两者基本上是相对独立发展的,在编码技术发展的过程中,没有考虑到人工智能技术的快速进步,过去十年人工智能技术的急速发展并进入实用化为编码技术带来了巨大的机会,未来人工智能技术和编码或者视频技术将会有很好的结合。
当前普通的观众直接感受到的是,我们日常在看视频的时候,有了美颜、人脸识别等功能,他们是从应用场景来看这件事情的,然而从编码或者视频的底层处理技术的角度来说,人工智能也带来了很大的机会。这里主要是指两个方面,除了您刚才提到的AI辅助编码之外,还有什么样的视频、什么样的编码能够更好的辅助AI?所以涌现提出智能视频编码概念其实是两方面的,一方面是AI辅助编码,使编码的效率更高;另一方面是什么样的编码和视频能够更好地被AI处理,使AI的处理效率更高,或者处理效果更好。这是一个双面融合的概念,在此之前没有特别合适的名词或概念来进行定义,所以我们这次和艾瑞咨询一起联合提出了智能视频编码、智构视频的概念,从而把这两者融合起来,一面是“AI for Coding”,即用AI来帮助编码,另一面是“Coding for AI”,即用编码来帮助AI,使AI的效率、效果更好。
Q:涌现科技作为科创企业,不单做产品开发和商业化推广,还与中科大成立了智能媒体计算联合实验室布局基础研究,积极与高校合作推动产学研,由此可见我们的技术实力,请分享以下我们的技术优势和创新点,这些技术在国内或国际领域处于什么水平?
A:刚才讲到我们的技术其实是个非常底层的技术,编码和人工智能都是非常前沿的技术领域。在这些领域的发展第一需要很长时间的技术积累,第二需要紧跟科技前沿,第三需要从今天开始为三年、五年以后布局。涌现虽然是初创企业,但我们的愿景和目标是远大的。我们从成立之初就和中科大联合成立了智能媒体计算联合实验室,我们对联合实验室比较长期的布局和期望主要在几个方向:一是研究最前沿的科研的问题,二是参与国际标准的提案和讨论,三是把最前沿的科技研究的一些成果应用在我们的产品中。
至于涌现的技术优势和创新,可以结合我们智能视频的两个方向来讲,一个是“AI for Coding”,可以用50%这个数字来代表,是指涌现在采用自研的基于AI的编码框架进行编码压缩,比目前主流的标准编码框架能节约50%左右的码率,也就是节约50%左右的带宽,相当于在当前的编码框架下,能够实现下一代编码技术的编码效率,这是一个非常领先的成果。另外,我们还在编码压缩和视频处理结果的质量的评价上有所布局。在视频经过处理以后,我们需要进行判断,它和原始的视频有多大差异、多少失真?人们对于处理后视频主观的观感是更好了还是更坏了?我们和中科大的联合实验室一起,研究了一系列方法和工具来提供相关的评测标准,得出的结果和人类对于视频的判断非常接近,这种评判技术即便在国际上也是非常领先的。
另外,我们还针对面向未来的技术标准方面进行积极布局。当前有大量的视频不是给人类而是给机器看的,大概有70%的视频从来没有被人看过,在被机器处理完、打完标签就存储起来了,人们如果要引用它,实际是去看那些标签。而给机器看的视频和给人类看的视频在编码上是完全不一样的。目前已经有标准组织在做这方面的标准研究工作,包括国际上的VCM(Video Coding for Machine)和国内的DCM(Data Coding for Machine)。我们通过与中科大联合实验室的合作,深度参与了国际国内的标准制定工作。所以标准、前沿技术、质量评价方法是我们在联合实验室中最重要的几项工作。
Q:智能视频编码行业的产业链层次和产业发展成熟度如何?
A:说到产业链成熟度,要从几个不同的层次来看:首先,视频编码本身是国际标准,而且制定的周期非常长,每一代国际标准形成到进入应用的时间基本长达十年。去年H.266标准正式形成,但它的制定其实从十年之前就开始了,H.265标准差不多是十年之前发布的,直到今天才变成主流。可以这么说,基于国际国内标准的编码技术相对来讲是比较成熟的,它在制定的时候就有大量厂商参与,大家在应用的过程中不断地迭代完善,这个链条是相对完善的。但在迭代周期中,各厂商在实际应用过程中会对标准的实现做各自的定义、采用各自的方法。虽然有国际标准,但更多定义的是一个框架,在编码中更多定义的是解码这件事,定义的是语法,即做出来的东西是什么样的。关于怎么做则只定义了框架,框架内的每一个环节,各个厂商都有自己独特的方法和优势。
传统视频编码大多采用软件算法,另外可能在解码侧很多公司有一些芯片,在编码侧、摄像头侧也有不少公司有芯片,把全流程连接在一起的时候,大家都依托国际标准在做这件事情,技术和应用上相对来讲是比较成熟的。然而视频产业发展到今天,也遇到了一些机会或者说挑战,一是视频的流量、视频的数量的急剧上涨,二就是前面讲到人工智能技术的急速发展。
一方面带宽永远不够,我们今天看到各大视频网站、视频平台的运营成本中带宽成本占到75%。再比如随着短视频、直播的快速发展,它的成本都是急剧上升的,所以迫切地需要更先进的编码技术来节约带宽。另一方面,人工智能技术编码技术的升级提供了方案,但大家之前在制定标准的时候没有完全把它结合进去。所以我们现在提到的利用人工智能来做编码,以及用什么样的编码来为人工智能服务,相对来讲是不成熟的。从智能视频编码来看,目前各家有不同的解决方案,大家在算法上都已经有了一些积累,并在标准框架里内不断优化,但最终如何形成通用行业标准、如何把这些算法更高效执行,我认为是目前面临的两大挑战。尤其是后者,因为这些算法在利用了人工智能以后,对算力的要求急剧提升,新一代算法对比上一代算法在复杂度上对算力的需求要翻5倍甚至更多。这些算力要从哪里来呢?涌现对此的回答是,我们将用专用芯片来提供算力。
传统算法中大家都用CPU或者GPU这类通用算力来做编码,通用算力能提供的效果是线性的,每多加一倍CPU,能处理的视频量翻一倍,但目前视频数据量的增长以及压缩需求不是线性的增长的,而是一个指数曲线,用线性的方法提供算力赶不上它的发展速度,所以涌现给出的方案是用专用芯片来做编码。专用芯片从范式上就和传统通用算力模式不同,我们也看见采用专用硬件提供算力、或者说异构计算正在逐步被业界接受,我认为在下一代或者未来可见时间里将会逐步变成行业共识和标准。目前从0到1的阶段已经过去了,我们希望它能从1到100,进入一个成熟的阶段。
Q:涌现科技在行业中地位和竞争优势是什么?
A:一般来说我们做技术的公司不太好评价自己的地位,我就简单讲一些客观指标。我们从2018年开始做视频编码专用芯片,其中主要有几件事情:第一,我们需要优化算法,改进算法的效率,提升它在编码上的效果和效率;第二,也更重要是我们要把算法优化到一定程度,使它能够做成芯片。理论上讲,只要有一个算法,不管多么庞大都可以做成芯片,无非是电路的问题。但最后总会面临一些问题,比如这颗芯片成本划不划算?能耗划不划算?在制造上有没有可能造出来?这些就涉及到芯片设计的核心指标,叫做PPA(Power,Performance,Area,能耗、性能和面积)。理论上说所有算法都能芯片化,但面积可能会非常大,结果成本非常高,良率非常低。另外我们也可以通过跑很高频率来提升性能,但功耗会非常大,所以如何把算法做成芯片是需要综合考量的,最终芯片PPA要达到平衡。涌现的核心能力就体现在,第一我们的算法能力很强,第二我的芯片设计能力很强。我们能够优化自己的算法,使算法有非常好的表现,同时还能使算法适合做成芯片,在芯片上有比较好的PPA,带来一个相对平衡的解决方案。而且我们的过往经验已经获得了验证,涌现在2018年开始芯片研发,到2020年成功流片,2021年第一代产品成功上市。在2021年上市的时候,产品的几项指标,比如它的并发、单芯片能够处理的数据量、以及整颗芯片的功耗都是在全世界领先的。
Q:近年来信息技术应用创新产业建设已经成为国家战略的一部分,涌现科技在这方面做了哪些布局?信息技术应用创新产业发展对智能视频行业有哪些影响?
A:首先我觉得信息技术应用创新的核心叫做自主可控,涌现的核心的IP全部是自主的,整个公司的股权结构也全部是中资,所以涌现完全是一个自有知识产权的中国公司,包括我们的产品、技术都完全符合国家信息技术应用创新的标准。另外,涌现也是工信部下信息技术应用创新工作委员会的成员。涌现要做的,是扎根中国、基于中国技术的公司。但是,我觉得目前大家对自主可控或者对信息技术应用创新有一个误解,很多时候我们一旦说要做信息技术应用创新、做国产,潜台词是国外已经有产品了,我们做的是国产化替代或者平替,甚至一些人主观上觉得既然是替代,可能就是比别人差一点,我认为这是不对的,我们要做的核心是自主可控,即技术自主,整个环节可控。在这样的背景下,为什么我一定会比别人差?这是不对的。我们可以骄傲地、自豪地讲,涌现的产品是国际领先的,我们2021年推出的第一代产品在全世界范围内无论并发、视频质量、功耗都是国际领先的。所以我们要做全球领先的自主可控,一定要在全世界创新领先,这是我对信息技术应用创新的一点认识。
当然我们也不需要避讳,在一些更复杂的领域,比如CPU或GPU,我们的产品,国产CPU或GPU的性能指标会比Intel、英伟达这样的国际大牌厂商差一些。那么如果我们的CPU、GPU算力跟不上国际领先水平,其实可以采用另外的方法提供更高的算力,达到同样的处理效果,就是前面我讲到的异构计算。所谓异构计算,简单来说就是用专业的芯片来做专业的事情,协同融合为用户提供同等性能甚至更优性能的解决方案。在视频处理中可以这么理解,即由CPU居中调度,用GPU做渲染、人工智能计算,用涌现的VPU芯片则用来做视频编码、视频处理,让每一颗芯片做它最擅长的东西,最后呈现给终端用户一个融合解决方案,这类方案效果不见得比采用Intel CPU、英伟达GPU的方案差。从用户体验的角度来说,基于我们自主产品,用异构方案、专业芯片、专业软件来做专业的事情,我觉得是完全可以的。
Q:您认为智能视频处理行业的发展趋势和挑战是什么?目前涌现科技着手打造智能视频生态,请您给我们简单的做一下展望。
A:这里可能要说回我们遇到的一些挑战。从2021年产品出来以后,我们和市场上的很多厂商做了适配和沟通,在这个过程中,可以看出市场还是相对碎片化的,很多视频厂商以及友商都有很强的技术能力,大家在编码算法上、视频处理上做了很大的投入,建了很大的技术团队,积累了很多算法,这些算法一方面利用了人工智能的发展,另一方面因为利用人工智能的发展诞生了更大的算力需求。但目前各家都是自己做自己的,互相之间不完全兼容,如果要融合就会有比较大的困难。正是基于这样市场认知,涌现正在打造一个开放的智能视频编码平台,我们想要做的事情是把整个编码框架打开,为每一个模块都提供标准的算法,通过端到端的解决方案,为一些不那么希望自己开发的厂商提供标准的编码流程。同样,如果我们的客户和合作伙伴在单一算法上有更好的解决方案,平台则能够把方法集成进来,同时为它提供加速能力。比如一个基于神经网络的算法,我们会提供神经网络的加速单元,如果是2D的、平面的、旋转、矩阵类的算法,我们会提供矩阵加速单元。这样做的结果就是,涌现有一个标准编码框架,客户或合作伙伴可以根据他们自己的强项,在其中一个或者多个环节把自己的算法、领先的解决方案嵌入进来,同时利用涌现芯片给这些算法提供实时的、满足场景需要的加速能力。在整个框架搭起来之后,各家厂商都可以在上面开发、集成自己的算法,最终给客户提供效果更优的解决方案,这就是涌现希望建立的智能视频生态。这个生态最大的特点就是开放,客户可以用我的,也可以用别人的,只要能达到更好的效果。