涌现科技:打通“算法-芯片-应用场景” 赋能千行百业

信息化和软件服务网
山珉
当前,在线视频已经超过社交成为占据全网用户使用时长的第一大应用领域。新冠疫情出现后,在线会议、在线教育、网络直播等需求大大增加,而在细分视频领域,视频直播的用户规模大大超过了其他视频点播的娱乐平台。

想必大家时常会有这样的生活体验:刷着刷着短视频,突然就卡顿了,一看手机信号却是满格;正开着视频会议呢,突然就看到屏幕开始马赛克转圈圈;一张残破不堪的老照片却能通过手机APP快速复原;直播中的美颜滤镜可以快速实现人们“返老还童”“青春永驻”的梦想,这背后暗藏着怎样的硬科技呢?

当前,在线视频已经超过社交成为占据全网用户使用时长的第一大应用领域。新冠疫情出现后,在线会议、在线教育、网络直播等需求大大增加,而在细分视频领域,视频直播的用户规模大大超过了其他视频点播的娱乐平台。海量视频流在5G加持下正呈现出多元化井喷的趋势,预计到2026年,全球实时视频流总市值将达到940亿美元。

带宽永远不足,视频压缩是基础的底层技术

在如此巨大的视频流量或者说视频需求冲击下,既有的带宽明显感觉力不从心。一张4K图像的原始大小为24.3MB,而传输一个4K 60帧/秒未经压缩的数据,它的带宽需求差不多是14Gbps,而5G的理论带宽却只有1Gbps。因而在当前的传输环境下,对视频数据的压缩是网络传输视频数据时的基本需求。

1(1)(1).jfif.jpg

针对于此,苏州涌现智能科技有限公司(下称“涌现科技”)联合首席执行官范灝成举了一个特别生动的例子:“对于视频数据传输而言,5G之于4G、3G的提升和容纳,就相当于在原有车道上进行6车道甚至8车道的马路拓宽,但是原始视频数据的车辆却是几倍甚至几十倍的增加。如果视频不做有效的压缩,即使是5G信道,也无法满足迅速增长的视频传输需求。”

高分辨率、多路同步需要更快的视频处理能力

从480P到720P,从1080P到4K,从4K再到8K,人们对视频质量的要求越来越高;不仅如此,在8K之外已出现了裸眼3D视频,这就需要视频具备8K甚至16K等更高的分辨率;加之元宇宙浪潮的袭来,将需要超高分辨率来覆盖超广的场景,同时也带来了多路同步传输的要求。

面对更多路数、更高分辨率的视频,如何才能满足这些传输的需要呢?范灝成告诉记者,“当前,视频对于编码的要求不仅仅是一个基本需求,而且对于编码本身的压缩能力也提出了一个更高的要求”。换言之,为了满足海量高分辨率视频传输的需求,就需要更加有效、高快速的视频编解码能力,也就是更好更快的视频压缩。

传统视频编码框架以服务人眼为主

视频更加智能化,正在赋能千行百业。从当前视频市场来看,视频跟AI的应用在充分的结合,这种结合生发出两个重要的方向,第一个方向是两者的结合带给人们更丰富的观看体验,比如在一些高速运动的场景下,通过AI的方法可以提升视频动态追踪的能力,此外包括一些视频直播或者短视频的美颜功能,一些老照片的修复等。另外一个方向是提供了更智能化的任务,比如智慧城市、智慧教育、智慧医疗、智慧交通等等,AI和视频的结合,正为人们提供更多的行业应用。

1(1)(1).jfif.jpg

传统视频编码框架以服务人眼为主。范灝成告诉记者,传统的视频编码更多的是基于香农的信息理论(香农的理论其实就是利用时间和空间上的冗余信息来找到可以被压缩、可以被简化的部分),更多的是适应人眼对视频的感知。传统的以人眼为目标的视频,经历了分辨率和帧率的提升,甚至视场从窄视场到宽视场的提升,主要为人类的眼睛看的更清楚、更流畅或者看的更美。而视频和AI结合之后,视频本身发生了一个变化,AI的视频更多的是给机器看,是给机器学习看的。这些给机器看的视频需要的是真实性,它要能够真实还原场景,它需要看的更加准确。

视频+AI,呼唤新的视频处理技术

据预测,在未来给机器看的视频会占据超过80%的视频的流量,也就是说,将来,面向机器视觉视频逐渐会超过人眼视觉而占据主导。这就带来了一个新的思考,未来的视频编码到底应该怎么去定义它的标准呢?比较传统视频和服务于机器编码的视频,传统视频主要是依赖于人眼,但人眼本身具有很多局限性,比如说分辨的精度或者是移动的速度,包括好与坏或者美与丑的判断,而基于机器学习去观看视频时,第一它的精度高,远超人眼识别分辨率的能力;第二它的感光范围很广,它不仅仅看到可见光,还能看见不可见光,也就是人眼看不见的东西;第三它关注的是图像本身判别的准确性,也就是要求对新的编码要能够合理的把图像当中特别是对机器识别有效的信息提取出来,并且传输给后面的处理单元做合理的分析和检算。

视频编码技术的进步需要更大的视频处理算力

国际上制定视频编解码标准的组织主要是ITU-T和ISO/IEC。ITU-T主要制定如H.261、H.262、H.263、H.264标准,面向实时视频通信应用;ISO/IEC主要制定MPEG系列标准,主要面向流媒体应用。同时两个组织ITU&MPEG通过进一步合作输出H.262/MPEG-2、H.264/AVC、H.265/HEVC、H.266/VCC等标准。国内制定视频编解码标准的组织主要是AVS和SVAC。互联网领域本身存在巨量的视频分享需求,而HEVC等标准又面临昂贵的使用费,因此国际互联网各大企业联合成立开源媒体联盟,推出了新的视频编解码标准,如VP9/AV1。

现在国际上主流的编码格式,基本上每过十年会有一代编解码格式的进步以进一步提升视频压缩性能。每一代的编解码进步平均会带来约50%的带宽节约,但与此同时随着每一代视频编解码标准的进步,算法对算力的要求也随之变大。以HEVC和H.264为例,HEVC对编码处理能力的要求是H.264的3~4倍,同时带宽可以节约接近50%;而HEVC到VCC视频处理的算力又需要数倍的增加。

建立基础算力平台打通“算法-芯片-应用场景”

AI的场景渗透、视频智能化应用,正在呼唤新的视频处理技术,但是路径在哪里呢?目前在机器视觉编码领域,国外面向机器的视频编码叫VCM(Video Coding for Machines),而国内面向机器智能的数据编码叫DCM(Data Coding for Machines),这两者殊途同归,都是结构性融合人眼视觉与视频的全新的视频编码方式,而且这种融合智能视频技术拥有更广阔的应用领域。范灝成指出,虽然找到了技术路径,但分辨率及帧率的提升、编码格式的进步、AI算法的融合、VCM/DCM的逐步导入等多要素正推升视频算力需求呈指数级激增,而当前的CPU/GPU算力提升属于线性增长相对缓慢。

1(1)(1).jfif.jpg

那么问题如何解决呢?范灝成和团队在长期的研究中萌发出一个思路。他指出,“视频是有一个标准格式的,是可以用ASIC或者硬编码、硬解码的方式来解决实际应用场景中的计算效率”。随着算力的高度提升、需求的提升,以及两者之间缺口的增加,视频正处在从传统的GPU、CPU的通用算力平台解决方案,向一个基于ASIC硬编码、硬解码的算力平台加速转换的过程当中。

范灝成向记者表示,“随着编码标准的进步和算力需求的提升,我们对专用于视频编解码加速的硬芯片ASIC的需求越来越多,侧重在硬件的加速平台,涌现科技融合算法和芯片设计,将视频编解码算法芯片化,开发出具有自主知识产权、高性能、低功耗视频编解码加速芯片,可以支持多路、高并发、高密度的编解码同时处理运算,同时也支持各种编码格式和解码格式,可以做很多灵活的设置,在关键自主上面我们也和国产的各种CPU,包括鲲鹏、龙芯做了对接,并与国产信创领域的很多应用都能做到无缝的对接,打通了“算法-芯片-应用场景”。

从AI for Coding到Coding for AI

目前,由涌现科技自主研发的基于ASIC技术的视频转码硬件加速芯片的第一代产品,已经进入了量产。时下,公司正在研发的第二代产品,预计算力可以提升到8K 90帧的实时编解码性能,同时也增加了更多的行业应用需求,增强了低延时、更高的解像度以及更多的色域编码能力。未来,涌现科技第三代的产品将全面转向专用视频AI芯片,重新定义深度学习在视频行业应用中的机器识别能力,建立全新的编码底层逻辑及AI学习能力。

2345截图20220818151609.png

涌现科技研发视频编码转码处理器

“与以往的CPU、GPU为主的软编软解的方案相比,它最大的优点在于低成本和高性能兼顾,同时它的功耗更低,这为未来的高并发、高密度的视频处理和视频处理专用的服务器提供了一个坚实的硬件基础。”

范灝成介绍,涌现科技现在正在做的是AI for coding,也就是把现在的技术和AI视频结合起来,为视频提供更加智能和完善的视频编解码方案。而在未来,涌现科技将会逐步走向coding for AI,将视频编解码的能力和视频对场景的预分析能力,与GPU、RPP运算能力结合起来,让编码更好的服务AI,释放AI能力,为世界提供更好的AI智慧解决方案。

“有了这个解决方案,我们会看到人眼视觉与机器视觉的结合,包括基于AI和视频编码技术整条算法链上或者是解决方案链上的完整解决方案,包括相应的算法、芯片,都是必不可少的,涌现科技作为这方面的探索者,我们会继续努力,为大家提供更强大的硬件解决方案平台。”范灝成坦言。

据了解,涌现科技是一家具有国产完全自主技术的新一代智能视频专用芯片及配套解决方案的科技企业,业务聚焦于基于人工智能的人眼视觉与机器视觉融合编解码技术,将人工智能与视频编解码算法深度融合,通过平衡算法和芯片设计优化,为行业提供高性能、低功耗、低成本的专用芯片、模组、软件工具及针对特定场景的全栈应用解决方案。

立足于创始团队强大的产业资源、技术实力和芯片量产经验,涌现科技拥有业界领先的芯片全流程设计能力及67项自主知识产权,在业界首先提出建立“人眼视觉/机器视觉融合编码“的基础算力平台,赋能全面数字化。公司的第一代视频编解码芯片已经在14nm制程节点上量产,广泛应用于互联网视频平台、云桌面/云手机/云游戏、广电超高清、智慧城市等领域的数据中心和边缘计算节点。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论