本文来自半导体行业观察,作者/李寿鹏。
随着汽车智能化程度的增加,对芯片的要求越来越高。
以所需的算力为例,地平线联合创始人&CTO黄畅博士早前在接受半导体行业观察等媒体采访的时候曾表示,如果我们想要汽车智能驾驶靠近L4或者L5级别,就要求芯片至少有1000TOPS的算力。
黄畅博士进一步指出,在进入包括自动驾驶在内的智能计算时代,我们需要的不仅仅是芯片本身的算力,而是需要硬件、软件和算法紧密结合。只有这样做,才能获得所需的最终真实算力,这也正是地平线自成立以来一直推崇的“AI计算的新摩尔定律”的完美体现。
通用计算捉襟见肘
在过去多年的发展里,芯片产业一直在追逐一个目标是PPA,那就是希望在芯片提供性能的同时,在功耗和面积上能做到更好的控制。在工艺制程发展的初级阶段,天才的工程师能够很好地兼顾这几点,但进入到最近几年,PPA带来的挑战空前严峻,这就让芯片公司有了新的思考。同样地,在一个芯片使用上,也有着类似的权衡。
众所周知,在智能驾驶市场,英伟达的Orin备受欢迎。按照黄畅博士所说,之所以会出现这种情况,一方面是因为英伟达为这个产品堆叠了足够强悍的性能。同时,英伟达的CUDA生态给开发者者带来了便利。
然而,天下并没有免费的午餐。当开发者们在享受英伟达所提供的这种高可编程性、高通用性的计算架构提供便利的同时,还要接受付出更多的功耗和芯片的成本,这是他要付出的代价。更重要的,汽车芯片算力需求背后,也正在发生的潜移默化,这也许会让通用算力的短板进一步放大。
黄畅表示,过去十年里,因为深度学习的发展,我们逐渐从基于知识、规则和经验的传统专家系统越迁移到机器学习(尤其是以深度学习为代表的大计算量、大数据量)AI系统构建中去,这就带来了不同的开发范式——这也就是地平线所倡导的“软件2.0”。“如果说‘软件1.0’是基于高级语言或者汇编语言,基于人的规则经验所构建的一套系统,那么软件2.0则是基于数据驱动的方式。而数据驱动的整个大背景是人类通过数学的方式,对问题进行建模。”黄畅解析说。
在黄畅看来,上述的转变,也正发生在汽车领域。
他指出,过去,我们仅仅依赖于一个毫米波雷达或者一个单目摄像头就完成了一个最基本的L1或者L2级别的辅助驾驶。但现在,我们已经进化到了多种传感器(包括高精度的雷达和高分辨率摄像头),这使得我们在端测捕获的数据量、数据类型大幅地丰富和提升;另外一方面,自动驾驶所能够覆盖的应用场景也不断拓展,场景变得越来越复杂;而随着高等级的自动驾驶落地,大规模并行运算的AI计算也形成了一个趋势,以神经网络为代表的机器学习,再加上我们前面提到更高阶、更丰富功能、覆盖更多场景、接入更多传感器的高等级辅助驾驶的方案持续不断落地,使得我们对计算需求在不断提高。
正是在这多点因素的推动下,黄畅认为自动驾驶也逐渐从传统的基于规则的计算的方式加速迁移到基于数据的方式。“总而言之,AI计算会逐步取代逻辑计算,成为车载计算的核心。”黄畅强调。他指出,自动驾驶的新技术范式要与之相匹配一个全新的计算架构,这个计算架构使得整个机器更加自主,使得开发更加简单,让计算更智能。
“如果我们说基于规则实现通用计算的典型是CPU,用逻辑驱动的方式进行编程,我们称之为智能计算的1.0时代。那么,通过端云数据不断的聚合,并且化繁为简的开发范式和算法,以及软硬结合的计算架构的不断迭代,我们会推演到智能计算架构的2.0时代,这是典型的数据驱动,尤其以深度学习、增强学习为代表的这种全新的计算架构的衍生。”黄畅说。
AI计算应运而生
基于上述的观察与思考,黄畅强调,新范式级别的架构革新将会和与它支撑的软件、硬件的计算架构相结合,从而加速实现机器的自编程和应用的自适应。这也就是所提到的智能计算架构2.0——让机器更自主、让开发更简单、让计算更智能。
同时,我们也必须看到,在硬件和软件方面,都有一些显而易见的趋势。首先,在硬件方面,我们会看到,未来的芯片将会形成一个统一的神经计算架构,去满足包括智能驾驶在内的自主机器人应用场景;来到软件方面,则越来越多的传统算法被AI算法和深度学习算法取代,这使得我们在图像处理比如ISP、视频的编解码Codec,甚至包括GPU的应用中越来越多可以用神经网络算法去替代。
在这些趋势驱动下,地平线有信心和决心将芯片上的绝大多数的计算、存储、面积、功耗用于神经网络的统一计算架构,其中只有不超过5%的芯片区域为专用指令,为特定领域的应用、算法去做服务。这使得地平线可以长期持续维护一个基于神经计算的一套非常好的软件架构之上的开发平台、开发范式。
这也是地平线从创建之初,就提出了“AI计算的新摩尔定律”的原因。如下图表示,黄畅表示,我们衡量一颗AI芯片的性能,不能简单地直接通过TOPS来衡量,而是需要综合考虑TOPS/Watt、TOPS/$和FPS/TOPS这三个因素。其中,TOPS/Watt和TOPS/$是一个传统的硬件架构和设计实现的指标,FPS/TOPS则是单位的有效算力所能够带来的算法的处理速度和效率。
换而言之,只有综合考量了软件、算法、硬件架构的设计,我们就可以持续推进端到端整体的计算架构计算效率持续往前演进。正是这样的一个理念,指导了地平线过去几年做芯片设计、软件平台、开发工具和编译器等方面的工作。搭载了第三代处理器架构贝叶斯的征程5芯片就是地平线这个产品思路的一个典型。据了解,征程5的计算核BPU是一个深度学习的专用引擎,具有高精度、高效率、低延迟的特点。而作为一个SOC,该芯片不仅仅有AI计算核,它还有整个端到端的全套硬件加速方案,包括ISP、DSP,还有其他专用的处理单元。
黄畅同时介绍说,这个全新的架构聚焦了最新的神经网络架构设计,能满足自动驾驶场景需求,它本身的近存计算体系、脉动张量阵列和大并发的数据桥,使得它有很好的计算密度和能效。值得一提的是,在芯片没有变,算法没有变,征程5的性能在过去一年时间里提升了20%,这主要得益于地平线在编译器、调度、软件架构上的演进,使得其可以有持续的提升动力。
黄畅同时强调,因为自动驾驶或者说智能汽车它对于安全性的要求特别高,当中包括功能的安全、预期功能安全、网络安全、车规级别的可靠性,而地平线在这方面是走得比较快且比较早的,且是国内首个获得功能安全流程认证的公司。“征程5也是国内第一个完成了完整的功能安全产品级认证的AI芯片产品。在预期功能安全、网络安全的行业最高标准规范方面,我们都是走在国内的最前面。”黄畅说。
受惠于这些软硬件的布局,地平线迄今已经跟20多家车企定点合作,并和70多个车型确定了前装定点合作,公司也实现了上百万的车规芯片出货,有超过100家生态合作伙伴,而且合作伙伴里有很多是软件开发者。
“现在英伟达Orin来势汹汹,但实际上大量的中端甚至高端车型的车载计算平台正在采用征程5。因为我们想用更低的成本、更低的功耗去交付一个相同甚至更好的自动驾驶芯片解决方案。”黄畅告诉记者。