本文来自微信公众号“CSDN”。
生成式AI引发了计算、开发、交互范式的全面升级,这既是业务创新增长的机会,但同时也让企业面临算力成本压力。在汽车行业,以端到端大模型量产上车、正在加速走向L4自动驾驶的小鹏汽车,既是领先的国产新能源车厂,也是创新科技公司。2024云栖大会上,小鹏汽车宣布车联网、官网、商城、大数据等核心业务已迁移至阿里云倚天实例,节省了超过20%的算力成本。
我们都知道阿里云倚天实例基于平头哥半导体自研Arm架构通用服务器芯片倚天710芯片,目前已经在阿里云数据中心大规模部署。小鹏汽车几年前就已经全面上云,并且在2022年与阿里云在乌兰察布建成中国最大的自动驾驶智算中心。现在小鹏汽车也将核心业务逐步迁移到倚天云服务器上,再次印证Arm架构在数据中心的优势,也是重要的技术风向。
CSDN专访了小鹏汽车副总经理谭蔚华,谭蔚华全面负责小鹏汽车运维、安全和研发工作,他分享了小鹏汽车从x86迁移到阿里云倚天实例的宝贵经验。
1.零故障平滑迁移,小鹏汽车计划全场景迁移至倚天
小鹏汽车是国产新能源车的领跑者之一,过去几年公司业务快速增长并走向全球,为应对业务快速增长的算力需求,小鹏汽车于2019年开始全面上云并采用容器化部署业务,为业务创新提供了技术保障。随着小鹏汽车体系化地应用AI技术,底层IT系统需要进一步随业务需求快速变化,同时保证极致的稳定和安全,并且合理节省成本,用技术控本提效。两年前,为进一步降低云上算力成本,小鹏汽车开始探索将核心业务的通用算力切换至阿里云倚天实例。
将业务从x86架构计算体系迁移至Arm架构计算体系是一项复杂的系统工程,为了实现平滑迁移,阿里云和平头哥技术团队为倚天实例定制了迁移工具和性能调优工具等,为小鹏汽车业务在倚天实例上快速适配提供了基础保障。
对于架构迁移的工作经验,谭蔚华认为首先要克服的是两套架构技术和运维知识的鸿沟,迁移中小鹏汽车技术团队做了大量性能检测工具,并且在重要的数据库系统迁移时做到多轮压测多轮check以确保系统稳定,最后团队对系统监控重构实现对CPU性能负载的监控管理。“我们为这个项目重构了整个监控报警系统。迁移过程中经常收到CPU占用率资源报警消息,按照以往x86的经验我们以为是CPU已经到达极限了。但是实际分析下来,由于倚天物理核的特性,实际上倚天仍然可以在高占用率情况下正常工作。”
谭蔚华表示:“尽管业务迁移需要涉及中间件重新编译等繁杂工作,但整个迁移过程实现了零故障平滑迁移。”目前,小鹏汽车车联网、官网、商城、大数据等业务已迁移至阿里云倚天实例,未来还将继续切换,最终实现全场景采用基于倚天的云产品和服务。
2.倚天ECS实例,核心场景性价比提升30%
更加灵活、低功耗的Arm架构已经受到全球顶级云厂商自研CPU青睐,不过从传统成熟的x86架构迁移过来,对于企业来说仍是一个重要的决策。谭蔚华思考后认为,小鹏汽车决定迁移到倚天芯片和服务的决策难度并不大,因为小鹏汽车定义在一家科技公司,始终要求技术创新,另外倚天成本优势明显。
和传统的x86架构芯片相比,采用ARMv9架构的倚天710芯片在处理能力与能源消耗之间实现了平衡,为云计算高效运行提供了有力支持,并在相同场景和算力的情况下,为小鹏节省了超过20%的成本。“随着规模的进一步提升,成本的优势会更加明显。”谭蔚华说。
倚天710芯片是国内首个云上规模应用的自研CPU,2024云栖大会上阿里云智能集团弹性计算、存储产品线负责人吴结生在演讲中分享了倚天ECS的最新进展。通过全栈优化,倚天ECS实例在数据库、大数据、视频编解码等核心场景中的性价比提升30%以上,单位算力功耗降低60%以上,目前已有数千家企业迁移至倚天实例。
除了兼顾性能和成本,转向阿里云倚天实例后,使小鹏汽车同时具备了x86和Arm两套架构系统运维能力,也让小鹏汽车技术团队拥有更灵活的技术自主性,对x86和Arm优势和先进技术功能,小鹏汽车都能够更快速上手应用。
未来,小鹏汽车将打造全球AI智能云,要实现AI加持、全球一体、端云联动、技术栈统一、全场景控本。谭蔚华表示,阿里云倚天实例的经验将复制到国际团队,实现多点研发。
除了通用算力全面向倚天ECS实例迁移,小鹏汽车与阿里云在智算平台、大模型等领域也在展开全面的合作。在AI引发的新一波科技变革中,双方强强联手深度合作,还将激发智能出行领域哪些创新和变化,CSDN将持续关注报道。