阿里云张献涛：云原生计算服务，加速互联网迈入智能时代

2023-04-21 08:39

云布道师

张献涛

以ChatGPT为代表的AI技术巨大跃升，将掀起一场新的工业革命，重塑甚至颠覆数字内容的生产方式和消费模式。对互联网企业来说，所有的发展方向在探索中，无一例外都会找寻技术上的助推；而新技术和新能力的投入，也会带给互联网企业更多的发展助力。

360截图16251112669372.png

在阿里云云峰会2023北京站《互娱&游戏创新与商业增长论坛》中，阿里云智能基础产品部副总裁、弹性计算&无影产品线总经理张献涛，发表了《云原生计算基础设施，加速互联网迈入智能时代》的主题演讲。

阿里云提供的全方位、立体化的弹性计算服务，可以为互联网企业提供弹性、高性能与成本三方兼顾的云原生基础设施，助力互联网企业快速迈入智能化时代。在阿里云云峰会2023北京站《互娱&游戏创新与商业增长论坛》中，阿里云智能基础产品部副总裁，弹性计算&无影产品线总经理张献涛，发表了《云原生计算基础设施，加速互联网迈入智能时代》的主题演讲。

以下内容根据张献涛的演讲整理而成。

360截图16251112669372.png

过去，我们经历了传统互联网和移动互联网，目前我们正处于视频互联网时期，互娱视频领域在过去几年也有着比较大的发展。随着AIGC等技术的出现，我们认为在未来，互联网将迈入以数据为中心的智能互联网时代。

360截图16251112669372.png

而智能互联网时代，将对基础设施提出更高的要求。

首先，海量的数据需要高效的算力基础设施进行处理，智能化推荐、大数据挖掘、数据处理效率都需要进一步提升，同时也需要更低延时、更高性能的计算基础设施赋能客户。

其次，“小步快跑，快速试错”是互联网行业一直以来的迭代策略，以便能够快速跟上消费者的需求变化，这需要弹性灵活的基础设施来应对业务需求中出现的波峰波谷，这就带来了第二个问题，如何高效管理基础设施。

最后，智能时代对基础设施提出了更高的要求、基础设施的投入也将持续增长，企业要如何兼顾灵活、敏捷与成本之间的平衡，持续提升基础设施的性价比，这也是一大挑战。

360截图16251112669372.png

阿里云弹性计算构建了面向互联网企业的云技术基础架构，可以完美地满足上述需求。

首先，在底层基础设施IaaS的部分，阿里云飞天操作系统+CIPU，调度着高性能的神龙计算、盘古存储、洛神网络等平台，云原生计算基础设施，极致性能帮助企业打造流畅稳定的用户体验。

针对IaaS的自服务部分，我们的AIACC加速套件，可以大幅提升大规模分布式训练和推理性能；我们的CloudOps工具，可以更简单的获得高效算力，支撑互联网企业的敏捷开发。在AI领域我们发布了AI基础设施加速套件AIACC，实现AI计算效率大幅提升，在推理、训练领域，可以实现比传统IDC高出30%-80%的性能。

在成本管理方面，我们的FinOps体系，通过多种计费模式与场景的组合，同样实现了灵活性与成本的最佳平衡。

在底层基础设施层面，阿里云持续进行技术创新，为客户提供流畅稳定的业务体验。

在今年三月，弹性计算第八代企业级实例全面商业化，基于CIPU+飞天的技术架构，全系标配eRDMA能力可以让数据获得更高的流转效率，同时新增了加密虚拟机TDX能力，结合云上安全计算能力和数据计算能力，打造了一个全栈式云原生安全计算服务。

除了性能和安全能力提升之外，网络及存储I/O也实现了大幅提升，存储层面适配NvME云盘存储接口，通过这样的接口可以实现超高性能ESSD支持共享块存储，使得传统软件上云时，可以获得更加极致的性能，同时又可以解决传统软件上云过程中遇到的技术难题。

eRDMA是阿里云最新推出的第八代实例标配的产品能力特性，是中国推出的首个云上大规模RDMA加速能力，能够大幅提升大规模分布式计算通信效率，并且能够随着阿里云的集群规模动态扩展，能够轻松构建中国最大的RDMA分布式计算网络，在大规模训练方面，通过eRDMA可以实现上千台机器同时进行训练。

在性能维度，Redis数据库、结合大数据加速套件MRACC的Spark大数据处理、AI训练场景、HPC应用也都分别有着100%、25%、30%、20%的提升。

在第八代企业级实例的算力维度，我们为用户提供了丰富的选择，从最新的英特尔第四代至强可扩展处理器、AMD最新的Genoa处理器，到阿里云自研的倚天710处理器，提供了不同架构与场景下的多种选择。

基于英特尔第四代至强可扩展处理器SPR的第八代企业级实例g8i，主要提供了场景化的超高性能，在通用算力提升的基础上，原生支持硬件加速能力，其中AI训练性能提升2倍以上，加解密、压缩/解压缩等场景下性能提升4倍以上，为客户提供场景化的超高性价比。

基于AMD的第八代企业级实例g8ae，算力强劲，单核算力相比上一代提升高达55%，可以满足用户的所有计算机密型业务对更高算力的需求，在实际的高性能计算场景中，相比提升100%。

基于AMD的另外一款第八代企业级实例g8a，性价比极高，面向所有通用类应用场景，总和性价比提升15%，在通用企业级应用场景下，性价比提升高达50%以上。

值得一提的是，基于倚天710处理器打造的g8y实例，编解码性能提升了80%，大数据性能也提升了70%。

倚天710是阿里巴巴第一颗为云而生的自研芯片，在CPU算力层面无超线程概念，用户可享受极致的物理核性能和缓存QoS能力，以充分应对复杂的业务负载变化，CPU利用率即使达到85%以上，也不会出现算力争抢的情况，所以非常适合大数据/数据库类型业务的发展。

不仅如此，业界主流的开源软件以及阿里云主流的PaaS产品均已支持倚天实例，用户无需担心业务适配的问题，零代码改造即可完成业务部署，就可以体验g8y带来的性能收益。

除了通用计算方面的能力，面向AIGC大模型的训练与推理方案我们也在构建，在支持GPT模型加上Stable Diffusion大模型训练和推理方面做了全栈优化。在算力资源维度我们有超级计算集群、CPU/GPU集群，存储层面有高性能的并行文件存储，网络层面通过弹性RDMA高速互联，在AI训练和推理方面有着非常优秀的表现。

资源管理层面也有FastGPU等高效部署工具，客户任务可以在阿里云平台上实现高效创建GPU集群，通过ACK容器模式可以形成非常好的弹性，cGPU的技术让GPU算力可以进行切分或池化，根据需要可以虚拟化，也可以进行分布式的大型训练的部署。

同时还支持语言大模型和视觉大模型，阿里云也发布了模型服务，模型服务和整栈软件可以进行无缝对接，在阿里云上使用PaaS和IaaS都可以获得比较好的技术支持。

阿里云从2017年布局异构计算，2022年重点构建了面向元宇宙XR的应用开发、部署、发布生态；支持合作伙伴演唱会、数字人等场景应用；当前以语言大模型服务为契机，提供面向模型服务的弹性基础设施，从底层到中间件的全系优化，用户可以获得开箱即用的效果。

阿里云ECS采用cGPU，支持对多种多卡GPU实现灵活分割，结合CPU VM/容器虚拟化，实现对异构计算灵活切割与调度能力。通过cGPU技术，容器技术等可以在算力切分和池化方面做到无缝效果。

虽然AIACC-Training更多是AI通信层面的优化，但结合eRDMA技术可以获得强于传统IDC，强于其他云基础设施的能力。

在目前火热的大模型和AIGC场景上同样提供进一步的优化能力，如在大规模语言模型分布式训练性能提升50%，在AIGC finetune训练性能提升40%，在大语言模型推理性能提升50%，在AIGC推理性能提升80%等，进一步提升客户AI业务的竞争力。

我们认为无影是阿里云算力的接入点，在今天无论是通用算力还是智能化算力，都可以通过无影端轻松获得阿里云计算、存储、网络、AI、大数据等整体能力，让智能化算力触手可及。

同时无影兼容大多数的智能显示终端，也让开发和使用体验进一步得到提升。而无影也更容易被各类软件集成，拓宽了应用的业务边界。我们也研发了笔记本，盒式终端，一体机等自有硬件供广大消费者选择。

为了让客户在使用云上资源时希望能够更好的管理和运维，过去几年弹性计算产品线一直在构建云上自动化运维体系CloudOps来提升企业的运维效率，旨为云上业务安全高效的持续运营提供全方位的支持。

在效率至上的互联网时代，CloudOps从成本、效率和稳定性三个维度，为企业带来了显著的效能提升，包括可以实现30%以上的成本优化、50%以上的人工效率提升，以及35%以上的故障恢复周期缩短，为业务稳定永续保驾护航。

在之前，大家购买资源更多是为了恒定的业务需求，所以大多使用的是包年包月，但实际云更多时候是需要按量付费的，如何确保整个资源做到合理利用，我们有丰富的计费方式，企业使用云的时候，可以随心所欲，实现成本的下降和资源弹性的双重平衡。

我们希望通过全方位、立体化的弹性计算服务能力，为互联网企业提供弹性、高性能与成本三方位兼顾的云原生基础设施，让企业更好地获得弹性高性能低成本的资源，助力互联网企业加速业务创新。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

精选文章

热点资讯

工信部：一季度规模以上工业增加值同比增长3%，增幅高于去年四季度0.3个百分点

阿里云张献涛：云原生计算服务，加速互联网迈入智能时代

2025 信息化观察网

长按扫描二维码阅读原文