本文来自微信公众号“开源云中文社区(ID:openstackcn)”。
随着政府和私营部门越来越多地追求数字和云转型战略,这些组织和机构内部的工程和研发也在向云转移。
工程和研发部门发现,他们创新和创造新产品的能力受到传统高性能计算(HPC)实践的严重影响,这种转变正在加速。随着HPC成为工程和研发的动力,对HPC资源的需求持续上升。仅仅将工作负载从内部转移到云端是不够的。
这里牵涉到很多钱,所以正确处理非常重要。根据Grand View Research的数最大且增长最快。数字化转型工程和研发需要对HPC实践进行根本性的重新概念化。重点需要从优化HPC硬件转移到优化研发吞吐量。
HPC作为一个增长和创新引擎,随着工作负载移动到云,工程需要文化上的改变——与过去十年软件开发的转变相一致,从瀑布过程到敏捷编程,持续集成和持续交付。HPC的新功能和实践也需要文化调整。
以下是推动HPC走向云端的一些主要挑战:
1.供应链问题继续影响HPC供应商履行客户订单的能力。
长时间的延迟可能会持续很长一段时间。因此,IT无法升级内部HPC基础设施以满足不断增长的工程需求或任何特殊计算需求。这导致工程师的等待时间延长,以及项目延误。
2.企业对HPC资源的需求正在加快。
随着计算科学和工程方法被广泛采用,HPC的需求也在增加。此外,使用模拟的组织正在加载新的工作负载,并采用其他技术,如多物理和代理ML模型,进一步推高了对HPC资源的需求。
3.HPC的人才短缺正在影响HPC供应商和客户。
许多企业发现,他们没有足够的专业知识来实施新技术,从而放慢了IT现代化的步伐。与此同时,供应商也没有更好地提供帮助。
4.组织中分析孤岛的扩散。
由于传统的HPC方法采用紧耦合的系统,研发团队创建了专注于他们需求的特定于工作负载的技术堆栈,这些技术堆栈通常彼此断开。结果是产品创新速度变慢,研发团队之间的合作减少。
5.支持日益分散的劳动力。
组织已经发现,在疫情后的世界里,远程工作是可行的。对于工程和研发,需要提供随时随地的访问和更好的协作能力,以提供灵活性并吸引更多人才。
为什么改变HPC实践在云中很重要?
今天的HPC实践看起来很像20年前的软件开发。公司采用瀑布式开发模型,使用单体和专有技术栈。云启动了开源工具的爆炸式发展,带来了社交编码、微服务和持续集成与交付。其结果是增强了开发人员的能力,并大大加速了新软件服务的创新。Twitter、Airbnb和Uber等服务的成功都归功于这种云转型。
HPC堆栈的云转型来得较晚,因为其复杂性、专业的计算硬件架构和商业打包软件的主导地位。如今,每一种专门的架构都可以在云中使用,模拟软件提供商也在采用云业务模型。
然而,仅仅在云端拥有硬件和软件是不够的。云转型要求我们不只是“lift&shift”,而是从“为云构建的方法”开始。
行业分析师的研究一致显示,随着云HPC的采用速度加快,对HPC的需求不断增加。推动云HPC的关键因素包括深度学习、机器学习和人工智能方面的新工作负载,以及对更灵活架构的需求,以便组织可以更轻松地在最高效的架构上运行新工作负载。
应对这些挑战意味着改变我们在HPC方面的做法——改变HPC的传统宗旨,并将注意力集中在我们试图实现的结果上(事实上,这就是我们在重新调整规模时所做的工作)。
以下是迎接为云计算构建HPC新时代的五个关键策略(与在云中运行HPC相比)。参与HPC竞争的组织需要从以下方面开始转变:
1.从以硬件为中心到以用户为中心。与软件开发人员一样,科学家和工程师越来越成为任何行业中最昂贵的产品。解决易用性问题,以优化研究人员的工作效率。
2.从不灵活到无限。如果没有工具和部署模型的广泛可选,在任何HPC垂直领域保持竞争力变得越来越不可能。
3.连接孤岛。团队合作将成为任何HPC市场的赌注。统一分析孤岛,实现多团队协作和最佳实践共享。
4.从静态到智能。组织将需要在现实世界的成本-性能权衡中做出更明智、更快的决策。云提供了无限的选择。
5.手动到自动。实施基于政策的控制是2000年全球组织的一项要求。将其自动化。确保安全性和合规性,同时赋予工程师权力。
原文链接:
https://thenewstack.io/hpc-needs-to-be-built-for-the-cloud-not-just-run-on-the-cloud/