高性能计算(high-performance computing,HPC)用于处理海量数据,可实时或接近实时地解决当今最复杂的计算问题。 HPC的最大特征是使用大量并行工作的强大处理器集群,来处理海量多维数据集(大数据),并以极高的速度解决复杂问题。HPC系统的运行速度通常比最快的商用台式机、笔记本电脑或服务器系统快100多万倍。 几十年来,HPC系统范式一直是超级计算机,这是一种专门构建的计算机,包含数百万个处理器或处理器内核。超级计算机仍然和我们在一起;目前最快的超级计算机是美国的Frontier,处理速度为1.102 exaflops,即每秒千万亿次浮点运算(flops)。但是今天,越来越多的组织在本地或云中托管的高速计算机服务器集群上运行HPC解决方案。 HPC工作负载揭示了重要的新见解,这些见解可以增进人类知识并创造显著的竞争优势。例如,HPC用于对DNA进行测序,实现股票交易自动化,运行人工智能(AI)算法和模拟,如那些实现自动驾驶汽车的算法,实时分析来自物联网传感器、雷达和GPS系统的万亿字节数据流,以做出瞬间决策。 HPC是如何工作的? 标准计算系统主要使用串行计算来解决问题——它将工作负载划分为一系列任务,然后在同一处理器上一个接一个地执行任务。 相比之下,HPC利用大规模并行计算。并行计算在多个计算机服务器或处理器上同时运行多个任务。大规模并行计算是使用数万到数百万个处理器或处理器核心的并行计算。 (1)计算机集群(也称为HPC集群): HPC集群由多个联网的高速计算机服务器组成,带有一个管理并行计算工作负载的集中式调度程序。被称为节点的计算机使用高性能多核CPU,或者今天更有可能使用GPU(图形处理单元),非常适合进行严格的数学计算、机器学习模型和图形密集型任务。一个HPC群集可以包含100,000个或更多节点。 (2)高性能组件: HPC群集中的所有其他计算资源(网络、内存、存储和文件系统)都是高速、高吞吐量和低延迟的组件,可以与节点保持同步,并优化群集的计算能力和性能。 高性能计算和云计算 就在十年前,由于高性能计算的高成本(包括拥有或租赁一台超级计算机,或者在内部数据中心构建和托管一个高性能计算集群),大多数组织都无法实现高性能计算。 如今,云中的HPC(有时称为HPC即服务,或HPCaaS)为公司利用HPC提供了一种速度更快、可扩展性更强、更经济实惠的方式。HPCaaS通常包括对托管在云服务提供商数据中心的HPC集群和基础架构的访问,以及生态系统功能(如人工智能和数据分析)和HPC专业知识。如今,云计算中的HPC受到三种趋势的推动: (1)需求激增。各行各业的组织越来越依赖于实时洞察和竞争优势,这些优势来自于解决只有HPC应用才能解决的复杂问题。例如,信用卡欺诈检测——事实上我们所有人都依赖它,而且我们大多数人都曾经经历过——越来越依赖HPC来更快地识别欺诈并减少恼人的误报,即使欺诈活动在扩大,欺诈者的策略也在不断变化。 (2)低延迟、高吞吐量RDMA网络的普及。RDMA(远程直接内存访问)使一台联网的计算机能够访问另一台联网计算机的内存,而不涉及任何一台计算机的操作系统或中断任何一台计算机的处理。这有助于最小化延迟和最大化吞吐量。新兴的高性能RDMA结构,包括Infiniband、虚拟接口架构和融合以太网RDMA(RoCE)从本质上使基于云的高性能计算成为可能。 (3)广泛的公共云和私有云HPCaaS可用性。如今,每个领先的公共云服务提供商都提供HPC服务。虽然一些组织继续在内部运行高度管控或敏感的HPC工作负载,但许多组织正在采用或迁移到由硬件和解决方案供应商提供的私有云HPC解决方案。 HPC使用案例 HPC应用已经成为人工智能应用的代名词,特别是机器学习和深度学习应用。如今,大多数HPC系统都考虑到了这些工作负载,这些HPC应用正在推动以下领域的持续创新。 医疗保健、基因组学和生命科学。人类基因组测序的第一次尝试花了13年时间,如今的HPC系统可以在不到一天的时间内完成这项工作。医疗保健和生命科学中的其他HPC应用包括药物发现和设计、快速癌症诊断和分子建模。 金融服务。除了自动交易和欺诈检测(如上所述),HPC还支持蒙特卡罗模拟(Monte Carlo simulation)和其他风险分析方法中的应用。 政府和国防。该领域中两个日益增长的HPC使用案例是天气预测和气候建模,这两个案例都涉及处理大量的历史气象数据和数百万与气候相关的数据点的每日变化。其他政府和国防应用包括能源研究和情报工作。 能源。在一些与政府和国防重叠的情况下,与能源相关的HPC应用包括地震数据处理、油藏模拟和建模、地理空间分析、风模拟和地形测绘。(Donna Zhang,张底剪报)
|