2021-2022第二学期 “互联”学术沙龙第一期——High Performance Computing

2022-03-28

 题:High Performance Computing

   间:323日(周三)1500-16:30

主讲人:魏贵义教授

 点:信电楼512

记录人:李亚化

 容:

  高性能计算(High Performance Computing, 缩写HPC) 指通常使用很多处理器(作为单个机器的一部分)或者某一集群中组织的几台计算机(作为单个计算资源操作)的计算系统和环境。有许多类型的HPC 系统,其范围从标准计算机的大型集群,到高度专用的硬件。“Supercomputer”一词最早出现于 1929年,《纽约世界报》一则关于 IBM 为哥伦比亚大学建造大型报表机(tabulator)的报道中首次使用了它。具有非常高的运算速度,有非常快而容量又非常大的主存储器和辅助存储器,并充分使用并行结构软件的计算机。能够执行一般个人电脑无法处理的大量资料与高速运算的计算机,规格与性能比个人计算机强大许多。现有的超级计算机运算速度大都可以达到每秒一兆(万亿)次以上。超级计算机又称高性能计算机、巨型计算机等,在计算速度、存储容量等方面有着普通计算机所不具备的超高性能。

  魏贵义教授从最初的计算机诞生到如今超算的强大能力,介绍了计算机的发展历程然后又结合具体事例对高性能计算作了进一步阐释。魏贵义教授首先提出超算(高性能计算)是如何工作的,能解决什么问题。魏贵义教授指出现有的超算如神威太湖之光,天河二号也是由若干个单体计算机组成,每个计算机可以是32位,64位甚至是128位处理器,当前国产超算正朝着全面国产化前进,但是操作系统与内核国产化有一个问题,就是拿给公司用的时候别人要把数据拿过来,计算机的参数是保密内容,这就造成了很多公司为了不泄露自己的源码而不愿意用的情况,因为国产处理器还需进行优化。

  接着魏贵义教授又提到了并行计算算法发优化的问题,基于并行计算的高性能系统需要保持计算和通信性能的平衡性,其中,集合通信是通信系统的重要组成部分,负责进程之间的数据操作和同步操作。当并行应用的规模越来越大时,所使用的处理器的规模也越来越大,集合通信组内部进程之间的通信量相应增大,且需要相互协作完成通信语义,因此集合通信往往成为系统的性能瓶颈,需要优化集合通信以提高整体系统性能。对集合通信算法的优化,分为节点内和节点间两部分。在节点内,结合共享内存技术和 CPU 内部的拓扑感知,华为对 MPI_bcast 进行了优化。

   最后讲了未来发展方向,高性能计算机的主流体系结构收缩成了三种,即SMCC-NUMACluster。在产品上,只有两类产品具有竞争力:一是高性能共享存储系统;二是工业标准机群,包括以IA架构标准服务器为节点的PC机群和以RISC SMP标准服务器为节点的RISC机群。当前,对高性能计算机产业影响最大的就是“工业标准机群”了,这也反映了标准化在信息产业中的巨大杀伤力。工业标准机群采用量产的标准化部件构成高性能计算机系统,极大地提高了性能价格比,从科学计算开始逐渐应用到各个领域。

  最后老师热情的回答了与会同学提出的有关于强化学习的问题,并向我们介绍了他近期的一些学术工作。


参加人:研一研二部分学生