纪念天津大学计算机专业
成立60周年系列活动
“北洋智算论坛”第十七讲
讲座时间
2018年12月20日(周三)
14:00
讲座地点
北洋园校区55A311
主讲人
翟季冬
讲座题目:
大规模高性能计算机上系统性能异常检测研究
讲座内容:
在当前的大规模高性能计算机中,性能异常行为变得越来越具有挑战性。即使在相同数量的计算节点上多次运行相同程序,程序执行时间也会具有显著的差异。性能异常不仅会导致程序性能不可预测,而且还会使理解程序的行为变得更加复杂。有效地在线检测性能异常是当前大规模高性能计算机一个重要问题。为了解决上述问题,我们提出一种轻量级在线性能异常检测方法。我们发现大量并行程序中大量包含以不变工作量重复执行的代码片段。基于这一观察,我们采用静态分析的技术自动识别这些固定工作量代码段,并将它们作为有效检测系统性能异常的检测器。我们在天河-2高性能计算机上用大量并行程序评价了我们的方法。结果表明,我们的系统可以有效地检测高性能计算机上的系统性能异常。其中,在16384个进程下系统的性能开销小于4%。
简介:
翟季冬,清华大学计算机系副教授,博士生导师。主要研究领域为高性能计算、性能评测、大规模并行程序性能分析和优化。2015-2016在斯坦福大学计算机系任访问助理教授。相关研究成果发表在高性能计算领域重要的国际会议和期刊SC、PPoPP、ICS、MICRO、ASPLOS、ATC、CGO、IEEE TPDS、IEEE TC等。其中SC14论文入选会议Best Paper Finalist,是大陆学者首次入围该奖项。担任NPC 2018程序委员会主席、ACM/IEEE SC 2018程序委员会委员、中国计算机学会高性能计算专业委员会委员。担任清华大学学生超算团队教练,指导的团队共八次获得世界冠军。在2015年和2018年分别包揽了SC、ISC、ASC三大国际超算竞赛的总冠军,两次实现了“大满贯”。其中,SC15冠军是大陆高校首次在该项赛事中获此殊荣。获教育部科技进步一等奖、中国电子学会科学技术一等奖、中国计算机学会优秀博士学位论文奖、国家自然科学基金优秀青年科学基金。