我们的技术圈 ,关注商业科技,国内创新技术交流与转化的平台
×

  会员登录

现在注册

第三方登录
                         
悦智网 > 成果展示 > 成果报道 >
超级望远镜的数据革命
航空航天
2018-01-11 12:40
作者  安涛

大数据的浪潮不仅席卷了地面,还将全世界最大规模的超级射电望远镜SKA推到了这场革命的最前沿。

再过不久,人类史上最大的天文实验装置——平方公里阵列(SKA)望远镜即将启动建设,并在建成后开始探索茫茫太空,帮助人类解答宇宙最基本的问题。SKA望远镜的上百万个低频对数周期天线将分布在澳大利亚西部沙漠,而其约2500个高频碟形天线将在南非及南部非洲8个国家落脚。凭借其超高灵敏度、超大视场和超高分辨率,天文学家能够利用它观察整个天空,并监测天空中从未有过的细节。科学家因此认为,人类已开始进入绘制宇宙地图的新时代。

但这样的能力也意味着,SKA望远镜建成后将产生前所未有的巨大数据量,每秒钟就能产生高达太字节(1012字节)量级的数据。据估计,第一阶段的SKA望远镜(首批建成10%)产生的海量数据需要至少300Pflops(1P=1015)的运算能力,而目前世界上最快的超级计算机“神威.太湖之光”的处理能力约为90Pflops。考虑到计算效率和软件执行效率(目前射电天文数据处理软件在超算平台上的执行效率普遍低于10%),实际需求将大大超出这个理论估算。

顺利完成海量数据的处理和存储是SKA正常运行的前提,但SKA庞大的科学数据量已经远远超出了两个台址国数据处理中心的承受能力。根据SKA国际组织的规划,除了台址国建设用于数据预处理的超级计算机(SDP)以外,主要成员国将建造各自的区域数据中心执行科学数据深度分析和数据产品长期存储的任务。中国是SKA的发起国之一和重要成员国,为此,上海天文台在中国科学院的支持下,提出建设中国SKA数据中心的倡议,同时与国际团队合作推进SKA亚太区域数据中心的建设。图1显示了SKA的数据处理流程。首先,SKA的原始数据在台址国的科学数据处理器完成预处理,预处理后的数据经过高速互联网传输到区域数据中心,然后根据具体科学目标选取对应的数据处理流程进行深度分析,并负责将科学数据产品长期存储起来。科学用户可以远程登录区域数据中心的计算平台进行数据分析,形成科学成果,也可以直接使用存档的科学数据。以上海天文台为代表的SKA科研团队正致力于研发SKA数据中心的原理样机,取得了令国际同行瞩目的成果。

超级望远镜的数据革命-01.jpg

为了确保设计的合理性,SKA科学数据处理的计算平台架构必须满足4个要求:可拓展性、经济成本可承受、稳定性和对先进算法的灵活适应性。而传统的高性能计算(HPC)平台架构提高运算速度的思路是移动数据靠近计算,先把大量数据搬运到CPU或者GPU缓存,实现一次性爆发式高度并行处理,从而达到提高运算能力的目的,因此适合运算程式相对固定的高度并行化的应用场景,却无法同时满足上述4点要求。

比如,我们在通用型HPC的计算节点上部署SKA软件,发现其数据存储节点与计算节点之间是通过共享文件系统联接的,当处理大量数据和文件时,过多的数据交换就造成了通信堵塞和计算性能显著下降,乃至系统崩溃。更关键的是,SKA处理任务与传统HPC固定的、高度并行化的应用场景有很大不同。SKA的很多科学应用是采用实时流水线数据处理方式,不仅对运算能力要求高,对系统的稳定性要求也高。

我们必须在基本思路上进行创新,由此提出了新型数据岛架构的SKA科学计算原理样机方案,大量的测试试验表明,这样的架构才是数据密集型科学计算的最优设计方案。

该架构的主要思想是将整个数据中心分成若干个小区域或多个子数据中心,我们称之为数据岛(data island)。每个数据岛内部配备有共享文件系统(区别于传统HPC的全局共享文件系统)和独立的任务调度系统,每个岛由若干(几十到几百个)计算节点组成,岛之间可以互相独立地执行数据处理任务,也可以根据需求灵活地重组资源。数据岛内的每个计算节点配置较大的本地存储空间,能够把数据存储在缓存以及本地存储中,从而大大地减轻网络通信压力,满足SKA串行软件对每个计算节点独立运算和数据传输能力的高要求。这种数据岛架构还有一个优势是,当某一个岛的文件系统出现问题时,不会影响到其他岛的工作,满足了SKA多任务并行处理的要求。

图2展示了新型数据岛架构的SKA数据中心试验样机。首批配置的数据岛由4个计算节点组成。每个计算节点均采用英特尔最新Xeon phi KNL/KNM多核处理器;每个计算节点拥有64/72核,拥有最高384吉字节内存,16太字节固态硬盘支持本地快速数据交换和数据处理(注:传统HPC只有很少的本地存储),计算节点之间的通信带宽为100吉比特/秒(等同于Infiniband的速率)。单个太字节大小的数据文件被读入后,可以很方便快捷地在岛内进行处理,基本实现了“数据不落地”的操作思想,从而避免了计算节点与独立外置存储节点之间的大量数据交换,不仅大幅度降低了能耗,而且省去了3套网络设备,节省了约1/3~1/2的成本。

超级望远镜的数据革命-02.jpg

可以看出,单个数据岛的运算能力、网络联通速度、本地缓存容量已足以独立完成一定规模的数据处理任务,对于复杂的、数据量更大的处理需求,按照这个架构灵活地扩充数据岛的节点数即可。下一步工作的重点是研究数据岛的组合和优化配置,一旦此扩展性试验顺利完成,即可建成一个SKA区域数据中心切实可行的原型系统。

那么,SKA望远镜每年高达约300皮字节的科学数据产品该如何管理呢?要知道,即使是当前射电天文领域最先进的数据分析软件系统,所能处理的数据量跟SKA第一阶段产生的数据相比也低了两三个数量级,远远不能满足SKA全面运行的数据处理需求,因此需要开发新一代数据流管理系统。

西澳大学牵头研发了一款名为DALiuGE的数据流管理系统,全称为Data Activated Flow(Liu流) Graph Engine,指数据激活的流处理引擎。DALiuGE的设计目的是为SKA提供一个高效的分布式数据管理平台和具有良好拓展性的管线系统执行环境,以低功耗来支持连续的数据密集型科学计算,完成SKA的实时数据处理任务,也为区域数据中心提供科学数据产品。

2016年6月至7月,上海天文台牵头国际合作团队在“天河二号”超级计算平台上成功部署了DALiuGE系统,并完成了最高达到1000计算节点的大规模验证性试验,检验了该软件系统的稳定性和可扩展性。这是SKA核心软件首次完成如此大规模的集成测试。

在此基础上,陆续成功完成了多数据岛、多GPU节点等拓展试验。如今,正在将SKA成像流水线系统集成到DALiuGE,为DALiuGE积累和增强实战经验,使其能更加有效、灵活地操控SKA数据处理系统,并确保在大规模计算节点上稳定运行,不断增强其实用性和对不同计算环境的适应力。

现实中面临的另外一个问题是,计算系统、网络系统和存储系统并非是均衡发展的。以数据密集型为特点的SKA科学数据处理遇到的一个严重瓶颈来自“IO墙”,即I/O吞吐率的限制。

为此,上海天文台和西澳大学、美国橡树岭国家实验室合作开展了SKA数据大规模并行存储底层I/O并行技术,自主开发了Adios数据存储管理系统(AdiosStMan)。与已有的主流射电天文软件系统相比,AdiosStMan在数据底层采用了全新的I/O并行机制以实现高吞吐率的海量数据存取,从而有效降低了开发SKA科学数据处理器原型过程中遇到的I/O瓶颈,大幅度提高了数据的读写速度。在上海天文台机群的测试中,最大的I/O吞吐率为7.4吉字节/秒,而理论峰值为8.5吉字节/秒,I/O利用率高达94%。

根据目前的计划,上海天文台将于2017至2018年间完成SKA数据中心原型系统的研制工作,并应用于处理国内外SKA先导项目所产生的数据。同时,筹建SKA区域数据中心的工作正在紧锣密鼓地进行中。可以看到,这场针对SKA望远镜的数据革命才刚刚开始,但可以肯定的是,SKA望远镜终将拥有抵御数据浪潮侵袭的能力,将人类的视线拓展到宇宙深处。

致谢:感谢中国科学技术部政府间国际合作专项“SKA科学数据处理关键技术研究”(项目编号:2016YFE0100300)的支持。

作者:安涛

(安涛,博士,上海天文台研究员、博士生导师、SKA团队课题组长,曾入选中科院青年创新促进会优秀会员、上海市青年科技启明星计划等。研究领域是射电天文与技术方法,已发表了70多篇SCI/EI论文,应邀为Nature Astronomy(自然·天文)期刊撰写综述论文。近年来致力于推进中国SKA数据中心项目,取得了丰硕的工作成果,得到科技部和SKA总部的赞誉。)

0
分享
   相关成果报告
    友情链接申请链接    
科技纵览官网      阿里云      悦智官网      百度      360      腾讯      网易      凤凰网      新浪网      搜狐网      IEEE     
京ICP备15039501号-1

京公网安备 11010102002341号

本站由 提供计算与安全服务
关于
关于我们
商务合作
联系我们
订阅
RSS订阅
邮箱订阅
线下活动订阅

Copyright © 悦智网