注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

长缨在手 敢缚苍龙

 
 
 
 
 

日志

 
 

超级计算机与核武器模拟实验  

2013-12-29 13:15:30|  分类: 核武器 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

  一直以来,美国洛斯阿莫斯国家实验室的主任每年都要按照法律要求完成一项任务——写一封信,从他个人角度对美国核武器库中洛斯阿莫斯实验室设计的核弹头与核武器进行评估。这份信会发给美国国防部与能源部的部长以及核武器委员会,进而经由他们到达美国总统手中。
  这份评价的技术基础源于实验室正在执行的美国国家核武器储备管理计划。洛斯阿莫斯的任务是研究他们所负责的那部分核武器老化的情况,发现其中 存在的问题并予以解决。据信件显示,洛斯阿莫斯实验室的武器所出现的问题都不需要大范围的地下核试验便可以得到妥善处理和解决。当然,这封信只是实验室工作的冰山一角,主任是根据实验室的核武器专家们提出的专业建议来起草这封信的,而专家们的建议则是利用93平方千米范围内的实验室设施进行众多科学研究与分析后得到的。要完成上述所有的工作,最核心的组成部分就是超级计算机。在缺少实际试验的情况下,超级计算机提供了用来评估核武器安全性、可靠性及各种性 能的唯一可行途径——模拟实验。

  冰山一角

  诸如《黑客帝国》、《机械公敌》等好莱坞影片中对于超级计算机的典型描述是,充满整个房间的巨大机器,能够自行解决大量复杂的问题。而事实上,超级计算机本身也只是冰山一角。
  尽管一系列的巨大的机器是超级计算机最明显的组成部分,但是它们只是现今超级计算机应用环境中三个主要的组成部分之一,这三个部分分别是:
  第一,超级计算机—处理系统,用于运行模拟运算。第二,数据存储系统,用来储存仿真数据以及其他数据,这一部分由数以万计的数据磁盘组成,这 些磁盘存放在温度与湿度均严格控制的自动化“图书馆”里。人们通过远程控制可以让“机器图书管理员”取出所需磁盘,也可以在磁盘使用完毕后将它们放回原 处。第三个组成部分是非超级计算机部分,即国家安全研究所的研究者们。这些超级计算机的用户们通过专门设计的网络,在“机器图书管理员”的协助下获取想要 的数据,并远程观察和分析仿真程序。
  洛斯阿莫斯的超级计算机还需要大型的设备对其进行降温,也需要大量的电能。为了运行仿真程序,也需要输入大量实验数据及专门设计的代码。此外,还需专门的系统软件来执行代码,管理工作流程以及存储和分析数据。
  工作人员是维持超级计算机运行的诸多基本条件中最重要的一个。从超级计算机的设计、建造、维护到操作并应用系统软件及程序进行有价值的科学探 索,需要上百名电子计算机科学家、工程师以及保障人员。没有他们的参与,超级计算机仅仅是一团混乱的电线,一堆无序的字符以及一个个无用的箱子而已。

  能够填满整个体育场的超级计算机

  在洛斯阿莫斯实验室,超级计算机以及大量的支持设备都安放在尼古拉梅特罗波利斯建模与仿真中心—所谓的战略计算中心。
  “走鹃”在2008年成为战略计算中心机房的一员,它是世界上首台每秒千万亿次浮点运算的计算机。它体积庞大,使用了约92千米的光纤,重约 226吨,占地面积约557米。但这只是计算机房的一部分而已,整个机房的面积可达4041平方米,是一个足球场面积的90%。机房的地板下面是更广阔的 空间,里面装满了各种机械设备,而这一切是使用者看不见的。
  机房位于战略计算中心的二楼。但是这里的一层实际上是两层,在大约1.2米高处设有一层地板。这1.2米的空间容纳了长达数千米的光纤网、大直径的电源电缆及超级计算机运行所需的其它设备。这样的结构为工程师和维护人员提供了安装和管理这些设备的足够空间。
  整个建筑的一楼是另一间面积超过4000平方米的大房间,这其中的一半空间用来容纳鳞次栉比如同小木屋般大小的空调。这些空调使空气冷却,并 将冷却后的空气向上吹入机房,冷空气可将计算机不停运转而产生的热量带走。而后这些升温的空气上升到三楼,在那里空调以每秒1180立方米的速度将这些空 气运送回一楼,形成降温循环。
  一楼的另一半的空间用来容纳战略计算中心的电力设施,用以维持超级计算机的运转。这些设施包括数排高大的电力分配单元,每个单元包括一系列变 压器和断路器,以及作为备用电源的旋转式不间断供电发电机(RUPS)。每部RUPS都采用马达发电机技术—即电流首先输入电机,驱动一个直径2.7米的飞轮高速旋转,使电能首先转化为动能,而动能反过来再产生电能。在意外停电的情况下,飞轮里积累的动能足够为超级计算机继续供电8~12秒—这足以将正处 于运算中的数据写入存储器中,从而减少数据的丢失。
  电力分配单元可将高压电转换为低压电,并且根据每台机器的电压需要进行输送与分配,例如为“走鹃”输送的是220伏,为“天空”输送的是480伏。
  由于实验室的这些超级计算机一年到头时时刻刻都从事着关系国家安全的工作,因此需要技术人员随时在场值守,并与它们一起执行同样的令人精疲力竭的日程表。战略计算中心的操作人员是一个有着22人的专家团队,他们负责维持超级计算机的运行以及确保任何故障都能立刻修复。
  操作人员分成3个班次,他们利用监视设备在操作中心内对机房进行持续监视,操作中心位置很高,并设有窗户,在其中可俯瞰整个机房。操作人员的 任务多种多样,他们不但需要监视计算机的硬件与软件,而且还有别的工作,例如密切关注冷却系统等。机房内的环境必须要足够凉爽,因为过热是计算机的大敌。
  值守人员必须在1小时内解决硬件和软件所出现的问题。如果软件问题需要额外支持的话,一个由30名软件管理员组成的团队也会在场提供援助。如果软件问题出现在常规工作时间外,那么可以随时召集管理员,且在2小时将错误报给战略计算中心。

  超级计算机的革命性发展

  超级计算机从外形上看与个人电脑非常不同,它看起来更像体育馆里鳞次栉比的衣柜。但是,真正不同的是超级计算机所完成的工作以及它们的工作方 式。现今的超级计算机是上万个置于“架子”上的处理器的集合,“架子”是指容纳处理器和辅助设备的机柜。超级计算机之所以需要这么多的处理器是因为它们所 要完成的大量计算是个人电脑望尘莫及的。超级计算机将大量的计算分成若干小的部分,由多个处理器同时进行运算,这就是并行计算,或者确切地说,对于一台超 级计算机来说,是大量的并行计算。
  为洛斯阿莫斯制造一台新的超级计算机需要很长的时间。这个过程始于与商业电脑公司的密切合作,如IBM、克雷、惠普等,同时需要具有丰富的操作和设计 经验的洛斯阿莫斯的电脑专家。洛斯阿莫斯的电脑专家投身于每部新型超级计算机创造的每个环节,从最初的想法到机器的运送,以及机器送到之后的每一个环节。 一旦一台超级计算机制造完毕并送货上门,在其投入到工作之前,工作人员要将其拆卸,仔细检查,然后重新组装,以确保其能够安全地处理分类的数据,并且实验 室的工作人员可以维修和维护。
  出于实用性以及经济上的需要,每台新的超级计算机都要利用商业计算机的技术进步。在21世纪,从“走鹃”开始,私营企业的技术在改进上加以创 新,拉开超级计算机制造的新篇章。例如,“走鹃”采用了最初为索尼PS3构想的电子游戏技术,正是由于这项技术,使其成为世界上第一台混合型的超级计算 机,有机地将2种不同的处理器以及其计算功能相结合。这在计算机构造方面改革性的一步使得“走鹃”很快登上世界舞台,并成为世界上首台千万亿次计算机。
  计算机结构的发展还在继续进行,下一代超级计算机将会发生根本上、甚至是革命性的变化,洛斯阿莫斯的下一台超级计算机“三位一体”将会是如 此,计划将于2015~2016年问世。在“三位一体”上,实验室的计算机设计者和他们的工业伙伴们将会使用极其富有创新性的技术,这些技术会影响到超级 计算机的未来。因此“三位一体”将会不同于洛斯阿莫斯研究者所使用过的任何一台超级计算机。顺便说一句,它的运行速度将达到“走鹃”的40~50倍。
  “三位一体”的确切样式还有待定夺,设计方案的讨论仍在进行,但无论设计如何,最终都能成为现实。每一台新的超级计算机的样式都是根据实验室的需求而定的。总之这意味着新的超级计算机必须能够解决更多、更新、更复杂的问题,更快运算出更多的数据。
  然而,洛斯阿莫斯的具体需求集中于库存的核武器并对他们进行不间断的分析。实验室的超级计算机已经能够模拟核武器的爆炸,但是“三位一体”及 其之后的计算机需要能够模拟越来越多的完整的核武器以及尽可能多的细节。“三位一体”的设计就是以上述目标为努力方向,已经付出了大量的努力来构建计算机 需要的新颖而复杂的子系统。
  在系统层次方面,有些设计要求在各代超级计算机上都没有变过,甚至连“三位一体”这样有颠覆性变化的机器也不例外。例如,私人计算机每次只为 一个用户服务,而超级计算机必须要同时为许多用户服务,包括来自洛斯阿莫斯实验室不同部门的用户,以及来自远离洛斯阿莫斯的其它国家安全实验室的用户,因 此超级计算机在设计上不仅仅应该可以同时容纳很多用户,同时应该提供非常安全的通道来保证数据的保密性。

  检查点的功效

  洛斯阿莫斯的每台超级电脑的设计都能够让操作者方便快捷地识别和定位巨大空间内电脑的哪一个部件需要修理。超级计算机需要经常修理,因为其尺寸和运行速度一直持续增加。随着这些机器体积不断变大,运行速度不断加快,自然也越来越容易产生故障。
  设想一下这样的情境:如果1台个人计算机一年崩溃一次,而1台超级计算机至少相当于10000台个人电脑,那么我们就会算出超级计算机平均每 小时要崩溃11次。设想一下这样的崩溃频率对于进行大量计算的超级计算机来说意味着什么!在洛斯阿莫斯,一次核武器模拟实验需要数周甚至数月的时间,而这 数周或数月对电脑的使用和电能的消耗已经是相当昂贵了。此外,成功的模拟实验需要武器科学家、电脑设计师、电脑代码开发者以及超级计算机操作团队的成员们 的共同努力。一次运行崩溃就意味着时间与金钱的损失。
  虽然故障停工不可避免,但是通常可以通过“检查点”来减少损失,就好像受伤时的救助一样。在预定的时间,即每4个小时,超级计算机就会暂停计 算,这段时间内的计算结果就会被下载然后储存到存储器中。在一次故障后,可以返回到最近的检查点再次开始模拟实验(或其它类型的计算),通过这种方式可以 使数据丢失降到最低。
  但不幸的是,电脑时间的丢失即使回到检查点也会变得更严重,因为随着超级计算机越来越大,就越容易发生阶段性的故障,所以三位一体的设计者们正在致力于新的检查点方法和系统以便能够保证计算机的高水平计算能力。洛斯阿莫斯正在与企业密切合作以开发这种保护功能。
  所有的个人计算机基本上是相同的,具有相似的设计,并完成相同的任务。用户只需要走出去为他们的品牌机购买所需的软件。但是超级计算机不同。 每一台超级计算机都是为了满足某个特定的需要而制造的,都有其针对的特定的问题。在洛斯阿莫斯,特定的需要就是科学计算和模拟实验,同时,超级计算机的用 户们要为每个程序编写特殊的代码。
  是谁开发了洛斯阿莫斯超级计算机进行武器模拟实验和一般科学研究的先进代码?那些非常专业的程序都是在计算机内部开发的,在这许多年里,实验 室的一代代超级计算机都有许多共同点,这使得现存的代码可以很好地适应它们。然而,“三位一体”的构造和性能特点将会发生翻天覆地的变化。代码需要彻底革 新而不是单纯适应这些特点,即从零开始建立而不是更新。
  在没有商业电脑公司那些数量与种类繁多的资源可供使用的情况下,开发者们已经开始致力于为“三位一体”开发可识别的代码。为了这项工作,开发 者们需要依靠与实验室众多科学家的合作。这些科学家可以提供一种独特的算法,解决复杂系统的动力随着时间逐渐消失这一基本物理方程问题, 无论这个系统是用于研究气候变化还是核爆炸。科学家们这种算法的本质以及系统随着时间改变而产生的新数据决定了代码开发者如何设计和建立代码才能够充分利 用超级计算机的数据存储和网络连接。在庞大数据量的时代,在超级计算机上构建程序使之能够有效产生不可思议的大量数据集,并且使这些数据集有用处,已经成 为巨大的挑战。
  设计、构建、操作以及维护一台超级计算机是与在家里或办公室的个人电脑上用word和excel办公完全不同的经历。计算机结构在不断发展变化,这种变化促进了“三位一体”的产生,并最终会促进人们至今还无法设想的机器的产生。
  实验室里的超级计算机的存在离不开那些复杂又昂贵的基础设施,虽然它们的作用常常不为人知。离不开数百位科学家、工程师和技术人员的努力以及 他们富有创造性的思维。这些科学家们共同努力,一起迎接挑战,提供世界上最先进的超级计算环境,然后通过超级计算机执行国家安全科学任务,这项工作无疑是很艰苦的,但也是绝对有价值的。

编译:武巍 丁忠惠

《现代军事》2013.11
  评论这张
 
阅读(1654)| 评论(1)
推荐

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2016