十年

戴尔在x86架构服务器上不断推出新的提高服务器可靠性、可用性和可服务性水平的技术,仅在13G服务器上,就投入了2600万美元的研发和测试费用,以及1000多个实验室人次来进行产品质量的测试和评估。

小时候,家住在江北城的夏薇,经常拽着妈妈的衣角来到重庆嘉陵江索道,那时候,重庆的天总是灰蒙蒙的,没有现如今这么多的高楼,但人们的生活是慢悠悠的,乘坐索道从江这头到江那一头只有几百米的距离,可时间却要将近3分钟,“人们习惯于那种慢悠悠、晃悠悠的生活,很少会听到有人抱怨索道太慢,没有人赶着时间”,就这样,夏薇伴随着慢悠悠、晃悠悠的重庆嘉陵江索道慢悠悠、晃悠悠的长大了。

可如今,随着城市生活节奏的加快,越来越多的跨江大桥在重庆这个几乎被长江和嘉陵江一分为三的山城树立起来,截止2015年,在重庆所辖区域内,共计有36座长江跨江桥,占了整个长江跨江大桥的近一半,人们再也不在索道的吊箱上慢悠悠、晃悠悠的过江,不到半分钟,人们就可以驱车从江北到江南,从江南到江北,夏薇说,这是属于一代人的记忆,以后,恐怕也很难再有这样的记忆了。

2011年2月28日,新中国第一条城市跨江客运索道嘉陵江索道停止运行,2013年12月底,索道开始拆除,轿厢和驾驶室等重要部件将作为文物保留并陈列,虽然2015年传出了复建的消息,但在很多重庆人心里,“嘉陵江索道,没了。”

但是,重庆人仍然可以为他们所钟爱的索道自豪:这条1980年动工,1982年通车的中国第一条自行研制的大型双线往复式过江载人索道,在1989年交与重庆市客运索道公司管理后,保持了10年的无事故运行记录,1999年,在更换了新的索道钢绳之后,这条索道又平安无事故的连续运行了长达13年之久,在前后安全稳定运行的29年中,重庆嘉陵江索道载客量超过1亿人次,最高峰时每天运载量达到2.54万人次。

与之相比,用于娱乐景区、风景名胜或是一般用途的索道的平均寿命只有10年左右,即使是更换索道主钢绳,也不过能够将寿命再延长3-5年,每台每天客流量达到两万多次、平均每天运行数百次的、跨度长达740米的索道能够安全无事故的使用近三十年,在国内外的索道建设领域绝对称得上是一个“历久弥新的奇迹式索道”,也难怪重庆的市民们在嘉陵江索道即将拆除的最后时刻,掀起了“再去坐一次过江索道”的城市怀旧风活动。

这些以亲身行动怀念着29年高龄的嘉陵江索道的重庆市民,从某种意义上,将自己的生活、生命和回忆都托付在了嘉陵江索道之上。

一封特殊的站内信

2017年4月5日的午后,一封特殊站内信的到来,在中国科学技术大学(以下简称中国科大)超级计算中心(以下简称超算中心)引起了人们的关注,这封站内信来自于中国科大超算中心的张焕杰主任,站内信的标题是这样写的:202.38.64.59(用来标记服务器的IP地址)连续运行10年,邮件正文中的文字也很简单,张焕杰主任写到:

202.38.64.59已经连续运行10年。

由于32bit的kernel(指Linux Kernel)计时器497天溢出,所以uptime看到的时间只有173天。(站内信后附上了Linux系统的信息)

这是怎样的一台服务器?它是举世闻名以可靠性、可用性著称的Mainframe大型机,还是RISC架构的小型机?它是一台只是通电的无关紧要的服务器,还是承载了中国科大重要任务的、一线运行的服务器?它是在什么时候安装、运行的,又是从什么时候开始铸就了连续运行10年的奇迹?

连续运行十年,难道只是特例?

据张焕杰介绍,这台服务器购置于2004年2月份,当年3月开始上线运行,运行的是Redhat Linux 7.3,其中内核是学校修改增加了定制功能的Linux Kernel 24.25,上线至今一直作为校园网出口设备,运行中国科大出口防火墙,提供WEB认证登录、校园网出口选择使用等功能,这台服务器的最后一次重启时间是2007年4月5日,也正因如此,在十年后的2017年4月5日下午两点17分,张焕杰主任才发送了那封引发轰动的站内信。

十年

“未出现过任何问题。”这是张焕杰主任对这台服务器的评价,在过去十年的稳定运行和购置后的十三年中,这台服务器从未出现过配件损坏、更换或是负载支持响应延迟等问题,可以说,没有过任何的软硬件问题,即使是在学校往往7-10年才更新的服务器使用时间普遍较长的环境下,这台服务器也是属于绝对的鹤立鸡群。

而且,在过去十年,即使已经为这台服务器配上了两个“助手”,它也一直在负责最为关键的工作负载。

“我校有教育网、科技网、电信、联通、移动等5家国内主流运营商出口,为了给用户最大的自主性,我校在Linux kernel定制了功能,让每个用户可以自由选择和切换使用哪个网络出口。该服务器一直提供WEB登录和校园网出口数据包的转发处理。早期校园网出口总流量不到1Gbps,因此仅仅这一台服务器就可以完全处理。”

后来,随着工作负载的加大,学校为这台服务器在2010年增加了两个帮手——两台新的服务器——一起分担数据包的转发处理,但这台服务器仍然负责最为关键的WEB界面处理和大约0.5Gbps数据包转发处理,其余两台服务器分别负责5Gbps数据包转发处理。

从张焕杰主任的讲述中不难看出,这台服务器可不是用来“拼年头”的摆设,而是一台真真正正在使用,并且被中国科大用于全校师生日常所使用的重要业务的核心服务器之一,甚至于,在它前三年的使用中,它还是唯一。(正因为其一直在使用,所以在本文中,我们并没有太多使用“可靠性”这一词汇来描述,而是更多的使用“可用性”这个词。)

故事讲到这里,略微了解服务器行业的人肯定会信心十足的说:“这肯定是一台Mainframe大型机,只有大型机才能够达到10年无故障不宕机。”但恰恰相反,这台服务器不仅不是Mainframe大型机,甚至都不是一台号称“关键业务服务器”的RISC架构服务器——它是一台地地道道的x86服务器,一台Dell PowerEdge 2650服务器。(据张焕杰主任介绍,这台服务器使用英特尔至强Xeon 2.4GHz处理器,1G内存,两块73GB硬盘。)

十年

戴尔公司于2002年推出的使用英特尔至强处理器的双路机架优化服务器,它在当时有着非常“时髦”的配置,如支持高带宽的PCI-X插槽、双1Gb以太网卡、支持DDR内存同时提供双通道嵌入式的Ultra3(U160)SCSI控制器,从而支持最多五个独立的内置SCSI硬盘。

但更重要的是,在设计之初,当时的工程师们就以当时的技术实力和能力,最大限度的延长服务器正常运行时间,比如说,在Dell PowerEdge 2650中,提供具有ChipKill技术的纠错码(ECC)SDRAM存储器、Spare Bank支持系统承受错误并避免系统停机。此外,嵌入式的Ultra3 RAID具有128MB的电池备份缓存,即使出现宕机也可以将数据写入磁盘再停电,保证数据的的完整性。

当然,这台服务器还支持热插拔冗余电源、热插拔风扇、修复组件时最小化供电技术以及提供故障转移支持的双千兆网卡。

是的,这就是一台地地道道的x86架构戴尔PowerEdge 2650 2U机架服务器。

他家的X86服务器可用性“卓尔不凡”

一台无故障运行了十年的x86架构服务器,让我们不由得思考x86服务器可靠性、可用性和可服务性(即RAS特性)的问题,正如前面所述,很多人对x86服务器的RAS特性都报以怀疑态度,因为在固有的印象里,最可靠的服务器当属Mainframe大型机。承诺可用性99.9999%,即每年因为计划外的中端或技术故障,系统全年总中断时间在1.27分钟左右,即每个Mainframe大型机平均每个月的停机时间只有7-10秒。

但很显然,我们这台安全无故障运行了十年的Dell PowerEdge 2650服务器早已经超越了这个数字,算下来,如果用“x个9”的可用性评价方式来界定,恐怕小数点后面要有大约10个9,也就是至少超过12个9的可用性。

或许有人会说,这台Dell PowerEdge 2650服务器所创造的故事是一个特例,是一个无法复制的奇迹,x86架构服务器仍然在可用性上存在很大的差距,但事实是,即使我们将这台Dell PowerEdge 2650服务器作为特例来对待,我们也不可否认x86架构服务器在服务器可用性的平均水平上已经与RISC架构服务器处于同一水平线上,甚至已经在逐渐逼近Mainframe大型机的可用性水平。

行业调研机构ITIC在2014年的一项统计“Industry Recognized Uptime & Reliability”的报告中就曾指出,使用SUSE SLES 和Red Hat RHEL Linux操作系统的x86架构服务器可用性已经能够达到99.9977%,在当时已经超过了SPARC架构(使用Solaris操作系统)99.9968%的可用性,而且,这一数字是基于英特尔至强E7V3之前的使用情况进行的统计,就整个服务器市场来说,至强E7如今已经发布了至强E7V3、V4以及Skylake-SP三次新的升级,其可用性显然还会有三次显著地提高。

不仅如此,操作系统和服务器供应商在提高服务器可用性上的努力也在不断优化着x86服务器的可用性水平,一方面,Linux操作系统的可用性越来越多,就连张焕杰主任也提到“一旦使用Linux操作系统,x86服务器表现并无短板”,而前述这台Dell PowerEdge 2650服务器表现也说明“该服务器10年未重启过,说明10年间操作系统未出现过异常”。

另一方面,戴尔在x86架构服务器上不断推出新的提高服务器可靠性、可用性和可服务性水平的技术,仅在13G服务器上,就投入了2600万美元的研发和测试费用,以及1000多个实验室人次来进行产品质量的测试和评估,不仅如此,在设计上,戴尔从单个组件、平台设计、操作系统、系统环境以及应用合作伙伴,甚至是自身的供应商等多个角度进行服务器的RAS水平提升和管理。与此同时,戴尔在服务器技术层面使用了双嵌入式SD卡、Fault Resilient Memory等技术进一步的提高服务器的可靠性和可用性。

在戴尔14G服务器上,戴尔更进一步提升了服务器的故障修复水平,新的14G服务器中享有ProSupport Plus白金专业技术支持并配备SupportAssist的 Dell PowerEdge服务器能将零件故障的修复时间缩短91%,能将所需的步骤减少21个。

不仅如此,戴尔进一步从RAS特性扩展到服务器安全设计,设计了行业首发的“信任链”功能,从出厂到操作系统启动的每个环节都在控制之中。非法、恶意、被篡改的BIOS,固件都无法升级到系统, 避免硬件被入侵;非法OS也会被禁止启动,让服务器终身免疫,此外,独有的参数配置锁定模式,增强服务器配置管理的安全性——全方位的服务器可靠性、可用性、可服务性以及安全性维护,让x86架构服务器,如今已经能够拥有与Mainframe大型机同等的服务水平。

时至今日,中国科大的这台已经运行超过13年的Dell PowerEdge 2650服务器仍然在中国科大超算中心的数据中心内使用着,张焕杰主任说,由于软件无法升级、系统的SSL等组件已经严重落后于时代(正常的服务器使用周期是4-6年,少数教育、政府类用户会使用更长的时间,互联网、大型数据中心用户在3-5年),已经计划用新的服务器取代它的功能。

但张焕杰主任对于这台传奇般的服务器到底能继续无故障运行多久也很好奇,他说“这台服务器我们仍然计划继续运行下去,测试一下一台x86服务器到底可以运行多久”。

张焕杰主任所负责的中国科大超算中心可不是一个小数据中心,这个数据中心管理着中国科大微尺度国家实验室、核学院、高能物理、地空学院、化学院、数学学院、计算机学院等15个用户的23个机柜的超过2000台服务器用于高性能计算,另外还有服务于网络信息化应用的大约500台服务器,这样规模的数据中心虽然比不上互联网公司动辄上万的数据中心,但已经是颇具规模了。考虑到国内高校超算中心、数据中心紧张的管理人员和资金水平,张焕杰主任所面对的可不是一个轻松的工作。

十年

或许也正因如此,一台稳定无故障运行了十年的服务器在数据中心管理者眼中才显得尤为重要:一台服务器如果每个月花个几分钟进行处理故障,那么上千台服务器每个月就是无数个不眠夜和加班的周末。

就像很多数据中心管理人员所说的,“没有消息就是好消息,设备没事儿就是最好的消息”对于他们来说,所需要或许正是这样一台平凡如斯的服务器。

来源:至顶网云计算频道

0赞

好文章,需要你的鼓励

2017

08/14

10:02

分享

点赞

邮件订阅
白皮书