服务器缘何能长时间持续地工作?有何条件?
企业网 发表于:14年11月19日 09:36 [综述] 存储在线
一般来说服务器的可持续工作能力通常用MTBF(平均无故障时间)来衡量的。服务器每年的宕机时间都非常短暂,当服务器可靠性为99%时,每年停机大约在87.6 小时;但当可靠性高达5个9的时候即99.999%,它年停机时间仅为5分钟了。那么为什么服务器能长时间持续地工作呢?
可靠的电源
服务器的工作离不开电源,同时电源也是计算机产生故障的主要因素。首先,必须确保服务器使用的是适当功率的电源。服务器电源的电压一般为220V/50Hz,并朝着低压化、大功率化、高密度、高效率、分布式化等方向发展。UPS保证了服务器在突然断电等状况下还可以继续工作。其次,服务器所使用的电源与照明电源分开,使用单独的插座。
强大的硬件条件
服务器也是电脑,但一般来说,服务器是比较特殊的机器,因为“工作岗位”的关系,有些地方设计得更“特别”一点。针对服务器稳定压倒一切的特点,服务器 CPU内置多种容错纠错机制;内存使用带ECC校验芯片的内存,数据干扰出错风险比非ECC内存降低很多;服务器用的都是纯铜散热器、纯铜散热片,而且机箱风扇也都装到位了。内置的集成显卡大多数时间不需要工作。主板都是6层以上PCB,硬盘设计寿命是普通硬盘的2倍等等,这些硬件的设计为服务器的稳定提供了进一步的支撑。
专用的操作系统
专为服务器设计的Windows Server以及Unix和Linux类操作系统可以在不需要外接显示器的情况下,关掉图形化界面的服务程序,甚至服务器的操作系统默认连声卡都没开启的。专用的操作系统提供了高安全性、高可靠性、高可用性和高可扩展性,为服务器的稳定性做出了巨大贡献。
优秀的集群架构
如果服务器集群中有一台出现了硬件故障怎么办呢,例如cpu或者内存的故障,十分这样服务器就会挂掉导致宕机呢?其实,我们优秀的软件工程师设计出集群架构可以让多台服务器运行同一个业务,一台或者多台服务器离线并不会对整体业务造成严重影响。
运行环境
首先是运行环境,一般机房要求无尘,室内环境良好,温度控制在零上4到40度,否者对电子零件有影响。通常电子信息设备的工作环境温度应在18℃~30℃之间,温度过高或过低将使计算机受到损害并加速其老化,从而影响服务器的使用寿命。因此,服务器一般都放在空气流动的地方,有24小时的空调为其服务。
运行状态
服务器的运行状态影响着其使用寿命,一般服务器CPU的负荷总在80%以上会对风扇和CPU的寿命都有影响,所以服务器一般不会超频工作。另外工作人员也会定期检查服务器的硬件工作状态,有小问题及时解决。应该能用五年以上。
冗余设计
冗余,指重复配置系统的一些部件,当系统发生故障时,冗余配置的部件介入并承担故障部件的工作,由此减少系统的故障时间。高端服务器产品中普遍采用双电源系统,这两个电源是负载均衡的,即在系统工作时它们都为系统提供电力,当一个电源出现故障时,另一个电源就承担所有的负载。有些服务器系统实现了DC的冗余,另一些服务器产品,如Micron公司的NetFRAME 9000实现了AC、DC的全冗余。
专业的维护
世界没有从来不坏的服务器,这是可以肯定的。业务对可靠性的近似苛刻要求也有其不得已的苦衷。根据统计,金融企业每次宕机损失平均为1000万美元,所造成的无形资产损失更是无法估量。所以专业的维护对于服务器机房来说也是必不可少。服务器在设计的时候做了大量的备份冗余,在使用的时候运维在不停排除故障。专业的维护人员设计了hadoop、hdfs、lvs等等一系列的维护系统和灾后修复策略。超多的维护费用、电费、监控费、安保费等为服务器的稳定运行做出了后勤保障。