1.2 数据中心供电系统的可用性与发展趋势
1.2.1 数据中心供电系统的可用性
为增强数据中心建设、运行、维护过程中的风险管理,保障数据中心安全、可靠、稳定运行,满足数据中心实用性、先进性、可靠性、可扩展性、可管理性的要求,数据中心供电系统必须具有高可用性。在当前数据中心的环境下,一般多把正常运行时间定为5个9,即99.999%的可用性,这相当于每年的启机时间约为5min。一般启机时间持续1h甚至更长,这相当于约每10~20年发生一次启机。在通常情况下,由于众多数据中心子系统的相互作用,要达到这个目标非常困难。99.999%的可用性意味着每个子系统的可用性级别要比这个值高得多,原因是所有子系统叠加的启机时间必须等于或小于5min。因此,对这些因素需要认真考虑,尤其是在确定减少启机时间所需要的费用时。对供电系统来说,在外电源满足的情况下,数据中心的设计要在预定的生命周期内满足数据中心使用需求,并能做到随需而变。
1.数据中心的电源
数据中心功率密度和设备多样性的提高正促使动力及制冷系统发生改变,而动力及制冷系统对关键业务服务器及通信设备的性能及可靠性起着决定性的作用。由于各公司均配备新应用程序以提高业务对数据中心系统的依存度,不断提高的设备密度使得系统的重要性不断提高。同时,随着服务器的外形不断缩小,整套设施及独立机架可为越来越多的设备提供支持。
上述变化对动态数据中心基础设施提出了更高的要求,当关键基础设施系统能更好地适应新技术及新业务变化带来的密度、容量及可用性方面的改变时,即可大大提高运行的灵活性,从而可实现更高的系统可用性,并降低总成本。
在关键电源领域,动态基础设施必须包括UPS系统、配电系统及电源管理系统。UPS系统中的冗余技术可支持更高的可用性及灵活性,但UPS模块数量不能太多。平均无故障工作时间(MTBF)的分析显示,当UPS模块数量超过4时,该单总线模块系统会存在许多应用上不能接受的可靠性风险。
服务器等核心设备数量的增加,促成了配电系统的改变。配电系统由单级式发展为双级式以提高可扩容性,降低布线要求,并更高效地使用数据中心空间。
独立机架目前可支持高达20kW的应用,从而产生了对架式电源管理的需求。架式配电可增强机架电源的控制及可视性,同时简化线缆管理,并增大机架的通孔率以提高空气流量。由一体化UPS、配电及在架式电源管理设备所创建的电源系统,可满足当今数据中心及网络机柜在可用性及可扩容性上的需求。
服务器在数量、配置及密度方面的变化正在重塑数据中心环境,更高的散热可形成热区,从而影响服务器的可靠性,所以也使数据中心的制冷模式发生了巨大的变化。热量的增加因功耗的增加所致,将对UPS系统及配电系统产生巨大影响。该类系统的设计如果缺乏灵活性,那么就可能严重缩短数据中心的使用寿命,并威胁到设备的可用性。
回顾过去十年里IT设备机架对电源要求的变化历程,1996年,单个机架可最多容纳14台单线缆连接、以220V电压运行的服务器,该机架功耗约为4kW;而目前完全填充满的机架可容纳42台服务器,这些服务器大多都可采用双电源输入,单个机架内电源插座数量从14增加到84,总能耗从4kW增至约20kW。
刀片服务器的推出带来了更多的变化。目前,一个标准的机架可容纳6台双线连接、以单相220V电压运行的刀片服务器,功耗为24kW。该项革新对管理数据中心提出了诸多新的挑战:功耗的不断增加、对电路需求的增加、对设备多样化的更高要求等。这些挑战推动了对能源基础设施需求的提高,相关能源基础设施应能根据设备数量的变化、设备分布密度及设备安装地点进行调整。该基础设施必须包含从市电输入到核心负载的关键电源管理,包括取决于UPS类型和系统配置电源的可用性、从UPS至机架的配电、架式电源管理。
2.电源可用性
UPS系统的内部结构设计决定了UPS与输入市电电源间的关系,并最终决定了其在防护特定电源干扰中的有效性。目前,正在使用的UPS产品大致可分为3类:后备式、在线互动式、在线式。唯有在线双变换反向传输拓扑可用于防护全范围电源干扰,并被推荐用于当前关键业务或潜在关键业务中(实际上包括了所有数据中心)。选择在线双变换UPS可确保可用性要求不会超越UPS拓扑。
根据配置类型的不同,冗余系统仍能确保可扩容性。表1-2所示为当前正在使用的最通用的UPS系统配置概要。单机系统仅可用于支持99.99%的可用性等级,或者每年少于1h的意外停机时间,并且关键业务系统在UPS维护期间将处于非保护状态。UPS冗余可提高设备的可用性,支持UPS系统在不影响连接设备电源质量的情况下进行使用。含冗余UPS的单总线系统可支持99.999%或更高的可用性,而双总线系统可通过消除UPS与核心用电负载设备之间的单点故障来实现持续可用性。
表1-2 最通用的UPS系统配置概要
冗余的最简单方式为1+1系统,其中每个UPS模块都可为所有的连接设备提供支持,该配置可以为最少数量的UPS模块提供冗余。两个UPS系统向两个独立输出分布系统供电, UPS输出总线总是保持同步。每个总线通常含一个冗余UPS系统,技术上称为2×(N+1),但有时也称为2N。冗余亦可通过N+1配置完成,虽然该方式并不普遍,但正在为业界所接受。
基于软件的新扩容方法支持1+1系统,根据当前要求可使容量增至100%,而不需要添加UPS模块。若系统复杂性可以控制,则N+1配置将试图并可有效地平衡可扩容性及可用性,这要求选择适当的UPS模块型号,可尝试根据初始要求选择UPS模块,但若UPS模块数量过多,则可能引起可靠性问题。
通过对供电系统的可靠性进行分析,确定单总线、多模块UPS系统在保证可靠性的前提下,最高可接受3+1的配置,如图1-10所示。超过该点后,可靠性开始迅速降低,原因是模块数量的增加引起系统零件数量的增加,从而增大了发生故障的可能性及与维护相关的故障风险。服务器阵列可在发生多个故障且性能降低时照常运行,但若UPS模块故障导致系统低于承载能力点,则N+1系统将关闭。
图1-10 N+1配置的系统可靠性
若对可靠性的要求较高,则UPS单机容量应不小于计划的总设施负载的1/3。若确定会有增大,则容量应为初始负载的一半。这样既提供了增大的空间,又可确保在设施的整个使用寿命期内有足够的可用性。作为供电系统中最昂贵的零部件之一,蓄电池的容量可等于初始负载,并根据需要增大额外容量。在选择UPS规格时,应同时考虑可靠性和系统成本。单机容量增大,则UPS系统的每千瓦成本将降低。例如,采用10个均为10kW的模块替代一个100kW的模块,成本反而更高。
3.间隔配电
传统的配电设计由UPS向所需的配电单元供电,然后直接向机架上的设备进行配电。该设计足以应付服务器及机架相对较少的情况,但目前的设备对可扩容性及灵活性的要求更高,达到系统容量前通常需要花费较高的成本用于断路器空间扩展。
二级配电系统是一种新兴的替换方式,通过在UPS和服务器间组成间隔配电来提高灵活性和可扩容性。二级配电系统的第一级提供中级配电。与传统的配电单元类似,中级配电单元从UPS获得480V或600V电源。中级配电单元包括传统配电单元的大多数零部件,但具有优化的混合电路及支路。
配电断路器不用直接的负载级配电,而是通过I-Line配电盘的配电区为地面上安装的配电柜供电。I-Line配电盘具有极高的灵活性,可根据需要增加多达10个具有不同额定值的插件输出断路器。
负载级配电单元直接为安装于机架上的设备供电。该单元为安装于标准机架上的高密度部件,可安装于各排机架的末端或中间。当安装至一排机架时,负载级配电单元与设备机架组合,可改善设备的整体外观。另外,它还可根据应用需要进行定制,包括单源、双源(适用于双母线应用),或者由4类不同的输入电源供电。
采用二级配电系统可区分供应至独立系统的可交付能力及实际配电能力,从而消除传统配电单元对断路器空间的限制。可配置负载级配电单元以满足其直接支持的具体技术要求,同时让中级配电单元维持原状。对于当前或下一代设备,可对负载级配电单元进行相关配置,例如,配置400A或380V配电盘以支持更高的电源密度,同时可保护对中级配电单元的投资。
将以前的UPS规格确定理念扩展至中级配电单元,若中级配电单元具有适当的规格,则可根据需要向中级配电单元及额外负载级配电单元添加断路器。该方法的另一个优势在于其对空调系统气体流量的影响。二级配电系统极大地降低了对地下布线的需要。跨过道走线仅用于从中级配电单元至负载级配电单元的连接。自负载级配电单元(沿IT设备机架分布)的配电垂直于机架下部或穿过机架,使冷通道中并无电源线,并缩短了机架级设备的线缆长度。此外,该方法还可确保从UPS至中级配电间的电源路径数量更少、功能更强大,从负载级配电单元至能耗点的路径更短,从而提高配电系统的效率。
4.机架级电源管理
机架密度的变化对机架级电源管理提出了新的挑战。随着服务器整体数量及每个机架上服务器数量的增加,机架级电源管理成为线缆管理中最棘手的问题。这个问题并不仅存在于移出设备时,同样也存在于设备运行时。例如,大捆线缆很可能严重影响机架里的空气流通,增加发生过热的可能性。
此外,更高的密度增加了新设备电路过载的可能性。当使用所有供应至机架的可用电源时,新的高密度型服务器可不占用机架空间及使用外引线。当相关人员在单机架上配备新服务器时,若未意识到具体机架内的电源容量限制,则可能引发问题,即服务器可能安装至容量不足的机架上,从而导致电源电路过载和支路断路器跳闸,造成整个机架的故障。
智能电源插座是成本低廉、易于实施的架式电源管理解决方案。该类电源插座可垂直或水平安装,以简化设备更换过程,减少线缆干扰,并增加可视性和加强对机架能耗的控制。该类电源插座可监控单个电源插座的电气属性,包括经由SNMP和本地LED显示电压、电流、功率、相载或电源电路的状态,实现实时远程管理。更高级的插座亦可提供电源开关的插座级控制,以监控插座并进行本地或远程打开和关闭,从而防止因增加新设备而导致过载。
在关键电源基础设施的多点应用监控技术,可全面掌控整个数据中心电源基础设施。在某些应用中,在分支电路级采用电源监控可更有效,虽然它的监控力度不如插座级监控,但可支持更多变量监控。在某些高密度环境中,一条电路可能仅支持一个高密度机架,所以,支路监控与机架级监控同等重要。
配电监控也可用于中级配电,大多数配电单元提供主输入断路器的电源监控,因而与支路监控相比,可提供更多的数据。此外,亦可对次级输入断路器(控制负载级配电单元)进行监控。这可提高可视性和管理力度,用于识别容量限制和潜在过载情况。对任何要求支持快速交变荷载的电源基础设施而言,支路或机架级的电源监控都应被视为重要组成部分。
目前,为了适应未来的技术变革,针对数据中心的技术研发力度正不断加大。不断提高的容量要求及对可用性的需求促使数据中心运营者更多地关注基础设施设计,以实现更大的灵活性、更高的可用性和更低的总拥有成本。UPS系统配置可与功能更强大、更灵活的配电配置形成最佳组合,从而使用户通过采用最新监控技术更好地管理其关键基础设施。该类方案可使当前和新型的设备支持更高的密度和更大的容量,同时确保以更快捷的服务、更低廉的成本应对未来的信息技术变革。
对由单个单相120V/20A线路进行供电的数据中心来说,根本无法支撑高密度服务器的供电。同时,刀片服务器的大量运用导致电源容量消耗增加到200%。因此,要在系统中支持20kW的负载,每个机架将需要20个这样的供电线路。
数据中心中的IT设备通常每2~3年更新一次,更换设备时,电源要求、电压要求、冗余要求和连接器要求也常常随之发生变化。由于机架机柜已经成为配置计算机和通信系统的标准组件,机架机柜的配电系统必须随着IT设备的演变做出相应的改变,才能积极地适应数据中心发生的转变。
当今最常见的供电方式是针对具体的机架机柜设计、规划和安装特定的电源解决方案,如果该机架机柜的要求发生了变化,则必须重新设计、规划和安装替代方案。虽然这种方式能满足任何特定的电源要求,但往往需要大量的设计、规划和安装工作。
对数据中心的供电系统来说,最理想的方式是,机架机柜电源系统可以根据实际需要,去适应任何可能的设备组合;同时不存在安全隐患引发系统停机或可能降低系统可用性。随着对数据中心供电系统认识的不断加深,一种具备强大适应性的机架机柜电源系统应运而生。例如,APC公司推出的InfraStruXure系统,能够提供足够的功率,以便随时都能为任何机架机柜提供最大负载,而不必重新设计电源系统。InfraStruXure系统的组件以集成系统的形式提供,并可按要求进行配置。除了具有快速、经济地对变化做出反应的能力外,还具有初次安装的时间成本低的优势,因为它可以简化数据中心的前期准备工作。此外,机架机柜电源系统的可扩展性增强了系统满足实际负载变化的适应能力,同时可随需求的不断扩大进行扩展。
数据中心中的每个机架机柜的电能消耗是非常大的,预计在未来几年内还将进一步增加。从单个机柜来看,在数据中心的生命周期中,机架机柜设备将至少更换5次。这种情况要求机架机柜配电系统应能够满足不断变化的要求。通过对这些要求的总结分析,设计出实用的机架机柜电源结构,可以很好地满足数据中心更新扩展的要求。
5.数据中心供电系统的可靠性
数据中心的输入电源(俗称一次电源)是数据中心所有设备运行的动力,从照明、加热、冷却、除湿,到所有的IT设备都需要它。为了保证数据中心的正常运行,需要认真考虑如何进行电源的分配。该子系统的重要组成部分包括市电电源输入接口、线缆、端子排、配电盘、变压器、断路器、转接开关、插座板等。如果系统对可用性的要求非常高,则需要将某些部分或全部冗余。
数据中心电源备份通常是指用于保护负载免受劣质电源影响的高质量电源,并在电网掉电时为负载提供不间断的电源。通常都采用蓄电池做临时供电电源,可以提供5min到几个小时的后备时间。如果需要高可用性,冗余同样必不可少。
如果市电断电持续时间很长,仅使用UPS标准配置的蓄电池是不够的。因此,大部分数据中心都采用后备发电机组。这些发电机组以柴油、天然气或其他碳氢化合物燃料为动力,可以提供长时间的高质量电源。同样,当系统的可用性要求很高时,也必须使发电机冗余备份。随着技术的发展,燃料电池将很快投入使用,可消除发电机的噪声。
要求高可靠性的数据中心供电系统一般采用双路市电供电,如何更有效地利用市电和二次交流电源一直存在着两种观点:一种观点认为两路市电同时接在UPS上(一路接整流充电器,一路接旁路),另一种观点认为两路市电应在输入配电柜中变换成一路市电提供给UPS。这两种观点的设计方案都在使用,但其可用性就有很大的不同。在设计数据中心供电系统时也需要认真比较其优、缺点,做出正确的决定。
6.数据中心的电源管理方案
随着数据中心需要处理的数据流量越来越多,数据中心必须采用密度更高的服务器来取代原来的服务器,而高密度的服务器相应地需要智能性更强、体积更小、散热更低的电源管理方案的支持。因为它可以在各种负载条件下保持最高的功率转换效率,这不仅可节约电能,以及大大降低散热管理成本,而且对绿色环境的建设也是一种贡献。国际整流器(IR)公司优化的电源管理方案正是为这一数据中心的应用而量身定做的。IR针对数据中心的电源管理方案由以下几款电源管理器件组成。
① DirectFETMOSFET。
② 电源监控芯片IR3721MTRPBF。
③ XPhase相位芯片IR3507MPBF。
④ XPhase控制芯片,包括IR3514MPBF和IR3502MPBF。
由这些器件构成的电源管理方案具有功率密度较高、灵活性更高、双面冷却、实时功率监控等诸多特性。
DirectFET功率封装技术可以有效地减小与封装相关的损耗,采用该系列器件可设计出满足最新一代高性能处理器需要的电源系统。与标准塑料分立封装相比,DirectFET的金属罐结构具有双面散热功能,因而可有效地将高频DC/DC降压式变换器的电流处理能力增强一倍。采用该封装可以使MOSFET器件数量减少60%,并节省50%的电路板空间;它还可以使MOSFET的工作温度降至50℃,从而提高了可靠性。
IR3721MTRPBF是多功能输出功率监控芯片,IR3721在65℃时的精度为2.5%,利用IR专利的TruePower技术精确捕捉动态功耗信息。与其他功率监控集成电路相比,IR3721可在稳压器输出/负载侧监测动态功耗,显著改善其动态功耗测量精度。TruePower技术可避免动态误差,而采用独立的A/D变换分别监控动态状态下的电压和电流的其他解决方案的动态误差可造成超过30%的整体误差。通过监测瞬态功率,功率系统可以在任何给定点及时准确预测系统散热。有了这个智能功能,功率系统可以管理负载的电气特性,限制其功耗,并提前建立正确的冷却条件,优化了吞吐量,从而提高了性能。
XPhase是IR公司开创性的多相解决方案,它克服了目前固有多相结构中的缺点,把多相设计的简单性、扩展能力及性能提升到更高的水平,并提供了前所未有的灵活性,实现了在相位、电流、频率、效率、尺寸和成本之间的平衡。IR3514MPBF、IR3502MPBF及IR3507MPBF是IR最近推出的XPhase控制和相位芯片。
IR3502能够为任意数量的IRXPhase相位芯片提供整体系统控制和接口,每个XPhase相位芯片可驱动并监控一个相位。IR3502的主要功能包括提供0.5%整体系统设定值精度和菊花链式数字相位时序,不需要外部元器件,也能达到准确的相位交错。IR3502和IR3507相位芯片结合,可提供功率状态指示器(PSI)功能,以改善稳压模块(VRM)的轻负载效率。IR3502包括许多系统保护功能及高度可编程能力,例如,能够把时钟振荡器频率由250kHz设置为9MHz,从而把每相相位开关频率从250kHz提高至1.5MHz。IR3502具有30MHz宽带宽和10V/μs快速转换率的高速误差放大器。它还改善了压降,有助于减小可能需要的外置热敏电阻。
相位芯片IR3507具有PWM斜率的自校准功能,具有7V/2A栅极驱动器、相位故障检测器、电流检测放大器和电流共享放大器。另外,它能够产生与温度成比例的电压信号并反馈给VRHOT比较器,由此来监测过温。其他的特殊功能包括集成靴带式(boot-strap)同步PFET、支持低损耗的电流检测、可编程前馈电压模式控制、单线双向平均电流共享总线等。它与控制芯片通过三线模拟总线连接,通过控制器和相位芯片间的点对点布线而缩短了彼此的互连,使寄生参数最小化,每相位仅需4个外围器件,印制电路板设计更简单。由这些控制芯片和相位芯片构成的新型XPhase芯片组可提供丰富的功能和灵活的方式,与IR公司的电源监控芯片和DirectFETMOSFET器件一起组成了高密度服务器电源解决方案。