来自数据中心的实践:算力增长和能耗降低如何兼得
2021年11月11日凌晨,张北的冬夜星垂平野,寂静无声。
此刻,中国一年一度的商业狂欢盛宴——天猫“双十一”购物节正在上演。一个坐在家里刷淘宝的消费者,也许从未听说过张北,但只要他连接上网络,便享受着来自张北的远程实时服务。
张北是连接华北平原和内蒙古高原的要塞,是距离北京最近的高原地区。我们此刻正立于此地,感受张北的特产——风。
风无半日静,地无三尺平。张北境内,10米高度以上,年平均风速达6.2米/秒,全县优质风能资源达350万千瓦以上。
千百年来,西伯利亚的寒风吹过六朝古长城,而今它除了带动着张北成群的风力涡轮发电机,还驱动着数字经济时代的新型基础设施——互联网数据中心(IDC)。
浏览网页、网购、在线办公、线上社交等网络行为,都由数据中心储存、交互和计算支撑。数字经济时代,生产关系各要素有了新变化,数据成为新的生产要素,算法是新的生产关系,而算力就是新型生产力。承载这一切的数据中心,毫不夸张地说,就是数字经济时代基础设施中的基石。
能源危机降临数字时代
2021年9月底,中国东北多地实行长时间大面积的拉闸限电,有别于国内其他地区正在发生的工业限电,居民们很快发现,连红绿灯也被停用了,交通一度陷入混乱。
从东北三省到江浙、两广,不同地区之间的限电细则略有出入,但都指向了同一个现实:一场全球性的能源危机到来了。2021年下半年,世界各国交错上演电荒、油荒、气荒,恐慌情绪随着不断创新高的能源价格和越发紧缺的库存蔓延,更随着北半球冬天脚步的临近而愈演愈烈。
从19世纪的工业革命开始,人类在200余年里快速消耗了地球几十亿年积累下来的绝大部分化石燃料,其中大部分被用于发电。国际能源署调查发现,直到2018年,全球化石能源发电比例仍高达64%,而可再生能源发电占比仅为26%,核电占比为10%。
人类社会由于使用化石能源,迎来了前所未有的繁荣,也因为过度依赖化石能源,不得不面对温室效应、能源枯竭等生存危机。在被倒逼着朝低碳时代狂奔的路上,我们对“高能耗”的事物越来越敏感。
消耗巨大电力转化成算力的数据中心,首先引起了人们的注意。2021年5月,国家发展改革委创新和高技术发展司的数据显示,数据中心年用电量已占全社会用电的2%左右。基于这个数据,数据中心被归入高能耗大户的行列。
但是关于数据中心的“高能耗”,业内有另一种视角,认为对数据中心既要看能耗数据,更要看产出。《2020全球计算力指数评估报告》显示,计算力指数平均每提高1个百分点,数字经济和GDP(国内生产总值)将分别增长3.3‰和1.8‰。算力就像一个杠杆,具有放大数字经济效益的作用。得益于此,数字经济的增长速度是非数字经济的3.5倍,数字经济的投资回报率更是非数字经济的6.7倍。
但是数据中心行业高能耗和高产出高效率之间的矛盾该如何解决?
高能耗背后的具体问题
随着万物互联及万物智能时代的开启,预计未来五年全球算力规模将以超过50%的速度增长。到2025年,整体规模将达到3300EFLOPS 。
算力、算力、算力……各行各业,各种新技术,各种终端,以及我们所处的数字时代,无时无刻不在追逐算力。
而国家对新建数据中心的要求是,满足高算力密度的同时,保证绿色低碳。高算力密度的绿色数据中心,将成为刚需和趋势。
目前来看,降低电力消耗的过程中最关键的环节是降低PUE(数据中心总能耗/IT设备能耗)。PUE是国际通用的数据中心能源效率的指标,这个数值越接近1,说明能效水平越高。2021年11月,在中国数据中心工作组(CDCC)第九届数据中心标准峰会上发布的《2021年中国数据中心市场报告》显示,2021年度全国数据中心平均PUE为1.49。
数据中心的能耗由IT设备、制冷系统、供配电系统、照明系统及其他设施产生。其中,制冷系统在整个数据中心的电能消耗中占比最大。
由于IT设备等设施工作时的功耗无法改变,从技术角度看,从制冷系统着手改进,成为降低数据中心PUE的关键。目前,数据中心领域采用最多的是风冷制冷技术,即用冷风把IT设备运行产生的热量快速带走。
以阿里云张北数据中心为例,这里通过大面积应用组合式空调箱(AHU)风墙技术,将室外温度适宜、质量良好的新风输送至机房,直接为超百万台服务器降温。
依靠风冷、湖冷等制冷技术,阿里云在河北张北、广东河源、内蒙古乌兰察布等地的五大超级数据中心,全年平均PUE小于1.3。
但是随着社会对高算力密度的超级数据中心需求越来越大,对数据中心制冷技术的要求也越来越高。原有的风冷、湖冷等制冷技术已经渐渐无法满足新建数据中心维持低PUE的刚性需求。
行业监管要求的提高,推动数据中心制冷技术不断迭代升级、创新突破。其中不得不提的就是数据中心领域近几年的黑科技——浸没式液冷技术。
“年植400万棵树”的散热黑科技
用液冷来替代风冷给数据中心散热,是近几年业内公认的重大创新举措。
液冷技术是指将高比热容的绝缘液体作为传输介质的传热冷却技术。相比空气,液体的比热容更高,是空气比热容的一两千倍,而且比需要“看天吃饭”的风冷更可控。例如,阿里云目前大规模使用的浸没式液冷服务器技术,是将服务器完全浸泡在不导电的冷却液之中,相当于人在游泳池里面泡着,通过冷却液的外部循环将热量带走。
2015年,阿里云开始探索液冷技术的应用实践,2016年首次发布浸没式液冷系统。2017年,阿里巴巴建立起互联网行业全球首个浸没式液冷服务器集群,随后在阿里云张北数据中心进行规模化部署。
根据阿里云基础设施数据中心总经理高山渊的解释,如果用风冷技术,一个标准机柜里做到30千瓦的散热能力已经是极限,而浸没式液冷可以轻松做到120千瓦,经过技术改进还能做到200~300千瓦。在实际应用中,浸没式液冷技术适用于AI、超算这类高密度的计算场景。
与传统风冷技术相比,液冷系统可节省30%~50%的电量,机房整体能效提升30%。而阿里云目前大规模采用的浸没式液冷技术,散热全程无须额外的风扇、空调等制冷设备,实现了数据中心百分之百无机械制冷。
使用浸没式液冷技术以后,张北数据中心的年PUE已经低于1.2,最低时可达到1.09,属全球最低。这相当于每年节约标煤8万吨,或种植了400万棵树。初步估算,如果全国的数据中心都采用液冷技术,一年可节省电量相当于三峡电站2020年全年发电量的2/3。
“煮蛋”是业界对数据中心能耗变化最津津乐道的比喻:2005年,阿里10笔电商交易消耗的能源可以煮熟4个鸡蛋;2015年能煮熟1个鸡蛋;2016年启用最新的液冷技术后,仅能煮熟1个鹌鹑蛋了。未来,这点热量可能连鹌鹑蛋都煮不熟了。从4个鸡蛋到1个鹌鹑蛋,背后是阿里数万名工程师耗费十余年对IT系统极致高性能和高效率的不懈追求。
对浸没式液冷技术的价值,高山渊这样总结:“液冷打破了风冷对机柜密度的上限要求,同时显著降低了系统故障率;在社会价值上,从小众走向规模化。‘绿色计算’让数据中心走向规范、理性发展,用技术推动创新,用科学的理念和方法降低能耗。”
浸没式液冷技术的规模化应用,对于数据中心行业而言意义重大。但是一项先进技术如果不能得到大规模推广,最后只能被束之高阁。
2020年,阿里云在浙江杭州的云计算仁和数据中心部署了全球规模最大的浸没式液冷数据中心,并且联合开放数据中心委员会(ODCC)向全社会开放“浸没式液冷数据中心技术规范”,也就是技术开源。
这些年,阿里云陆续把模块化数据中心、巴拿马电源、阿里云智能运维机器人等自研技术贡献给开放数据中心委员会,对全社会开源,引领和推动了整个行业的技术升级迭代。
“阿里云把浸没式液冷数据中心技术规范进行开源,是希望和更多合作伙伴并肩前行,共建整个液冷生态。一项技术只有越来越多的人使用,才能真正把成本降下来。”高山渊表示。
张北高原上的“熄灯数据中心”
数据中心里每分每秒都充斥着冷与热的矛盾。在这两者之间找到平衡,是数据中心的技术工程师们永不停息的战斗。
张北的冬季,气温可达到零下30多摄氏度,在这样的低温天气里,数据中心的部分设备如果不能保温,就会影响设备运行的稳定性,并且损耗设备的使用寿命。但要给设备保温供热,又会产生额外的能耗。
于是,阿里云设计了一个余热回收系统,把各种设备运行产生的热量收集起来,除了满足张北数据中心IT设备保温和办公区、生活区的供热,多余的热量还可以直接输送给周边地区的机构。
与阿里云张北数据中心毗邻的学校、医院和市政设施等,都享受着数据中心运行产生的余热,这样做也减少了该地区传统供热方式所产生的碳排放。第一阶段,余热回收系统已经满足了张北数据中心周边13万平方米地区的供热需求,第二阶段可满足51万平方米地区的供热需求。高山渊坦言,在全社会对数据中心能耗的严苛要求下,数据中心在这方面确实面临很大压力。碳排放的核算范围有三个方面:自身的直接排放,所使用的能源的间接排放,以及所使用的物料的间接排放。数据中心最大的碳排放还是来自第二个方面的外购电力,降低碳排放的关键是数据中心能否更多地使用绿色电力。
2018年,张北数据中心加入张家口“四方协作机制”风电交易,率先在全国数据中心行业开展非水可再生能源电力交易。2020年,张北数据中心成为行业内首个碳普惠试点项目,同时获评“2020年度国家绿色数据中心”。
2021年9月,作为首批全国绿色电力交易主体,阿里云数据中心率先交易1亿千瓦时绿色电力,成为国内互联网行业最大的绿色电力交易主体,践行了绿色发展的理念,也探索了通过新交易品种获得绿色电力的路径。“双十一”期间,阿里云张北数据中心使用绿电近3000万千瓦时,减排二氧化碳2.6万吨。
国家公布“双碳”目标后,阿里云就把碳排放作为数据中心的考察指标之一。通过搭建数字化碳管理平台,阿里云将各个数据中心内部碳盘查工作线上化,实现了碳排放全景内部展示,并能一键生成碳盘查报告与碳中和、碳减排工作报告。
目前,阿里云搭建的数字化碳管理平台只在内部使用,但是跟浸没式液冷技术一样,小范围的试验是为了给大规模的实践应用做积累。阿里云计划在提升自身节能减排能力的同时,未来向合作企业、政府输出数字减碳能力。
经过一系列智能化运营的努力,张北数据中心已经基本成为“熄灯数据中心”。平时,除了有少部分工作人员在办公区值守,偌大的建筑空间绝大部分区域都处于“熄灯”状态,在一个全黑的环境里,只有各种设备微弱的指示灯闪烁着。
眺望着这黑夜中的数据中心,高山渊的思绪飘回5年前。那时数据中心所在地块还是一片荒地,旷野上只有北风呼啸的声音。而今,这里已经是一座成熟的产业园区,并且用最低的PUE跑着这片土地上最繁忙的数据,为云上的世界提供支撑,想到这里,他的“自豪感油然而生”。
新一轮科技和产业变革正席卷全球。“数字中国”的建设,正在从量的增长向质的提升转变。如果时代是一列永不回头的列车,那么算力正逐渐成为驱动列车前进的核心动力。绿色算力,已成为保证这列列车高速且稳定行驶的必然选择。