西数超哥博客
运维经验教程分享

【2018亚太数据中心峰会】李典林:节能增效,提升数据中心产出率

在过去的2017年,亚太地区的数据中心市场增速接近15%,领先于全球其他主要地区,与整体经济增长水平保持同步。区域内多元化的经济体发展特征使各国数据中心市场形成了鲜明的差异,以香港、新加坡为代表的成熟市场保持稳定增长,而以印度、印度尼西亚、为代表的新兴市场则呈现出强劲的增长动力。

2018年5月15日-17日,由中国IDC年度大典组委会主办,中国IDC圈、CloudBest承办的”2018亚太数据中心峰会”在深圳盛大召开。

5月17日,”2018亚太数据中心峰会”正式召开,腾讯数据中心首席架构师李典林在现场进行《节能增效,提升数据中心产出率》精彩分享。

腾讯数据中心首席架构师李典林

以下为演讲实录:

李典林:今天介绍的内容和之前的题目内容有点不太一样,这段时间事情比较多,准备的有点仓促,PPT有点老,更多是和大家做相应的探讨,不一定沿着PPT讲,大概会讲相应的变化。

今天我们看到的消息,比如数据港和一些重大项目的披露,未来这些项目在数据中心动不动有几十亿美元,我们看到海外Google、Face book研究是百亿加速这样的大额投资,未来有很大的变化,需求是超大规模,未来动不动是几万平米的大型园区,前面很多同事讲到未来的数据量很大、很大,规模很大。可能海量的情况下,对效率、成本有比较高的追求。特别是互联网行业在海外,每年电费都以亿计或者几十亿计的天文数字。成本配套也是大家非常关注的,希望能够有非常高的效率。交付,现在业务的发展是爆发性的发展,包括我们看到很多新生的巨头,或者已有的这几家,说是业务压力和云时代的交付压力很大。海量时代怎么提升运维的效率,怎么去实现海量的运营,包括无人值守等,这块也是我们很大的痛点。

传统数据中心,不管是投资成本还是运营成本,流量系统非常复杂,可能里面的耦合、安全,包括case by case的设计,包括灵活性、弹性、交付的进度等,这是数据中心的七宗罪。一开始大家想法很好,做的园区很漂亮,做的设计相应的效果图很好,最后落地的时候就严重走偏,这是传统数据中心里面我们认为非常工程、非常case by case、非常复杂的系统和不好的地方。怎么让市场复杂的系统变成标准的、简单的数据中心是我们一直研究的相应方向。数据中心是一个生产资料,是我们说的支撑系统,应该是一个工业品,而不应该是艺术品,怎么低成本、高效率满足业务需求,是我们解决问题的方向。今天应该没有人再买砖头、水泥建房子,基本上都是去买一个标准的商品房,做相应的定制、装修,快速满足居住的需求或者休息的需求等等。国内来讲,规模化的发展是很好的体现了这点。

今天建数据中心,基本上大家不会买机柜自己去设计、采购设备、安装施工,包括后续自己运维等。今天我们买一个产品过来,很快,接上电、接上水,快速投产,包括运维可以交给厂家搞定。以前我们DIY笔记本市场,现在基本上没有DIY组装装机,基本上买一个电脑,用完扔就好。这是我们说的标准化、产品化带来相应的价值。通过让非常工艺、非常复杂、非常工程的数据中心变成非常标准化、非常产品化的数据中心,类似乐高这样的思路,通过标准化、模块化来实现很高的可用性和弹性的增长需求灵活性,包括降低总TCO,这是我们相应很大的价值。

看数据中心技术发展趋势,这边电和空调是两块主要内容,电方面,数据中心从原来很重、很大的传统的UPS系统,慢慢看到行业Google、Face book这些公司,它的发展方向是把非常集中、非常大的系统分散变成很小的系统,按需采购、按需投资,非常灵活。把从左到右很长的转换过程变成很简化、高效率的过程,这是整个行业的发展趋势。未来的发展,电池就是UPS,市电就是我们机房主供电源,电网和CPU的路径越简单越好,像今天的笔记本电脑一样,不需要UPS,直接插上市电就可以快速投产。数据中心行业,未来电池也会从机房级到模块级继续发展到机柜机,甚至到服务器级发展这样的方向发展。制冷也是类似这样的思路,从非常集中的超级大的冷机、超级大的很重的超大系统,慢慢变到CPU的量级,从集中系统到分布系统走。我们也不需要机械制冷,不需要压缩机制冷,去掉中间的转换环节,减少能耗,从房间级向芯片级走。也是类似这样的思路,去掉不需要的环节,让架构越扁平、越简单、越高效、越分布式的拓展方向。

前面介绍了可能发展的大概痛点,希望实现更好的产品化,实现很高的效率,实现海量架构和运维的需求。数据中心是非常复杂的系统,让整个非常复杂的系统变得越来越简单、越来越产品、越来越标准化、越来越高效率,怎么在纷繁复杂的系统里面找到它的本源?它的本源是我们行业的导师王海峰(音)老师精炼提取的逻辑,它的本质是数学与逻辑。数学就是颗粒度,我们认为硬件的东西是颗粒度大小的最佳模型,软件是怎么把最佳的产品、最佳的模型做相应的逻辑上最优的控制、最优的调优,来实现整个数据中心最佳实践,数学和逻辑是其中最核心的东西。

前面讲了很多产品化,讲了很多最佳模型、最佳颗粒度等。怎么推导这个模型、怎么提炼最佳的颗粒度、最佳控制呢?这是有迹可循,后面有科学的依据。我们知道模糊是有边际条件的,是非线性的系统。而且不同的系统,不同的颗粒度,带来的成本影响是巨大的。数据中心典型的变压器,基本上是2500、1600,也是非常有限的。开关也是类似,1600或者是1300、5000、4300、3200等等,基本上都是类似的。比如你想2300的开关,找不到,它都是有颗粒度的。这么复杂的系统,像前面说的,我们怎么找到最佳的模型、最佳的实践?这就是我们讲的颗粒度的问题,它有最佳性价比,有很好的东西。

我们现在知道电的东西,比如数据中心不同的层级,从上到下,从小到大有服务器级,可能有微模块级或者房间级,再到数据中心级,再往上甚至有园区级,它有不同的级别的定义,通过不同的设备有不同的影响范围。UPS影响一个房间的,空调是影响一个通道的,PDU是影响一个机柜,不同的系统有不同的影响面。从机柜到POD到房间到基础设施甚至园区,不同的设备有不同的模型。我们都是做相应的技术处理的。

行业有类似的很好的案例,我们一直说怎么在纷繁复杂的系统中找到最佳实践和最佳模型,怎么实现数据中心的标准化、产品化。万科在行业里面给我们起了很好的思考,是很好的案例。它有一个工业化、产品化的住宅产品,它的建筑就是把一个房子拆散成门、板、墙,加上接口等等,通过这些标准件快速去拼装、快速去建房子。我们开始提到,未来的房子都是我们装配建筑或者绿色化的建筑,如果只是工业品,通过标准化、产品化、模块化的设计思路,快速设计房子的建设,低成本、高效率。数据中心也是类似,把服务器当成砖头,机柜服务器当成厨房、阳台,把微模块当成小户型、大户型等,这么多不同的房间凑成商品房、一个小区的楼,不同的楼凑成一个小区,用这样的理念打造一个数据中心的建筑。通过刚才说的标准化、数据化、产品化的东西,从设计来讲怎么Copy、搭建,从大到小按照壳子,在里面装家具、家电,快速的复制、快速建设数据中心,让整个数据中心实现产品化、模块化,模块化是解耦,不像原来这样非常复杂、非常耦合的系统,可以快速Copy、快速堆叠、快速建设。

比如虚拟中心的园区,8-10万台的服务器规模的建设中心,拿一块地,这里面有很多租赁条件,比如前面介绍的一条外线是1万个容量,1万容量可能对一个建筑、一个楼,每个楼大概产出2万多台机器,大概一个楼一万平米左右的界面,四个楼基本上就是8-10万台机器的模组。加上连廊、办公,也是类似的思路,让我们数据中心园区的规划、建筑的规划和房间的规划等等,怎么实现不同的颗粒度下面的产品复制和堆叠。刚刚说的把复杂的数据中心拆成很简单的结构模块,每个模块是由两个重要的模块,8-10个变压器,8-10个低压模块,对应3-4个大房间,每个房间15-20个微模块,5-6台模块柴发等,基本上就把数据搭积而成。框架一搭,建设的时候到每个房间、每个模块,根据需要随时扩展建设,随时配置就行。

我们按照模型拆,刚才说的一个数据中心园区有4个楼或者8-10万台机器的规模,基本上按照4个楼建设,每个楼基本上装2万台服务器,比如拆成两千的变压器,一万块就是两个两千或者四个两千五,基本上就是一千六、两千五这样的变压器,把它拆成3-4个房间,每个房间几千台机器。每个变压器或者每个房间下,有十几、二十个的通道或者主机或者微模块,每个微模块大概几百台机器,再往下每个都有几百个机器。把非常复杂的数据中心变成非常简单的脉络和主干。

我们做了很多年数据中心,电是我们最宝贵的资源,包括产业等,基本上绕不开这几个。比如1万的挂电,不会选择10个一千的变压器,这样数量太多,颗粒度是里面最核心的东西,不会选择太多的变压器和太大的变压器,可能你没有选。基本上都有最佳,比较合适的颗粒度,根据颗粒度梳理,基本上就有模型,拿模型套数据中心,基本上八九不离十,偏差不会太大。2N的架构,前面的模型有两个外电过来,有两个中央模块,8-10个变压器的低压模块,基本上对应3、4个房间,类似于这样的架构。如果你不愿意去做2N设计,N+1设计也是类似,不管是低压的方式还是别的方式,基本上都是类似这样的模型。这是我们从基础设施层面看。

数据中心再往下,它也有比较合适的颗粒度,里面涉及空调能力或者不管是高压能力还是轴间距,包括承重、电池等,综合了很多东西,基本上也是类似这样往下推导,有类似比较好的模型。这个每家都不一样,我们以腾讯的微模块做参考案例,给大家做介绍。这样的模块,大概10多个柜子,能支撑几百台机器,能够做几个版本、几个模型,快速满足大多数业务的需求。做少量的版本,能够做不同功率的配置。在具体的情况下根据实际需要做相应的配置。加上智能化的管控系统和智能化的运维平台,能够把所有的数据和所有的东西能够拿上来,做相应的分析、相应的控制,这就是刚才说的数学和逻辑或者硬件+软件的思路。

通过复杂的数据中心可以变成很简单的产品,整个行业,这几年也看到了微模块的快速发展,把很复杂的数据中心变成买一台设备一样,即插即用,很好的解决了很多中小用户和大用户的应用需求,这都是很老的数据。过去几年,大家知道微模块还是很契合这些数据的快速发展。如果有需求过来,我直接在里面先部署几个模块来满足部分业务需求,如果有更多的需求,可以在这个基础上继续copy,产品化,不断的建设就好了。像刚刚说的,可能简单装点水果,不用做太复杂的装修、保温、桥架各种各样的东西,就简单的地面就好。所有的部件,不管是空调还是机柜还是电池,通过电梯快速到达现场,快速拼装、组装,快速组建模块。建好之后再简单的测试,它就是标准化的工期,测试标准化,建设也是标准化,快速的建设,快速投产,快速实现上架、实现应用。也可以根据需要,先建一部分,再建一部分。你可以节省投资,也很好的经济性和效率。这是从大园区到服务器的模型架构的梳理。

目前走到微模块的阶段,继续往下走,数据中心比较重的东西还是基础设施风和水电这块,比如说外电、建筑、空调、水暖等,还是很复杂的东西。我们需要继续往前走,把非常重、非常复杂的东西进一步实现标准化、产品化、模块化。我们经历过从微模块到现在,从房间里面的微模块走到基础设施层面这样的方向,比如这里面最核心的就是刚才说的左上角的IT模块,中间是我们的配电模块。刚才说了,其实变压器和自主配电也是非常标准,颗粒度上来讲就是这样的8-10的变压器,8-10个低压模块。把空调,非常复杂的冷冻水系统尽量产品化,变成空调的HU模块。这中间是我们最小颗粒度单元,比如有空调、IT、配电,从原来的微模块继续走到数据中心、基础设施这块,搭积木这样子。几个微模块快速搭建房间,几个房间可以快速搭建数据中心,基本上类似这样。非常关键的是把原来数据中心从非常创新的东西变成非常并行的东西。原来数据中心从拿地到建楼,建楼之后做基建相应的设计,设计完之后做招标,采购设备,现场施工,调试,从头到尾,基本上3、4年时间。现在新的模式下,让我们的建筑和机电和产品做相应的结合。建楼的时候生产机电,并行开展,楼建好,机电生产好,就可以现场快速拼接,快速实现数据中心的建设。从原来的几年时间缩短到一年甚至更短的时间都是有可能的,这是非常契合海量、大规模、高效率、低成本,快速建设相应的需求。

逻辑、监控和控制部分,我们有类似前面的思路。从服务器开始讲,讲到机柜、机房和园区,看到一台服务器数据,从轻载到重载波动还是很大的,到2倍以上。靠我们的机柜层面,比如双十一或者抢红包或者大功率计算挖掘,业务功能其实很大。到上面走到通道就少很多,一台服务器可能标2倍,一个机柜到40%、50%,到通道层面就只会标10%-20%,房间级只有10%,数据中心级可能只有百分之几这样子。通过数发现什么问题呢?设计院或者负责运营的同事都担心,安全是第一位的,每个人担心业务飞飙起来会把我们拉垮。整个数据中心都是按照极限分子来考虑设计的,可能从机柜层面的分子和通道层面来考虑,导致我们的投入很高,实际上利用率、负载率很低。这是目前行业普遍的问题。今天很多数据中心的负载率、应用率定位很低,大家缺机柜就大量建设。前期投资很大,产出又比较小。这是我们目前看到的相应问题。

我们也要把数据拿出来之后,我们要分析数据的构成,先抓数据,分析数据,比如我们去看能耗分布在哪里,IT有多少能耗,冷机用多少能耗,配电用多少能耗,只有拿数据再分析数据,进一步做各种各样的控制,才能实现让真正数据中心真正的最佳实践。从硬件、模型选择到软件精准的控制,才能让容量管理和利用率,包括所有的节能等东西,这是我们整个IC能实现非常精准、非常高效,非常极致这样的非常重要的基础。这是我们行业非常经典的案例。这样典型的数据中心是不断优化的过程,数据拿上来分析数字,不断脱敏、不断调优,看到它不断的优化、不断降低。纵坐标可以看到,是季节性非常强的波动曲线。夏季的时候开一下冷机,不需要的时候把冷机关掉,尽量减少电费等。这就是我们认为很好的案例。甚至在一天里面,下一次雨、起一场风,IDC也可以根据外部环境温度做动态调整。我们不幸的看到,大多数的IDC从冬天到夏天,一年到头基本上都是在1.7、1.8,高高的一条水平线,这是很不好的数据。大家说这两年建设压力很大,一直建设,实际上把我们现有的数据中心怎么用好,怎么调到最优,怎么挖潜,怎么实现最佳的优化,这也是非常重要的工作。通过大量数据的分析,通过大量的实践经验和所有管控的深度,甚至可以像Google做机器学习,把这些预测判断,把所有的东西能够做到更极致。

底下这几句话,Google数据中心最佳实践:1、测量PUE,每个人都可以做。2、管理气流组织。3、调节水温和送风温度。4、利用免费自然冷。5、减少配电及转换的损耗。很简单,基本上都是耳熟能详的,也不高大上,也很low,我们也这样做。我们的数据和他们的数据差别还是蛮大的,1.1级和1级,大道至简。数据中心真的蛮简单的,或者我们认为是几个变压器、几个模型一套,加上简单相应的优化,整个隔离,水温调一调,很简单。这里面市场的差距还是很大,我们看到典型的行业在1.7、1.8,离国外先进的1.1、1.2还是有很大的差距。还是像刚才说的,道理很简单,但是后面的功力、后面的差别还是蛮大的,像我今天说的,怎么实现最佳实践,怎么实现数学逻辑,最好的体现、最好的搭建,这是很关键的两个概念。

我们简单分享一下我们做数据的tips,前面介绍了我们怎么通过方法论和最佳实践让数据中心更为标准、更微模块、更为产品,标准化的建设。实现快速、高效,包括智能化运维,实现很好的经济性和投资性,这是我们做的相应工作。通过刚才说的从服务器级到园区级,不同灰度下的抓数据,再分析,再跑空,对整个建设,包括相应的运营、安全都有很好的相应应用。

两个方式:一是开源节流,一个方式是捕捉。比如节流,刚才说每个人都按分子考虑设计,投资很大,系统很大。怎么办?我们根据我们不同的负荷波动特性做相应的分析,机柜层面可能会掉50%,机柜层面末端做大,把开关做大。这个东西花不了多少钱,但是大家的弹性、灵活性,比如四千瓦到六千瓦到八千瓦,足够的灵活性,这个对你有帮助。然后在通道层面,有可能小部分机柜都是放一个业务,这个业务可能会标准很高。在房间级,我们认为一个房间几百个柜子的规模,并不会每个柜子都跑到峰值。这时候房间级有机会做相应的系数。比如你可以产出更多的机会,可以减少UPS的投资那样子,甚至在数据中心级别按0.8来选取。这对你冷机和产出机柜数等是很大的收益。数据中心对你可用的东西是IT机柜,怎么让IT产出,比如1万个外电,传统产出5M,现在产出6M、7M,这对你产生的收益是很大的。开源,比如我们已经建好了,木已成舟,怎么办?你的负载率这么高,可以相应的挖潜扩容,这部分挖潜扩容更多的是挖潜末端的机柜和PDU,你的冷机和投资和财务融资,你只需要发标准机柜的价格,可以快速获得和标准机柜一样的机柜,这部分机柜对你来讲是很低的成本,很快就可以交付,你的负载率上升,成本分摊、POE等所有东西都对你是很大的好处。这部分对你来讲也有很大的收益。包括你去租机柜,机柜的租金也会蛮低的。

基础设施,刚才说的模型,基本上现在主流的产品,分布式、颗粒度更小、更灵活、效率更高,还有节能休眠的功能,从轻载到满载基本上都可以实现97%-98%的效率,效率是很高、很高,可靠性也是很好的平衡。可靠性,包括运维、效率,包括它的变电站投资、故障响应。比如UPS垮,整个楼垮,或者一层楼垮或者很多地方垮掉,但是分布式系统影响的只是一个小块,但是不同的行业不太一样。包括冷机,我们也不会定很大,大家今天选择1700、1500的冷机,这不是我们推荐的,因为很大的,一开起来就是五六百千瓦,我们可能倾向于选比较小的冷机。根据负载需要,一开始开启一台或者开启两台,按序开启,颗粒度会比较小,效率比较高,包括灵活性比较好。这样都是很好的兼顾到了,我们知道大多数数据中心的负载率很低,未来两三年负载率都不会太高,这里面怎么去平衡安全性,怎么平衡前期的效率等,这里面需要很多东西去兼顾、平衡。

通过刚刚说的模型和方法论,相应产品化的东西。在南方地区很容易实现1.4以下的PUE.我们现在做得比较好的数据中心,在深圳地区可以实现1.2 PUE,一年1.3,即便大家说的UPS架构,通过比较好的颗粒度和好的模型,实现1.4以下不是特别难的事情,即便是UPS,即便是冷机,1.4以下在南方广州、深圳地区是可以的,在北方地区甚至可以做到1.3,可以做到很低。Google做到1.2以下,Google在新加坡PUE是1.18,台湾也是类似这样的水平。它选择的冷机都是那几家,选择的设备和开关跟大家差不多。通过最佳实践,通过模型和相应的方法,应该是可以做到很极致,Google做了很多设备的定制,可以做到1.1级、1.2,大多数通用的场景,大多数是行业的用户,强烈的专业厂家。通过这些东西实现1.4以下没有什么大问题。做到更极致,做架构上的优化,做更精准的调整控制,甚至做到1.2以下,或者像刚才说的1.0,飘过机房都可以感受到,这是最理想的。

前面讲了绿色逻辑,现在电这块,碳排放,还有干净程度、绿色环保也是很重要的,我们也尝试光伏、风能,甚至于做三联供、绿色能源等相应的东西。在合适的地方还是不错的。我们也做了相应场景化技术往前走的工作,目前已经在做,很快应该就会发布,会有更多的案例出来。通过相应的东西也可以实现1.1,会有相应的数据。

基本上就和大家简单快速分享了相应的内容,今天准备得比较仓促,也是比较老的PPT、比较老的材料,简单分享。新的时代来临,今天有太多变化的东西,比如今天大型的海量的需求和发展,包括云时代,和最新的GDP的TPU等,各种各样的东西在快速变化,真的有点赶在风口,赶在大变革的时代。我们可以把我们的工作和大家做分享,欢迎大家有更好的东西一起来进行探讨和交流。谢谢大家!

赞(0)
声明:本站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,若涉及侵权请及时告知,将会在第一时间删除。本站原创内容未经允许不得转载:西数超哥博客 » 【2018亚太数据中心峰会】李典林:节能增效,提升数据中心产出率