全球公认的Tier标准将数据中心的可用性分为四个等级:
Tier I: 基本容量
Tier II: 冗余容量
Tier III: 可同时维护
Tier IV: 容错
目前国内存在一些对Tier标准错误、过时的认知,对业主和从业人员有着不同程度的误导。
在阅读本文之前,请所有从业者务必了解,Uptime Institute是关于Tier标准唯一的制定、解释及认证机构,Uptime Institute不会设计、建造和操作数据中心以确保中立,从而对数据中心的基础设施、操作和策略提供中立、客观、公正的评估。
以下关于Tier标准的理解误区案例,全部来自Uptime Institute官网内容,作者利用业余时间翻译整理出来,以供国内用户和同行学习参考,但最终仍以Uptime Institute官网的英文版本为准。
「理解1」Tier等级与组织业务没有关系
错。Tier从创立开始就是基于业务驱动而对其数据中心进行性能评估的基准体系。一个组织通过其业务对风险的容忍度来确定Tier等级。换句话说,一个公司的业务要求决定了其数据中心的Tier等级。如果不根据自身业务的特殊性确定基础设施的Tier等级,往往会发生滥用Tier等级和企业内部沟通的被短路等问题。
「理解2」Tier IV是最好的
错。一个企业组织对风险的容忍程度决定了Tier等级。Tier IV并非对所有组织都是最好的答案,当然Tier II也不是。业主应在明确自身的Tier等级之前做尽职调查,如果业务目标没有明确就来确定Tier等级,会造成不必要的投资。
Tier I和Tier II也是一种常见的战术方案,在以成本或速度为导向、不必关注生命周期成本和性能的业务需求中经常会采用。当一个组织的营业收入不需要依靠实时交付的产品和服务时,经常会采用Tier I或Tier II等级。一般来说,采用Tier I或Tier II的组织,是那些依照合约不必对系统可用性不足引起的损失负责的业务。
而选择Tier III和TierIV的数据中心,则是对系统不间断和长期可用有严格要求的业务。在一个Tier III的系统中,任何一个容量组件可以有计划地从系统中移除,而不会影响关键环境或IT进程。Tier IV则更加强悍,任何容量组件和分配路径可以容忍一次失效、错误或计划外事件,而不影响关键业务环境或IT进程。
因此,我们不能说Tier IV比TierII好,而是数据中心的性能和能力应与业务需求相匹配。否则要不就是过度投资,要不就是业务要冒更大的风险。
举个例子来说,在建造一个Tier II的数据中心前,要知道Tier II并不包含可同时维护的功能,业主应该清晰的知道自己的业务能否容忍一个计划内的、或与维修相关的停机,以及运维团队如何协调基于整个数据中心来进行停机维修。
因此,数据中心Tier等级应由其业务目标来确定。
「理解3」组件数量决定Tier等级
错。Tier认证是对数据中心具体基础设施的性能做评估,而不是一份检测清单或类似于食谱的指导手册。不幸的是,一些一知半解的人直接采用“N”来定义可用性,认为N是满足负载要求的最小组件数量,而只要并上更多的组件就提高了可用性,例如N+1,N+2,2N或者2(N+1)。但是,增加组件的数量并不能决定或保证获得更高的Tier等级。因为Tier也包含对分配路径和其它子系统要素的评估,而不仅仅是考虑“N”。举例来说,只用N+1的组件数量也可能达到Tier IV的等级。因此,Tier等级是依靠组件在冗余分配路径中的配置及连接方式来决定的,而不是单纯依靠设备的数量。
「理解4」做Tier认证,有设计认证就行了
错。Tier设计认证(TCDD)只是一个Tier等级认证的第一步。在TCDD时,Uptime Institute的专家对100%完成的设计图纸进行审查,确保每一个电力、暖通、监控和自动化子系统满足Tier基础概念,在整个系统链条上不存在任何弱点。设计认证可以认为是数据中心的一个里程碑,确认相应的设计已经达到的目标Tier等级,数据中心业主可以放心开始建设了。
设计认证(TCDD)将设计文档打包审查,目的是在数据中心得到建造认证(TCCF)之前做临时性的认可。Uptime Institute尚未对此数据中心的建设做审核,所以我们此时并不能说这个数据中心的建设达到了Tier等级。为强调这一点,Uptime Institute对设计认证设置了失效期。所有在2014年1月之后授予的Tier设计认证都将在两年之后过期。
在建造认证(TCCF)中,Uptime Institute的专家会做现场访问,找寻图纸和安装的设备是否有差异。专家还将现场观察测试和验证,证明系统可以达到Tier要求。原则上讲,建造认证才是Tier认证的根本,找到系统中真实存在的盲点和弱点。Uptime Institute的专家表示,几乎每一个做建造认证的数据中心都会与设计认证的图纸存在差异,以至于整个系统或部分子系统实际并无法达到Tier的要求。
最近,Uptime Institute设立了Tier运维认证(TierCertification of Operational Sustainability)来评估运维人员的操作和管理关键基础设施的能力。甚至在很多严格设计和建造的数据中心中,都因为缺乏成熟的综合管理和操作程序而发生了中断事故。因此,只有三个阶段都通过认证,数据中心的业主才能真正放心,确保他们的数据中心得到最大程度的保护。
「理解5」Tier等级可预测每年的停机时间(Downtime)
错。早在2009年,Uptime Institute就从Tier标准中去掉了相关“每年停机时间预测”的参考内容。但即使如此,停机时间Downtime也从来不是定义Tier等级的参数。在Tier Standard: Topology中规定,Tier可用性等级必须对应明确的系统功能结果,即明确的性能目标,例如:具有冗余容量、可同时维护(通常指系统在计划范围内,可以移除任何一个容量组件或分配组件而不影响IT系统运行)、或容错(通常指基础设施中发生一个计划外的错误而不影响IT系统运行)。但是,即使是一个Tier IV的数据中心,达到了容错的级别,也可能存在因操作和管理问题造成停机的概率。
现在是有数学统计工具可以预测失效频率和恢复时间。如果只考虑过去的正常工作时间与总时间的比值,“可用性”就是一个简单的算术问题了。认为找到一些数字、频率和中断持续时间等参数就会推导出所谓的“可用性”结果。但是,还是小心使用这种统计工具为妙。因为在这些数学统计工具中,一般都不会考虑人的行为影响。此外,我们用统计百年不遇飓风来举例:我们是可以得到一个模糊的飓风发生概率,但同样有可能一年发生多个百年不遇的飓风。
「理解6」Tier认证只适用于新建数据中心
错。Uptime Institute已经认证了很多已建成的数据中心。只是,在带载的情况下做建造认证的测试程序会比较有富有挑战性。对于一个已经建成的数据中心,最好不要上来直接做设计认证(TCDD),而是先从TGA(Tier GapAnalysis)开始。TGA 将对数据中心设计中的不足之处进行高标准的概括性审查。这会给业主提供足够的决策依据,是否继续进行详细、彻底的设计认证(TCDD)工作。建造认证(TCCF)是在不同的功率负载下进行性能测试,可以采用假负载或实际IT负载,或混合的方式。
「理解7」Tier标准只是美国用的标准
错。Uptime Institute已经在超过85个国家和地区交付了Tier认证。
并且,Tier标准允许多种方案和各种各样的配置方法,在设计、建造和运维上最大程度满足Tier性能需要与当地法规的匹配。时至今日,Tier标准还没有跟任何地区的建筑法规、立法章程、司法管辖权有冲突。
「理解8」TIA-942是Tier标准的具体指导文件
错。在2014年,Uptime Institute与美国通信协会(TIA)达成一致,双方开始明确区分各自的基准体系,以避免行业混淆、明确界定责任。也就是说,TIA关于数据中心的评估体系中已经不被允许再使用“Tier”这个术语。
Tier标准的核心目标在于为数据中心业主通过可用性指标来定义其所拥有的数据中心的性能水平。相比之下,TIA的会员单位专家则是专注在如何部署一个领先的通信网络。
「理解9」市电来源决定Tier等级
大错特错。依据Tier Standard: Topology白皮书,数据中心唯一可靠的电力来源是发电机组。原因在于市电电力往往受制于计划外的中断,即使在所谓电网可靠的地方。电力回路、变电站、电网的数量等关于市电对数据中心供电的参数,都不会决定和影响数据中心Tier等级。可以说,Tier标准根本不用考虑市电。大部分取得Tier认证的数据中心把市电作为主要电力来源的原因仅仅是因为市电的经济性,但是市电根本不会影响Tier等级目标。
「理解10」对于Tier III和Tier IV,发电机必须每时每刻都在运行
错。Tier标准并不需要发电机每时每刻都在运行。基于成本和管理原因,通常情况数据中心都是以市电作为主供电。但与此同时,发电机组必须正确配置、选型,确保发电机组可以无限制的承担关键负载。因为在Tier标准中,数据中心默认是由发电机组供电。为了达到Tier要求,必须谨慎配置发电机组的容量和配电路径。