如何提升数据中心的可用性,已成为“高可用性IT服务”中的重要议题之一。作为保障数据中心可用性的第一道防线——“集中监控”可以快速帮助企业达成“高可用性”的目标。
监控管理对可用性管理的意义
根据ITIL的定义,所谓的“可用性”指的是:“一个配置项或IT服务根据需要履行协定职能的能力。可用性取决于可靠性、可维护性、可服务用性、性能和安全。可用性通常以百分比计算。这种计算通常基于协定服务时间和宕机时间”。高可用性IT管理是指:是指通过对IT架构及运维管理、基础设施及管理、灾备建设及运维、安全及管理等高可用性关键要素的改进与优化,提升IT系统的可用性,从而更好地保障业务持续运营和创新的过程。
在衡量可用性方面,具体又分为MTTR/MTBF/MTBSI等三个不同的指标(如下图)。从下图可见,无论是MTBSI还是MTTR,均有一个重要的组成部分——“Detect time(侦测时间)”。可见“能否通过有效的监控管理,及时、有效地发现数据中心中各管理对象的故障”,已构成数据中心高可用性一个充分条件。
▲
所以说,集中监控管理就像是高可用性管理的一双眼睛,有了它整个数据中心的组件情况才能一目了然,高可用性的目标才具备实现的管理基础。
监控管理对数据中心运营的作用
数据中心的管理对象主要包括基础设施与IT基础架构两大部分。其中基础设施包括供配电、UPS、空调、消防、安保、环境监测等机房系统;基础架构包括网络设备、主机设备、存储设备等IT设备。
集中监控的目标就是要能够通过管理与技术的应用,对基础设施与IT基础架构的运行情况进行监视,实现故障与异常的实时发现与通知;此外还可以通过对监控数据搜集与整理,为容量管理、事件管理、问题管理、符合性管理提供分析的基础,最终实现数据中心高可用性的目标。 [nextpage]
事件管理与可用性管理
随着技术的发展,有许多第三方监控工具开始出现,这些工具可以实现跨设备、跨平台、跨系统的集中数据采集,同时也能针对不同的监控对象设置相应的阀值,最终还可以实现统一的展现与告警。这些工具的出现,使得IT管理人员可以以一种更快速、更准确的方式发现被管理的组件所出现的故障。从而为故障的修复,以及服务的恢复争取了宝贵的时间,提升了整个基础架构的可用性。
容量管理
监控管理还会利用监控工具的性能采集功能,对一些关键应用的关键性能点进行监控,取得这些关键点的性能数据,用来评估IT系统的容量。当发现IT组件目前的性能与原来的容量计划存在偏差后,可以及时对这些组织的性能进行扩容,减少因性能不足而导致业务中断的可能性。
安全管理与符合性管理
监控管理可以利用目前的一些安全监控工具,去检查组件的安全情况与运行中对合规要求的符合情况。如GDS目前的一些合作伙伴,其利用一些安全软件,对防火墙、防病毒与入侵检查设备进行实时日志采集与安全分析,同时比对公司的安全策略或一些安全标准,帮助数据中心管理人员对目前数据中心运营中安全问题进行快速定位与问题分析。
监控管理面临的挑战
采集层的集中化
从目前市场上的工具来看,还没有哪个监控工具可以支持业界全线的IT产品,尤其是存储与光传输设备这一块。另外,不同客户对监控的深度也要求迥异,有些客户可能仅需要监控到网络、设备与系统层面,有些则需要对其数据库、中间件甚至是应用进行监控,这也为监控采集层的集中带来不少的难度。最后,不同客户对成本与安全要求的不同,进一步提升了监控工具在采集层集中的难度。
处理层的集中化
目前许多设备的监控往往只能反映出某一台设备的可用性,却不能完整的展现出整体的应用结构以及互相之间的影响关系,一旦一台核心的交换机发生故障后,管理员会发现,突然之间,满世界都是各种各样的告警,头昏眼花,疲于奔命,却不知道到底该如何解决。因此,如何能进行事件关联,协助管理员能从各个孤立的事件中迅速定位,这是对监控管理的另一项挑战。
展现层的集中化
随着监控内容的增加,目前数据中心运营人员面临的另外一个问题是如何能让监控室的人员可以在众多监控终端中迅速地发现系统报警,毕竟无法要求负责监控的人员7X24小时地盯着监控屏幕。所以监控终端的报警方式集中化,甚至是监控工具展现层的集中化就成为了监控管理目前所面临的一项挑战。
监控工具与管理的集中
监控管理的目的并不是监控工具本身,而是通过人工或技术的手段可以及时发现基础设施与基础架构上的问题,并按照既定的要求,将发现的问题按照既定管理流程与工具,调动相应的技术、管理人员介入,最终有效地解决数据中心中可能出现的事件、容量与可用性等问题。因此,如何让数据中心工作人员清楚在监控工具中报出问题后,应如何执行后续管理流程,避免错报、漏报,成为监控管理的一项重要挑战。 [nextpage]
监控管理发展的趋势
Ø 业务监控
数据中心提供的是信息服务,也可以说是业务服务,独立的对一台设备进行监控已经不能满足未来的需求。对于管理人员来说,更关心的是数据中心提供的一个业务、一个服务是否能够正常的运行,因此,未来的监控解决方案,需要更多的从业务及服务的层面出发,将独立的物理设备,与业务紧密关联,形成业务设备视图,每个设备的可用性,都能够反映到业务的可用性上。
Ø 虚拟化云监控
虚拟化是未来数据中心的趋势,但监控工具很难区分其监控的服务器是一台物理机,还是一台虚拟机,也不可能知道硬件系统会对服务器可用性存在潜在影响,而虚拟化平台的可用性直接影响到运行在其之上的虚拟服务器的可用性。监控软件处理的应该是主服务器硬件出现的问题,但是如果主服务器处于危险之中,那么任何在主机上运行的虚拟机也面临同样的问题,因此,虚拟化云环境的高可用性方案也会是未来的趋势之一。
Ø 影响分析模型
业务监控及虚拟化环境的基础在于不同的设备间能够建立清晰的管理,形成设备与设备的关系网,这就需要建立CMDB(配置管理数据库),它清晰的描述了每一台设备的信息属性,以及设备之间的关系。通过建立CMDB信息库,形成业务的影响模型,例如,以下是对一个在线交易系统进行影响建模:
▲
在这个交易系统的影响模型中,例如“存储”发生故障,直接反应出的是服务不可用,同时“在线交易系统”、“数据库服务器”、“在线交易系统”皆为不可用状态,根据被依赖关系进行分析,可以很直接的定位到故障原因,从而避免了逐个系统的进行故障分析。
小结
回顾监控管理发展的过程,其本身也是伴随着业务对IT的依赖程度以及IT本身的复杂程度的发展而发展。以前一个机房没几台设备,而且停机不停机不会带来什么影响,所以就可以安排几个工程师定期去做一些物理巡检就能解决问题了。
但是,几百台、上千台设备的数据中心已比比皆是,加上许多业务已经要求IT是7x24小时永不间断,如出现停机损失相当巨大。因此,监控管理已成为IT管理中的重要环节。加上虚拟化、云计算的落地,进一步加大了监控管理的复杂度。如何快速跟上IT技术的发展,同时利用业界各种新的监控技术,构建自身集中、准确、高效、低成本且稳定的监控体系,是提升企业高可用性IT管理能力的重要举措之一。