金融行业| 精细化IT监控能力,降低运维故障风险
随着银行系统的分布式架构转型和上级监管要求的提高,故障的发现与处置需要更加及时和灵敏,对于监控来说, 就必须要提供更精细化、更全面的监控及分析能力,并具备实时的监控能力、快速的告警能力和故障分析能力,以满足重要交易系统早发现早处理的监控要求。
解决方案
建设银行的精细化IT监控能力,包括以下三个方面:
实时监控能力:具备全面覆盖的秒级指标监控能力,计算能力达到1秒级采集、一秒级计算,提供能够准确评价系统运行情况的指标体系(每秒交易量、成功率等),并能覆盖各种计算维度(子系统维度、AP维度 等),保证全面、快速地发现系统运行异常。
全面告警能力:通过通用与特色相结合的告警规则体系,达到覆盖各种情况的系统异常场景。制定标准化的通用告警ݓ餐,对普通交易运行情况进行监控,在此基础上,针对一些系统的交易特性,提供小样本类型交易累积告警规则、窗口累积类型的告警规则以及告警自适应升降级规则,以满足不同类型的系统对告警策略的个性化需求。
故障分析能力:基于已经采集的交易数据,提供了多种监控查找分析方式,如监控指标视图趋势图、单笔链路踪、根因辅助分析等。监控指标趋势图提供全维度多层级的查看能力,帮助用户在发生故障时迅速、小排查范围;单笔链路踪功能提供单笔交易的完整链路追踪能力,除了能查看系统间的调用关系,还能查看系统内的服务间调用关系,能够快速确定故障影响范围以及故障所在节点;根因辅助分析帮助用户迅速确定故障可能 发生的根源系统及根源对象,并辅助展示与根源系统有关的软件硬件等相关设备运行状态,以提升应急过程中的排查效率。
实践成果/收益
在提升了监控的精细化水平以后,目前监控系统已经成为建设银行故障发现及问题处置过程中必不可少的工具。
目前监控系统能够为各重要系统提供秒级监控能力,日数据处理能力达到TB级,指标计算时间控制在一秒内,可以更快地为用户提供各维度统计指标数据,并为可视化大屏展示中提供了有效的数据支持;提供多种类型的告警策略,支持不同类型系统的个性化告警定制策略,能够快速全面地识别出系统异常场景并通知用户,保障无漏告、少错告、高灵敏告警能力;提供强大的故障分析能力,包括单笔交易的链路追踪能力、监控指标各种视图展示能力及根因分析能力,在应急过程中提供有效的分析及故障定位功能, 极大的提高了日常应急效率,降低了故障根源定位所浪费的时间。
建设银行智能运维相关文章推荐:
建设银行打造智能运维新型数据中心
精细化IT监控能力,降低运维故障风险
动态告警定级,提升运维效率
IT智能业务分析 提升容量预测准确率达90%