优维全面可观测产品能力分解⑦:资源可观测

本文是《优维全面可观测产品能力分解》系列文章的最后一篇:资源可观测。
开始介绍之前,我们先来回顾一下前面推送的六大可观测能力:
第一篇:架构可观测,是从系统架构的视角来呈现链路与服务的状态数据。
第二篇:变更可观测,是从变更的角度看系统状态的变化,及与事件的关联关系。
第三篇:应用服务可观测,则深入服务链路的调用情况,基于Trace来做请求级链路追踪,实现服务的横向可观测。
第四篇:故障可观测,是故障发生时,能第一时间呈现故障的「故障根因」,而后能联动『应急处置』快速恢复。
第五篇:用户可观测,是通过主动拨测里面的「业务拨测」和「服务拨测」、「行业拨测」来完成监测。
第六篇:运维状态可观测,基于可观测的数据体系,实现于运维状态的一次深入可观测,包含可用性、性能、容量管理。
再回到本文的资源可观测,则呈现服务关联的中间件服务、基础设施等各个服务的运行状态,实现资源的纵向可观测。
1
过去,资源观测的阻碍
在用户落地优维产品过程中,我们发现客户在进行资源观测的时候,会存在以下问题:
高门槛
过去,客户在完成资源监控采集时,步骤多,且使用路径是分离的,需要跳转不同的菜单才能完成一系列的采集。因此,如此长配置路径会给资源观测带来一定的阻碍:
资源监控的采集配置和监控查看路径不明确
通用自定义采集和脚本调试易用性低
先前监控平台和CMDB平台使用强绑定,有些客户只用监控平台
以上种种问题,导致在做资源观测的时候,门槛会比较高,用户难以入门。
高成本
对于资源采集,从模型定义到资源发现,本身建设周期长,交付成本高。
而对于指标采集,Hub套件采集的成功率低,往往现场需要进一步调试采集脚本;其次先前监控套件的资源覆盖率低,且更新不及时。
鉴于以上两个采集环节,直接导致采集成本较高,需要耗费大量精力去做采集配置、采集调试以及采集验证。
那么,针对高门槛和高成本两大阻碍,优维开发的「资源可观测」如何来解决呢?
2
现在,资源可观测的优势
「资源可观测」是面向资源展开的基础监控能力,通过提供多维采集手段,可纳管一切IT资源,包含网路、硬件设备、中间件、业务应用等,并可对接zabbix、Prometheus。同时,与CMDB打通,遵循Onelnstanceld规则,融合配置数据和状态数据,让数据得到有效闭环。

>> 资源可观测核心目标
而资源可观测的核心目标,是希望能够实现用户自主接入、自主采集,免运维成本。具体从以下几个方面来实施:

基于OneModel的资源纳管
基于OneModel去做资源的自动纳管,并且把资源自动发现作为启动监控的一环,用户只需选择合适的方法,即可快速纳管到对应的资源。
内置监控套件,标准化采集
通过全面内置监控套件,实现资源的标准化采集。目前,已丰富拓展了60+内置套件,覆盖核心资源对象,后续还会持续丰富套件资源。
目前,覆盖的资源范围广,保证核心资源的全覆盖。
【云】私有云、腾讯云、阿里云
【服务域】数据库、逻辑、队列、接入、缓存
【资源域】网络、计算、存储、网络设备
【信创】宝兰德、TiDB、JBoss、BD2、HBase
【容器】Kubernetes、Docker
内置立体化、场景化的监控视图
通过全面内置监控视图,帮助用户摆脱通用视图的限制,从不同维度上展示监控数据;其次,深度消费资源依赖关系,支持资源下钻;同时,丰富了资源视图展示方式、展示数据。
以上,基于OneModel去做资源纳管,通过内置监控套件,实现标准化采集,再内置立体化、场景化的监控视图的能力,减少监控启用的使用成本,让用户使用路径更加明确。同时,确保能够覆盖多个资源域、多个云等,从而达到一键启用、免运费的目标。
>> 资源可观测核心功能
基于资源监控纳管、资源指标查看、资源指标管理三大基础场景,资源可观测支持【单资源排行】和【单资源详情】两大产品功能模块,具体能力表现如下:
单资源排行:单类资源的所有资源实例的列表。
1、查看资源实例的监控概况:
列表展示单个资源下的全量资源实例
能配置并查看资源视图,以便过滤所关注的资源实例
能配置并查看资源实例的核心属性和黄金指标
能通过资源名、与我相关、是否告警等条件搜索所需资源
2、能对比资源指标趋势变化:
能选中多个资源实例,并且下钻到对比页
对比页能指定多个指标,查看选中实例的指标趋势变化
单资源详情:单个资源实例的详情页面,能查看资源的dashboard看板。
1、能查看资源实例的仪表盘:
能查看单个资源实例的仪表盘的指标趋势
左上角能快速切换不同仪表盘,并能新建和管理仪表盘
能选中另一个资源实例进行两个实例的指标趋势对比
能与自身的1天前/7天前的指标数据进行趋势对比
随着业务不断发展,底层资源的规模随之增大,面对越来越多的基础资源,日常监控的效率成为了运维的一个瓶颈。「资源可观测」是优维为用户提高监控效率的一种观测手段和能力,助力用户自主纳管常用的基础设施、中间件等一切IT资源,并实现免运维。