UGeek大咖说第一期 | 虎牙专场 【千万级并发可观测实践】
优维新栏目【UGeek大咖说】新春首期在热烈的欢呼声中落下帷幕,大咖说首期,我们邀请到来自虎牙直播的余万福老师,为我们分享虎牙可观测的建设及应用。以下是本期内容的文字节选,供大家回顾。

也有不少由于各种原因没观看到直播的粉丝
(后悔也要往前看 反正爱情不都这样!)
不过没关系 问题不大!
还有抓住爱情的最后机会(真的吗!)
错过的观众老爷们的福音!
小编每日内卷 吐血整理出本期直播回顾
精准简要提炼出讲师分享内容
别再留遗憾了 不然真的要等到下期了!
最后一次 走你
本次优维很荣幸邀请到【虎牙直播SRE负责人 余万福老师】来给大家讲解课程,专业背景,经验丰富,实力保障,带来【虎牙可观测系统建设及应用】的议题探讨。
技术结构:中心+边缘的部署架构,两地三中心离在线混布模式,采用镜像VM模式覆盖边缘并100%覆盖。
SRE团队:应用架构(业务与架构师团队)、监控平台(7x24h值班与研发团队)、平台研发(调用链与DevOps系统团队)、数据智能(数据分析与算法开发团队)。
质量:企业核心命脉,包含功能可用性(可不可用)与应用性能(好不好用)。
监控:数据承载平台,相当于我们的眼睛,深刻影响业务质量与用户留存。
目标:建设全面覆盖并具备关联分析决策能力的全景监控平台。
全景监控:点线面体系覆盖,应用承载关系纵向链路搭建(点),应用调用关系横向链路建设(线),组合流程进行AIOps舆情分析、异常检测、趋势预测(面)。
指标体系:业务→功能→应用→基础设施下钻,即黄金指标→拔测指标→应用指标→基础设施指标下钻。
指标详情:黄金指标(例如实时在线用户数)、功能指标(例如登陆成功率)、应用指标(例如延时)、资源指标(例如使用率)组成AIOps舆情检测能力。

全景监控大盘:全网质量、赛事模式、架构分层、黄金指标、用户旅程、应用数展示大盘。
元数据:画像标签呈现(上层辅助大盘),告警根因定位、指标离群分析、风险评估、混沌工程(质量),流量合理性分析(成本)。
架构自治:架构优化、异常发现、故障止损、根因定位、问题修复。
弹性算力:以终为始,目标为快准稳,对应速度、容量、质量,容器即服务的基础条件保障,智能弹缩,精细化运营。
余老师谈到:道阻且长,监控系统仍有很大的完善空间,未来仍需不断思考与补充。
最后余老师也给我们留了一个小问题,引发大家的思考:监控是我们的眼睛,暂时性失明该如何自保?
大家也可以多去想下哦,有思路才会有出路!
听完余老师的课件分享,大伙儿也是反响热烈,直播间评论区各种留言,与讲师进行了很久的互动交流。
余老师表示:都冲我来!全都Hold得住!
(既然热情抵挡不住,那就躺下享受吧!)
现在就让大家瞧一瞧问答实录!
Q-1:虎牙数据存储方案是怎么解决这么大量级的问题?
Q-2:AI HPA是基于什么技术做的?
Q-3:监控告警的高可用设计是怎么样的?
Q-4:虎牙是如何解决告警风暴的问题?
Q-5:虎牙无侵入式链路追踪是怎么做的?
Q-6:监控无状态化是指部署在K8s上吗?
Q-7:如果线路出现问题,那么如何保证用户和主播的服务正常持续提供?
Q-8:虎牙的黄金指标是如何定义的?
Q-9:虎牙现在Java开发的应用占比是多少?
Q-10:屏蔽切流会掉用户吗?
Q-10:屏蔽切流会掉用户吗?
Q-11:其他语言是不是都需要业务开发配合打桩,完成Tracing?
Q-12:有虎牙的监控部署工具介绍吗?工具很多整合困难。
Q-13:虎牙每天告警量大概多少,告警处理流程是怎样的?
Q-14:应用指标有哪些?除了交易量、成功率、响应率、响应耗时这几个黄金指标。
Q-16:阿里云主机上容器性能是否能满足?另外故障发现虎牙是怎么做的?
Q-17:监控工具太多,根因定位不够智能和快速,如何解决?
【UGeek大咖说】栏目已准备好了12期的全年盛宴
月月都精彩,期期都刺激
敬请持续关注
往期推荐:UGeek大咖说第二期【百度专场】