资讯专栏INFORMATION COLUMN

「技术大牛」是如何缩短事件平均解决时间的?

KavenFan / 2811人阅读

摘要:总故障时间是关于告警事件数量与各告警事件时长的函数。一个月的告警数据显示平均响应时间为分钟平均解决时间为分钟。确定团队领导人此人将在解决故障期间带领团队工作。找到并解决问题事件解决时间大部分花在确定告警问题的过程中。

前不久,我们讨论了运维不容错过的 4个关键指标,其中平均解决时间(MTTR)被认为是衡量业务的最佳标准,随后也分析了「告警等级」对MTTR的重要性。

正确看待 MTTR

MTTR 为从故障发生到故障修复所经历的时间。总故障时间是关于告警事件数量与各告警事件时长的函数。经过仔细地探讨这两项因素及其优先级,结合具体情况,总结以下策略用来缩短MTTR:

1)加快工作速度 = 然并卵

如果想通过加快工作速度降低 MTTR,理论上是完美的,但是骨感的现实根本不按我们的剧本走!为了对 MTTR 进行持续的、可衡量的改进,应该对故障事件进行深入的调查,分析事件的复杂程度及重要程度,然后从人与系统的协作上,实现对流程进行优化。

2)检验告警响应时间

一旦事件发生,「MTTR」时钟便开始计时。通过调整通知流程,或许就能速战速决。下图为常见故障处理过程:

还不够直观?数据来说话。 OneAlert 一个月的告警数据显示:平均响应时间为 2.8 分钟;平均解决时间为 27 分钟。(不要问我为什么你们的响应时间要好几个小时!)

如果你的响应时间较长,建议检查一下团队值班响应机制,告警是否可有效传达给了正确的人?如果一线排版人员无响应,告警能否自动升级?升级时间阈值是多少?通过设定接近平均响应时间的适当期望值和目标,能确保所有成员尽快对告警作出响应。

3)建立故障解决流程

告警响应时间过长,说明告警响应机制存在问题,故需建立有效的故障解决流程,即需确保以下内容:

建立有效沟通协议——明确每个人的任务分工,确立有效沟通方式。以 OneAlert 为例,团队的沟通方式主要有 QQ 群聊、WeChat 聊天室、钉钉等。

确定团队领导人——此人将在解决故障期间带领团队工作。需要做好记录并合理安排工作。

做好记录——应当详细记录故障期间发生的一切。这些记录在你事后回顾之时将会非常有用。OneAlert 团队领导人还会定期总结告警事件。

熟能生巧——确保团队中每一个人都不是告警响应的新手。

4)找到并解决问题

事件解决时间大部分花在确定告警问题的过程中。所以,如何更快的明确问题的关键,是目前各大监控工具抢占市场的核心武器。但是未来可以肯定的是,找到问题还不够,自动化处理才是发展的出路。这部分内容将在后期的文章中深入探讨。

OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。

本文转自 OneAPM 官方博客

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/7963.html

相关文章

  • vivo统一告警平台设计与实践

    摘要:告警当一个问题通过告警系统将消息以短信电话邮件等方式告知给用户时,我们称之为一条告警。图统一告警系统结构图告警收敛对于告警平台每天会产生数以万计的告警,这些告警对于运维或开发人员都需要去分析甄别优先级并处理故障。 一、背景一套监控系统检测和告警是密不可分的,检测用来发现异常,告警用来将问题信息发送给相应的人。v...

    Rocko 评论0 收藏0
  • 架构师必备技能:阿里大牛教你画出一张合格技术架构图

    摘要:术作者三画,阿里巴巴技术专家,梓敬鹏升和余乐对此文亦有贡献。接下来,阿里巴巴技术专家三画,将分享自己和团队在画好架构图方面的理念和经验,希望对你有所帮助。架构是结构和愿景。架构图的作用一图胜千言。 showImg(https://segmentfault.com/img/bVbrpzm?w=1000&h=739);术 作者 | 三画,阿里巴巴技术专家,梓敬、鹏升和余乐对此文亦有贡献。...

    jokester 评论0 收藏0
  • 区块链共识算法

    摘要:没有哪种共识机制是完美的,各共识机制都有其优缺点,有些共识机制就是为了解决一些特定问题而生区块链中的共识算法分为验证池,工作证明。网络延迟有可能使某些代表没能及时广播他们的区块,而这将导致区块链分叉。 没有哪种共识机制是完美的,各共识机制都有其优缺点,有些共识机制就是为了解决一些特定问题而生 区块链中的共识算法分为:POW、POS、DPOS、PBFT、POOL验证池 1、POW:Pro...

    Jrain 评论0 收藏0
  • 对抗告警疲劳8种方法

    摘要:编者按本文作者为,主要介绍告警疲劳的产生原因与对抗告警疲劳的种方法。告警疲劳不仅会影响团队成员的工作情绪,而且会阻碍软件交付链的成长。利用工具事件管理工具对抵抗告警疲劳大有帮助。 【编者按】本文作者为 Chris Riley,主要介绍告警疲劳的产生原因与对抗告警疲劳的8种方法。文章系国内 ITOM 管理平台 OneAPM 编译呈现。 各司其职、孤军作战非常不利于团队沟通,一旦发生重大事...

    Julylovin 评论0 收藏0
  • 如何学习小程序

    摘要:行胜于言,理论结合实践才是王道,所以本文我将基于前面的学习方法,分享我是如何学习微信小程序的。第二个目标则需要学习小程序的插件相关接口调用,以及蝉知建站系统这边的微信模块代码。 前段时间和大家一起分享了一篇关于学习方法内容《大牛与搬运工的差距——学习方法的力量》。我们将学习过程分成八步,并借鉴了敏捷开发的迭代思想,以达到自我迭代学习的效果。行胜于言,理论结合实践才是王道,所以本文我将基...

    XGBCCC 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<