资讯专栏INFORMATION COLUMN

中小企业 IT 运维福利:快速构建 on-call 机制

fobnn / 1889人阅读

摘要:避免手机网络不稳定引起的微信邮件移动不及时现象,基本上电话是不可抗拒的,除非关机。中小企业运维支撑同学就可构建一个团队,告警事件的处理会逐渐进入正轨,并有序处理。结束语这次新版本发布,已经实现两个中国领先通知渠道领先和接入监控平台领先。

大多 IT 运营支撑同学都有过深夜业务应用突然故障的经历,监控系统准确告警,但是白天筋疲力尽的运维同学在熟睡中,经常会遗漏告警提醒;往往是接到主管电话(用户投诉了)才处理。有什么办法解决该问题呢?大多人是这么做的:

建立7x24小时的一线值班团队,搞一个监控室,值班人员随时警备,负责告警响应和协调调度工作。一年至少花费:4人(2班)x15万/年=60万/年,也就土豪公司的可以搞搞,中小型公司肿么办?

我们部分赞同该思路:

建立7x24小时的 on-call 机制,随时响应解决,通过团队协作的机制来进行保障。

但在具体的方法和形式上,需要一个好的工具是可以支撑起7x24小时的 on-call 团队,重点之一是:

有效的告警通知,而且是通知必达(如主管电话)。

如何通知必达?

OneAlert 之前已经支持了微信、短信、邮件、移动APP、页面级提醒,新版4.1.2.0新增电话通知,再也不怕深夜故障啦。

这次优化包括2部分:

新增电话提醒,智能语音播报告警内容,即使是深夜,你也能够及时唤醒,第一时间处理故障。避免手机网络不稳定引起的微信、邮件、移动 APP 不及时现象,基本上电话是不可抗拒的,除非关机。当然如果关机的话(7x24不允许关机),OneAlert 的升级分派策略会同时通知其他同学。

阶梯式延迟提醒通知。告警事件过来后,多个渠道可以延迟的方式通知。如果在这个过程中有人响应该告警了,那么就没有必要进行后续的提醒通知了。例如同时通知给2名值班同学 A 和 B,其中同学 A 收到微信提醒后,确认(响应)该告警了,那么同学 B 就不会继续收电话通知了。

7x24 on-call

回到原先的话题,如何构建7x24 on-call 机制去及时响应故障。

将监控系统的告警接入到 OneAlert ,可参考云告警接入

将 on-call 团队成员加入告警分派中,可参考告警分派

每个人设置通知方式,特别是电话通知作为最后的杀手锏。

中小企业运维支撑同学就可构建一个 on-call 团队,告警事件的处理会逐渐进入正轨,并有序处理。

结束语

这次新版本发布, OneAlert 已经实现两个中国领先:通知渠道领先和接入监控平台领先。

OneAlert 作为中国领先的云告警平台,后续版本将在以下方面发展:

更多的国内外主流监控工具,以及主流 IT 协作工具。

更多的通知运营商和集成商,提升渠道可靠性。

免费注册

OneAlert 是北京蓝海讯通科技有限公司旗下产品,中国第一个 SaaS 模式的|2197d7e22a9e34172fc49eaedcfc14276|,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有IT事件,提升IT可靠性。想了解更多信息,请访问 OneAlert 官网 。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/7930.html

相关文章

  • 有效运维on-call 机制

    摘要:如何有效处理紧急事件驱动的工作,成为特别是运维主管运维工作的关键。通知到位和及时响应。机器学习领域是未来的重要发展方向,目前我们还在摸索中。机器学习告警合并事件单的处理如果告警量很大,告警后续处理和跟踪往往会依赖于外部团队部门外或公司外。 编者按]本文作者为陈伯龙,云告警平台[OneAlert创始人,著《云计算与OpenStack》,在IT运营管理、云计算方面从业10多年。 正文 互联...

    binaryTree 评论0 收藏0
  • 有效运维on-call 机制

    摘要:如何有效处理紧急事件驱动的工作,成为特别是运维主管运维工作的关键。通知到位和及时响应。机器学习领域是未来的重要发展方向,目前我们还在摸索中。机器学习告警合并事件单的处理如果告警量很大,告警后续处理和跟踪往往会依赖于外部团队部门外或公司外。 编者按]本文作者为陈伯龙,云告警平台[OneAlert创始人,著《云计算与OpenStack》,在IT运营管理、云计算方面从业10多年。 正文 互联...

    DirtyMind 评论0 收藏0
  • 云计算与 Cloud Native | 数人云CEO王璞@KVM分享实录

    摘要:分享实录云计算技术源于互联网公司,现在云计算已经是下一代企业级的发展趋势。如何做云计算一直是云计算技术的领导者。互联网公司的快速发展,已经印证了云计算技术和云原生应用相比传统构架的巨大优势。 今天小数又给大家带来一篇干货满满的分享——来自KVM社区线上群分享的实录,分享嘉宾是数人云CEO王璞,题目是《云计算与 Cloud Native》。这是数人云在KVM社区群分享的第一弹,之后还有数...

    _Zhao 评论0 收藏0
  • Docker企业级管理平台开放下载,免费使用

    摘要:云帮能解决什么问题新一代企业平台让开发人员轻松地开发部署和运维应用,让架构师和运营人员利用熟知和可靠技术打造一个受控的运行环境。有助于加速企业级应用服务于市场,实现内部资源的有效利用。 云帮是什么? 云帮 是一款基于容器技术的应用管理平台。社区版针对个人、企业完全免费,您可以自由的下载与传播,但需要遵循我们的社区版协议。 云帮从哪里来? 云帮是 北京好雨科技有限公司 结合容器技术整合的...

    sumory 评论0 收藏0
  • k8s与caas--容器云caas平台的落地实践

    摘要:容器云将支持应用的一键式部署交付,提供负载均衡,私有域名绑定,性能监控等应用生命周期管理服务。本容器云平台,对接持续集成发布系统。 前言 在移动互联网时代,新的技术需要新技术支持环境、新的软件交付流程和IT架构,从而实现架构平台化,交付持续化,业务服务化。容器将成为新一代应用的标准交付件,容器云将帮助企业用户构建研发流程和云平台基础设施。缩短应用向云端交付的周期,降低运营门槛。加速向互...

    h9911 评论0 收藏0

发表评论

0条评论

fobnn

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<