资讯专栏INFORMATION COLUMN

五种令人沮丧的告警垃圾及处理办法!

mushang / 1912人阅读

摘要:在那些紧迫的告警中,找出需要立即处理的告警更则难上加难。是应用性能管理领军企业公司旗下产品,也是国内首个模式的云告警平台,集成国内外主流监控支撑系统,实现一个平台上集中处理所有事件,提升可靠性。

在 OneAlert,我们经常与运维团队聊天。因为产品开发过程中,这样的对话有助于了解客户的真正痛点。「告警垃圾」——监控系统中时常涌现的告警洪流,是运维团队经常提到的一大痛处。

至于其原因,虽然多种多样,但造成的后果都是一样的:信息超载。如果每天收到几十条甚至上百条告警提醒,你很难从中找出急需采取行动的紧迫告警。在那些紧迫的告警中,找出需要立即处理的告警更则难上加难。这种现象有个恰如其分的名字:告警疲劳

1.每台主机的告警

你看到的情况:服务器监控系统在同一时间发出5条紧急告警。

实际情况:你的缓存层由20台服务器组成。其中一台出现了新的配置错误,导致一系列的内存不足告警,每台主机都出现一条告警。

在理想世界中:你只会收到一条告警,告诉你25%的主机集群出现问题。而且,如果你当下正忙得不可开交,可以延后该告警的处理。理想情况下,告警阀值只在集群层或角色层设置。

2.重要!=紧急

你看到的情况:主机 X、Y、Z 出现磁盘空间不足警告。

实际情况:一切尽在意料之中。在正常运转了三个月之后,主机 X、Y、Z 存储的数据逐渐增多。或许你应该升级磁盘,或许你应该清理一些旧数据,但是,必须现在就处理么?在这夜阑人静的时候?

在理想世界中:除非磁盘使用量突然增多,否则就不是紧急事件。无需触发实时告警,只要每周一发送磁盘使用量报告,在其中列出磁盘空间不足的主机即可。如果能依照当前的使用速度,预测剩余的磁盘空间将在何时耗尽,就更好了。

3.非自适应性的阀值

你看到的情况:每个周一,午餐过后,都会出现大量的告警。

实际情况:你已经努力工作以优化配置 Nagios 监控的告警阀值。现在,它们不会每天无谓地发送告警。但是,一到流量特别大的某个工作日,还是会触发意料之中的告警。你怎么办?确认该告警,然后无视它。

在理想世界中:你的流量是有起伏规律的,监控系统能够掌握这种规律。如果每到下午1点负载就会增加,告警阀值也应该相应上升。告警只应在出现异常负载时触发,否则就是没有意义的告警。

4.同样的问题,不同的系统

你看到的情况:Nagios、Pingdom、NewRelic、KeyNote 还有 Splunk 在同一时间发出重要告警,与此同时,ZenDesk 上的客户投诉也不断增加。

实际情况:两个 Mongo 节点出现数据损坏,导致大量的磁盘 IO 以及事务错误。这类问题会波及服务器层,应用层以及用户层。因此,所有监控工具都会发出告警。

在理想世界中:你只会从最先捕获该问题的系统处收到一次告警,此后,任何因此而达到告警阀值的监控系统都会将其告警信息传给同一个「事件线程」。

5.瞬态告警

你看到的情况:每个人都会遇到这样的情况。同样的问题每隔几天就出现一次,持续时间不过几分钟,来得快去得也快。说实话,你已经忙得不可开交了,近期内也不大会去排除这种问题。

实际情况:可能是某个 cron 作业占用了过量的网络资源,又或是应用中某个 race-condition 导致了数据库死锁,也可能是某个不常用的功能导致了后端进程崩溃。

在理想世界中:你可以标记该问题,之后再去解决。这样,你只会在下个月再遇到该问题,并得到一份报告,显示了该问题通常的发生时间(当然还有相邻时间内容易发生的问题和与之相关的问题)。

你遇到了哪些告警垃圾?想不想与我们分享?请在文章下面的评论区留下你的反馈。

OneAlert 是应用性能管理领军企业 OneAPM 公司旗下产品,也是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 。
本文转自 OneAPM 官方博客

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/7938.html

相关文章

  • 如何把关联性告警智能添加到 Nagios 上?(2)

    摘要:告警关联唯一使监控和报警都步入正轨的好办法,就是通过告警关联。企业如果适应了告警关联,信息告警的图表盘上确实能减少很多压力。 上节回顾 对于许多 IT 和运维团队来说,Nagios 既是一个福音也是一个诅咒。一方面,Naigos 在 IT 应用的工作领域中,给予了你可以实时查看告警数据的可能性;但是另一方面,Nagios 也能够生成超级多的告警,对于任何一个运维人员或是运维团队来说都是...

    娣辩孩 评论0 收藏0
  • 对抗不可执行告警四种措施

    摘要:例如,把提示无效信用卡账号的告警替换为一个可执行的告警,比如指示用户支付成功率急剧下降的告警可能系统会做出较大的变化,需要回滚操作。因此,不断完善告警也是同样非常重要的,所以要养成定期浏览和删除不可执行告警的习惯。 对于运维团队而言,很多告警其实并不能帮助他们解决掉实际的问题,相反有时会加重多余的负担,这主要是因为大多数的告警并不具备足够的可执行性: 它们指出的问题压根儿不需要响应 ...

    zacklee 评论0 收藏0
  • Java 10 新特性解密,引入类型推断机制,2018 年 3 月 20 日发布

    摘要:目标发布目前有两个主要功能针对局部变量类型推断这将删除大部分对象实例化所需的冗长的包含手动类型信息整合源树的库即不同的库将被合并成一个单一的存储库。特别是,承诺为局部变量实例化引入类型推断机制,并将现有的存储库合并到一个存储库中。 JDK 10 何时发布? JDK 10 是 Java 10 标准版的部分实现,将于 2018 年 3 月 20 日发布,改进的关键点包括一个本地类型推断、一...

    caspar 评论0 收藏0
  • 自我怀疑开发者:你够好吗?

    摘要:你在想也许我不想成为一个开发者如果任何这些自我怀疑的想法,你听起来都很熟悉。搜索自我怀疑的开发者,你会在不到一秒钟内得到超过的结果。我和现在的你一样担心自己不够好。假如下一次你又被卡住了,别再浪费时间自我怀疑了。 showImg(https://segmentfault.com/img/remote/1460000012541497?w=900&h=500); 作者:Sihui Hua...

    qc1iu 评论0 收藏0
  • 2016,除了 DevOps,企业还应该知道 CMDB!

    摘要:是配置管理数据库的简称,存储与管理企业架构中设备的各种配置信息,它与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。运用数据科学和机器学期,实现告警压缩,抑制噪音。 CMDB 是 Configuration Management Database(配置管理数据库)的简称,CMDB 存储与管理企业 IT 架构中设备的各种配置...

    nodejh 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<