资讯专栏INFORMATION COLUMN

技本功丨智能监控,在袋鼠云日志运用中都经历了什么……

wums / 638人阅读

摘要:作者大鹏,袋鼠云日志团队后端开发工程师传统监控范围小,智能监控效率高,你说到底怎么用大鹏给你来支招传统监控是通过对监控项设置一个固定值阈值,当监控项指标超过这个阈值时就通知人们关注这个指标项。


作者:大鹏,袋鼠云日志团队后端开发工程师

传统监控范围小,智能监控效率高,你说到底怎么用?大鹏给你来支招~

传统监控是通过对监控项设置一个固定值(阈值),当监控项指标超过这个阈值时就通知人们关注这个指标项。传统监控一般适用于一定范围波动的业务指标:

比如磁盘的使用率,CPU的使用率等,当指标超过一定值时就意味着系统可能出现故障,但是遇到波动范围比较大的场景时;比如某银行的交易09:00~18:00之间交易量大,在其他时间交易量可能为0,工作日交易一般,非工作日交易剧增;比如某网站的点击量在白天很大,在深夜点击量可能为0,如果使用传统监控对上面的场景进行指标监控,往往不能很好的反映系统和业务的状态,产生很多误报的情况,增加人工成本,而且甚至会让人们对告警产生麻木,不信任感。

技术架构 

模型训练器:云日志以固定频率采集的业务指标形成时间序列,输送到模型训练器中,模型训练器有一系列的数学模型组成(可动态添加),每个模型都得到预测值,观察值与预测值之前存在的误差,对比误差我们将得到一个与业务最匹配的数学模型。利用这个训练出的最佳模型,输入未来时间点,得到预测值,绘制未来业务图。

异常检测器:训练的数学模型预测的值与实际的观察值存在一定的误差,这个残差系列输送到异常检测器中,异常检测器也是由一系列的数学模型组成(可动态添加),模型检查的误差点与业务的异常点最匹配的模型将作为异常检测模型,将后续检测出的异常点发送给预警系统。

时间序列建模 
采集的时间序列数据并非是散乱,毫无规律的一组数据,它往往伴随业务的变化而变化,有的具有很强的周期性规则,有的具有相对平滑的趋势,我们需要利用对应的数学模型来拟合,一下是我们常用的几种数学模型。

对不同特征的时间序列,不同的数学模型所计算出的误差也截然不同,我们从以下列表的指标来衡量这些数学模型的匹配度。

在经过以上指标衡量预测模型的优劣后,我得到最契合业务的拟合曲线,得到最佳的训练模型。然后输入未来时间点得到那个时间点的预测值,然后绘制出预测曲线。

异常检测

在预测出未来时间点的数据后,如何检测这个业务数据是否异常,我们也有对应的异常检测模型,如下表所示:

将残差指标用以上模型计算之后,与过去的业务异常点进行对比,选择最接近的异常检测模型,作为后续的异常检测,当模型检测数数据异常时,即时发送预警给巡检员,防患于未来。

云日志里说乾坤,日志分析真有用,监控告警样样行,爆炒产品来祭天。赶紧动手来参加吧~

大鹏讲堂,下次见~

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/35329.html

相关文章

  • 技本功丨智能监控袋鼠日志运用中都经历什么……

    摘要:作者大鹏,袋鼠云日志团队后端开发工程师传统监控范围小,智能监控效率高,你说到底怎么用大鹏给你来支招传统监控是通过对监控项设置一个固定值阈值,当监控项指标超过这个阈值时就通知人们关注这个指标项。 showImg(https://segmentfault.com/img/bVbkBNA);作者:大鹏,袋鼠云日志团队后端开发工程师 传统监控范围小,智能监控效率高,你说到底怎么用?大鹏给你来支...

    idisfkj 评论0 收藏0
  • 技本功丨请带上纸笔刷着看:解读MySQL执行计划的type列和extra列

    摘要:技本功愿做你成功路上的基石,赶紧来接收今日份的精神投食一解读执行计划的表示访问数据类型,有很多种访问类型。与上面相反,如果执行计划的某一步的是的话,表示这一步的关联列是非唯一索引。常见于在索引列上执行操作。表示语句执行过程中使用到了临时表。 本萌最近被一则新闻深受鼓舞,西工大硬核女学神白雨桐,获6所世界顶级大学博士录取通知书 showImg(https://segmentfault.c...

    Elle 评论0 收藏0
  • 技本功丨呀~我不会写CSS之vertical-align(上集)

    摘要:某日阅读世界,笔者的一段话鞭挞了我的灵魂。原文是这样的说到这里,我就忍不住多说两句。很多其实工作很多年的前端开发人员,也可能不知道的属性值支持数值,更不知道支持负值,这着实让我很意外。只显示文本的时候行高是。上集完敬请期待中下集 showImg(https://segmentfault.com/img/bVbmTbb?w=277&h=336); 某日阅读《CSS世界》,笔者的一段话鞭挞...

    tianlai 评论0 收藏0
  • 余额宝11.11:基于日志数据分析的高效运维

    摘要:接下来我们以余额宝为例,重点剖析天弘基金在日志数据分析领域是如何突破的此前,天弘基金一直使用开源的日志方案,研发和运维人员通过对日志数据进行处理,使用日志文件进行查询检索。 双十一刚刚结束,其实最紧张的不是商铺理货,也不是网友紧盯大促商品准备秒杀,而是网购幕后的运维人员,他们最担心:什么网络中断、应用卡顿、响应速度慢,服务器宕机……双十一作为电商 IT 部门的头等大事,大促前,运维人员就需要...

    wenshi11019 评论0 收藏0
  • 袋鼠数据中台专栏2.0 | 企业数据化认知:数据就是生产力!

    摘要:一数据就是生产力。笔者两年前在袋鼠云做的国内某省一个交警项目上,面对着海量的车辆轨迹数据时,第一次感受到什么是数据的力量。袋鼠云从成立之初便伴随着数十个行业头部客户,一起进行企业全面数据化转型建设。 一、数据就是生产力。笔者两年前在袋鼠云做的国内某省一个交警项目上,面对着海量的车辆轨迹数据时,第一次感受到什么是数据的力量。 该项目是一个非常典型的数据中台项目,主要数据资源有:省内机动车...

    zhangfaliang 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<