资讯专栏INFORMATION COLUMN

Zabbix对Kafka topic积压数据监控的问题(bug优化)

3119555200 / 467人阅读

一   自动分区


1.1  优化前计算方式


寻找配置文件


vim consumer-groups.conf


写入配置文件


test-group|test


执行脚本


bash consumer-groups.sh discovery
{
"data": [
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
]
}


由上可知,我们只有test-group|test这一个自动发现配置文件是没有问题的。然后接入test-group|test1


1.2  未优化前计算方式


寻找配置文件


vim consumer-groups.conf


写入配置文件


test-group|test
test-group|test1


执行脚本


bash consumer-groups.sh discovery
{
"data": [
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
{ "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test2", "{#PARTITION}":"1" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test3", "{#PARTITION}":"2" }
]
}


执行完我们发现,上面这种种格式是不对的,会导致我们的监控项会出现问题


1.3  优化计算方式


寻找配置文件


vim consumer-groups.conf


写入配置文件


test-group|test
test-group|test1


执行脚本


bash consumer-groups.sh discovery
{
"data": [
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"1" },
{ "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"2" }
]
}


1.4  lag分区


优化后计算方式


# test-group test分区0 lag
bash consumer-groups.sh lag test-group test 0


# test-group test分区1 lag
bash consumer-groups.sh lag test-group test 1


# test-group test1分区0 lag
bash consumer-groups.sh lag test-group test1 0


我们与未优化的计算方式对比下


优化前计算方式


# 获取分区0 lag
bash consumer-groups.sh lag 0


# 获取分区1 lag
bash consumer-groups.sh lag 1


# 获取分区2 lag
bash consumer-groups.sh lag 2


# 获取分区3 lag
bash consumer-groups.sh lag 3


最终优化后脚本


vim consumer-groups.conf
test-group|test
test-group|test1
vim consumer-groups.sh
cal_topic() {
if [ $# -ne 2 ]; then
echo "parameter num error, 读取topic信息失败"
exit 1
else
/usr/local/kafka/bin/./kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2|grep -v none
fi
}
topic_discovery() {
printf "{\n"
printf "\t\"data\": [\n"
m=0
num=`cat /etc/zabbix/monitor_scripts/consumer-groups.conf|wc -l`
for line in `cat /etc/zabbix/monitor_scripts/consumer-groups.conf`
do
m=`expr $m + 1`
group=`echo ${line} | awk -F'|' '{print $1}'`
topic=`echo ${line} | awk -F'|' '{print $2}'`
cal_topic $group $topic > /tmp/consumer-group-tmp
count=`cat /tmp/consumer-group-tmp|wc -l`
n=0
while read line
do
n=`expr $n + 1`
if [ $n -eq $count ] && [ $m -eq $num ]; then
topicp=`echo $line | awk '{print $1}'`
partition=`echo $line | awk '{print $2}'`
printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n"
else
topicp=`echo $line | awk '{print $1}'`
partition=`echo $line | awk '{print $2}'`
printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n"
fi
done < /tmp/consumer-group-tmp
done
printf "\t]\n"
printf "}\n"
}
if [ $1 == "discovery" ]; then
topic_discovery
elif [ $1 == "lag" ];then
cal_topic $2 $3 > /tmp/consumer-group
cat /tmp/consumer-group |awk -v t=$3 -v p=$4 '{if($1==t && $2==p ){print $5}}'
else
echo "Usage: /data/scripts/consumer-group.sh discovery | lag"
fi
bash consumer-groups.sh discovery
## test-group test分区0 lag
bash consumer-groups.sh lag test-group test 0


二  Zabbix接入


2.1  Zabbix配置文件


vim userparameter_kafka.conf
UserParameter=topic_discovery,bash /data/scripts/consumer-groups.sh discovery
UserParameter=topic_log[*],bash /data/scripts/consumer-groups.sh lag "$1" "$2" "$3"


2.2  Zabbix


1.png


2.3  配置监控项


2.png


2.4  告警信息


告警主机:Kafka_192.168.3.55
主机IP:192.168.3.55
主机组:Kafka
告警时间:2022.03.21 00:23:10
告警等级:Average
告警信息:test-group/test/分区1:数据积压100
告警项目:topic_lag[test-group,test,1]



文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/127704.html

相关文章

  • Kafka消息系统基础知识索引

    摘要:一些观念的修正从版本开始,的标语已经从一个高吞吐量,分布式的消息系统改为一个分布式流平台。不仅用在吞吐量高的大数据场景,也可以用在有事务要求的业务系统上,但性能较低。消息系统的作用削峰用于承接超出业务系统处理能力的请求,使业务平稳运行。 我们在《360度测试:KAFKA会丢数据么?其高可用是否满足需求?》这篇文章中,详细说明了KAFKA是否适合用在业务系统中。但有些朋友,还不知道KAF...

    cgspine 评论0 收藏0
  • Kafka消息系统基础知识索引

    摘要:一些观念的修正从版本开始,的标语已经从一个高吞吐量,分布式的消息系统改为一个分布式流平台。不仅用在吞吐量高的大数据场景,也可以用在有事务要求的业务系统上,但性能较低。消息系统的作用削峰用于承接超出业务系统处理能力的请求,使业务平稳运行。 我们在《360度测试:KAFKA会丢数据么?其高可用是否满足需求?》这篇文章中,详细说明了KAFKA是否适合用在业务系统中。但有些朋友,还不知道KAF...

    tomlingtm 评论0 收藏0
  • Kafka消息系统基础知识索引

    摘要:一些观念的修正从版本开始,的标语已经从一个高吞吐量,分布式的消息系统改为一个分布式流平台。不仅用在吞吐量高的大数据场景,也可以用在有事务要求的业务系统上,但性能较低。消息系统的作用削峰用于承接超出业务系统处理能力的请求,使业务平稳运行。 我们在《360度测试:KAFKA会丢数据么?其高可用是否满足需求?》这篇文章中,详细说明了KAFKA是否适合用在业务系统中。但有些朋友,还不知道KAF...

    Lycheeee 评论0 收藏0
  • 高级开发人员必备技术:MQ

    摘要:消息被发送到队列中。消息队列管理器在将消息从它的源中继到它的目标时充当中间人。队列的主要目的是提供路由并保证消息的传递如果发送消息时接收者不可用,消息队列会保留消息,直到可以成功地传递它。社区活跃度比较高,开源,有问题可以在社区寻求帮助。 也许在你们公司从没有使用过MQ,也不知道这东西是用来干什么的,但是一旦你进入大公司你就会发现,这东西处处可见。今天就来说说MQ方面的东西,我公众号有...

    alphahans 评论0 收藏0
  • ELK初体验-Nginx日志实时分析

    摘要:也就是说它能被查询,但不能被取回显示。自定义路由值可以确保所有相关文档比如用户的文章按照用户账号路由就可以实现属于同一用户的文档被保存在同一分片上。分片与副本交互新建索引和删除请求都是写操作,它们必须在主分片上成功完成 写在前面从初次了解elastic产品到正式投入使用,拖拖拉拉的也有小半年了,刚接触的时候看到一些帖子都是安装教程,后来看到一些都是深入教程,此篇文章较居中一点,总结了我...

    pumpkin9 评论0 收藏0

发表评论

0条评论

3119555200

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<