资讯专栏INFORMATION COLUMN

消息中间件故障分析一例

IT那活儿 / 1019人阅读
消息中间件故障分析一例

一、故障原因分析

2016年10月11日,程序在通过批量任务进行数据清理时,产生大量的delete操作(100多张表同时并行进行,且表上无索引),开始时代理软件的一个节点,达到了切换条件,在未检测从库的情况下,自动切换部分主从,导致主从数据混乱。后续其他代理软件节点也在未检测从库情况下进行自动切换。至此整个集群数据混乱。



二、故障造成的影响

故障发生后,影响面儿较大。


三、架构隐患

所有数据操作,都经过代理软件指向数据库。代理软件是否可靠,直接关系到后台数据一致性。请确认代理软件是否存在如下隐患:

1、代理软件故障切换时,如主库异常或主从延迟过大,切换是否可靠。

2、代理软件判断当前写操作位于主库还是从库,是否可靠;

3、代理软件高可用(主从同步和切换)是否可靠;

4、代理软件是否能动态加载其配置文件,如果部分配置项读取异常,该软件如何处理;

5、是否存在全局表,且代理软件是否能够满足其全局表存在数据完全一致;

6、代理软件是否可以跨片查询,数据查询是否存在异常 。


四、解决方案

(1)临时解决方案

a) 不允许自动切换主从,人工切换必须检查从库延迟;

b) 通过innobackupex恢复备库。

(2)后续整改建议

a) 主从切换时,必须先检查从库是否存在延迟(10s以内);

b) 定期优化TopSql;

c) 实时检测主从同步情况;

d) 建议拆分3套代理软件对应的底层数据库;

e) 增加数据库监控;


五、日常运维

主要通过完善告警及加强日常巡检来保障系统稳定运行。

(1)完善告警

日常监控主要从线程连接信息、查询性能相关信息、MySQL表、行信息、InnoDB相关信息、命中率、MySQL基本情况、从库延迟情况等共计8类监控项,涉及监控指标100余项。详细参考附件:

 

(2)日常巡检

通过对mysql运行状态以及系统本身的细致检查,发现mysql服务可能存在的问题,提高mysql的性能,减少非计划停机时间。

巡检工作的主要内容包括:

a) 主机以及操作系统运行情况检查

b) mysql的性能检查以及瓶颈分析

 


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/130243.html

相关文章

  • 深入消息间件选型分析

    摘要:是阿里开源的消息中间件,目前已经捐献个基金会,它是由语言开发的,具备高吞吐量高可用性适合大规模分布式系统应用等特点,经历过双的洗礼,实力不容小觑。 前言 消息队列中间件(简称消息中间件)是指利用高效可靠的消息传递机制进行与平台无关的数据交流,并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型,它可以在分布式环境下提供应用解耦、弹性伸缩、冗余存储、流量削峰、异步通信、数...

    shevy 评论0 收藏0
  • 实践解析:大众点评账号业务高可用进阶之路

    摘要:需要监控的维度有登录总数成功数失败分类用户地区版本号浏览器类型登录来源服务所在机房等等。 引言在任何一家互联网公司,不管其主营业务是什么,都会有一套自己的账号体系。账号既是公司所有业务发展留下的最宝贵资产,它可以用来衡量业务指标,例如日活、月活、留存等,同时也给不同业务线提供了大量潜在用户,业务可以基于账号来做用户画像,制定各自的发展路径。因此,账号服务的重要性不言而喻,同时美团业务飞速发展...

    Guakin_Huang 评论0 收藏0
  • 几十万人同时在线的直播间聊天,如何设计服务端架构?

    摘要:一个热门视频直播间人数可能达到几十万甚至上百万人,几十万人发消息,几十万人接收,流量相当惊人,那么服务端要如何设计才能保证系统流畅本文作者将结合他在网易云信多年开发的经验进行深度分析。网易云信至今已申请了余项专利,远超市场同类产品。 一个热门视频直播间人数可能达到几十万甚至上百万人,几十万人发消息,几十万人接收,流量相当惊人,那么服务端要如何设计才能保证系统流畅?本文作者将结合他在网易...

    Jeff 评论0 收藏0
  • 后端好书阅读与推荐(续三)

    摘要:后端好书阅读与推荐系列文章后端好书阅读与推荐后端好书阅读与推荐续后端好书阅读与推荐续二后端好书阅读与推荐续三这里依然记录一下每本书的亮点与自己读书心得和体会,分享并求拍砖。然后又请求封锁,当释放了上的封锁之后,系统又批准了的请求一直等待。 后端好书阅读与推荐系列文章:后端好书阅读与推荐后端好书阅读与推荐(续)后端好书阅读与推荐(续二)后端好书阅读与推荐(续三) 这里依然记录一下每本书的...

    lauren_liuling 评论0 收藏0
  • 后端好书阅读与推荐(续三)

    摘要:后端好书阅读与推荐系列文章后端好书阅读与推荐后端好书阅读与推荐续后端好书阅读与推荐续二后端好书阅读与推荐续三这里依然记录一下每本书的亮点与自己读书心得和体会,分享并求拍砖。然后又请求封锁,当释放了上的封锁之后,系统又批准了的请求一直等待。 后端好书阅读与推荐系列文章:后端好书阅读与推荐后端好书阅读与推荐(续)后端好书阅读与推荐(续二)后端好书阅读与推荐(续三) 这里依然记录一下每本书的...

    ckllj 评论0 收藏0
  • 后端好书阅读与推荐(续三)

    摘要:后端好书阅读与推荐系列文章后端好书阅读与推荐后端好书阅读与推荐续后端好书阅读与推荐续二后端好书阅读与推荐续三这里依然记录一下每本书的亮点与自己读书心得和体会,分享并求拍砖。然后又请求封锁,当释放了上的封锁之后,系统又批准了的请求一直等待。 后端好书阅读与推荐系列文章:后端好书阅读与推荐后端好书阅读与推荐(续)后端好书阅读与推荐(续二)后端好书阅读与推荐(续三) 这里依然记录一下每本书的...

    jcc 评论0 收藏0

发表评论

0条评论

IT那活儿

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<