资讯专栏INFORMATION COLUMN

数据脱敏大数据架构设计

lavor / 3086人阅读

摘要:需求背景系统有数据识别数据脱敏逻辑,支持可配置规则,自定义等,需要进行异构数据同步,大数据量。可用性分析可用性表格分析场景影响降级原因某台数据同步下线无影响数据同步无状态,调度平台重连其他的数据同步服务。

需求背景
系统有数据识别、数据脱敏逻辑,支持可配置规则,自定义等,需要进行异构数据同步,大数据量。现在针对以下几个需求进行讲解

1、支持冗余设计
2、支持任务自动分发,支持自动负载均衡
3、支持随时扩容节点而无需关停原有的系统和业务

架构和模块 架构图

五核心模块及其主要功能

调度平台

使用Nginx方式来调用数据中心,通过注册中心获取数据中心的服务列表

可以合理的根据数据同步的情况,去调用服务;比如数据同步可能存在的顺序性,执行延时;

读取控制台DB的配置信息,定时执行数据同步任务

对数据同步的调用,可以按照简单的轮询方式,也可以根据数据同步服务器的性能情况,进行负载均衡

数据同步

负责执行数据库异构数据同步任务,可支持增量,全量模式,用DataX框架来实现

服务于调度平台的调用

会存储数据同步的执行结果,供控制台进行展示

会上报服务器的性能指标到数据同步DB,以供调度平台参考

控制台

配置管理界面,服务于用户进行数据同步任务的配置信息,并存储到控制台DB中;

数据识别

负责针对数据库的数据进行数据识别任务

数据脱敏

按照内置规则、自定义配置,负责脱敏数据

可提前进行数据脱敏,以供数据同步转换环节调用

三个辅助服务发现模块

注册中心

用于服务发现和注册

数据同步注册实例并定期报心跳

可以用zookeerper来实现

调度平台通过域名访问注册中心获取数据同步的地址列表

Nginx

和域名系统配合,协助调度平台访问注册中心获取数据同步地址列表

和域名系统配合,协助用户访问控制台进行配置管理

可用性分析

高可用通过Nginx、注册中心来实现,可以支持动态扩容。每个主要模块都是以无状态集群方式部署的,各自模块都可以通过注册中心来实现服务注册,模块之间的调用服务发现来获取,并以域名方式实现。

考虑到扩展,所以设想的方案是尽可能的做到每个服务职责单一。

这样的拆分,也是考量到每个环节的瓶颈都不一样,目前预估不是很精确,这样可以为后续扩展提供方便性。

数据脱敏、数据识别需要多带带独立出来,原因:本身的服务不在数据同步中,可能提前预处理进行。

通过集群部署方式,支持冗余设计。

调度平台、Nginx集群通过数据同步性能情况,实现任务自动分发,支持自动负载均衡。

可用性分析

可用性表格分析

场景 影响 降级 原因
某台数据同步下线 无影响 - 数据同步无状态,调度平台重连其他的数据同步服务。
所有数据同步下线 调度平台无法执行数据同步任务 控制台正常运行;调度平台把数据同步任务放入执行队列,等待执行 -
某个Nginx下线 无影响 - 多Nginx部署,数据完全同步,注册中心、控制台域名通过SLB自动切换到其他存活的Nginx
控制台DB宕机 调度中心无影响,控制台无法更新配置 调度平台开启配置缓存后,对配置的读取不受数据库宕机影响
某台数据识别、数据脱敏下线 无影响 - 数据识别、数据脱敏无状态,数据同步重连其他的数据识别、数据脱敏同步服务
全部数据识别、数据脱敏下线 无影响 - 数据同步可执行在线脱敏功能,会影响任务时长。
结论

数据同步、控制台、调度平台、数据识别、数据脱敏是数据脱敏的几大核心微服务模块,相互协作完成配置中心业务功能,Nginx、注册中心是辅助微服务之间进行服务发现的模块。

采用微服务架构设计,架构和部署(部署方式可以用容器思路来操作)都有一些复杂,但是每个服务职责单一,易于扩展。

文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/11990.html

相关文章

  • 守护客户数据价值:企业级NewSQL HTAP分布式云TBase架构详解

    摘要:用户友好的数据库特性主键,外键,序列,约束,分区表,存储过程,触发器,子查询等企业级的特性完整支持。处理存储本节点相关的元数据,每个节点还存储数据的一个分片。 欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 作者:jasonys,隶属于腾讯技术工程事业群数据平台部,负责TBase数据的技术研发和架构设计,有超过10年的数据库内核开发设计经验,完成多种数据库的架构设计和开发...

    liujs 评论0 收藏0
  • 余额宝11.11:基于日志数据分析的高效运维

    摘要:接下来我们以余额宝为例,重点剖析天弘基金在日志数据分析领域是如何突破的此前,天弘基金一直使用开源的日志方案,研发和运维人员通过对日志数据进行处理,使用日志文件进行查询检索。 双十一刚刚结束,其实最紧张的不是商铺理货,也不是网友紧盯大促商品准备秒杀,而是网购幕后的运维人员,他们最担心:什么网络中断、应用卡顿、响应速度慢,服务器宕机……双十一作为电商 IT 部门的头等大事,大促前,运维人员就需要...

    wenshi11019 评论0 收藏0
  • 国内首款自研公有云数据库安全服务亮相DTCC

    摘要:华为云数据库安全服务,简称,经过华为内部大规模实践和广泛邀请各行业企业试用后,已经在今年上线华为云。华为数据库安全服务能够更加全面的解决前文提到的敏感数据泄露的问题。5月12日,第九届中国数据库技术大会(DTCC2018)在北京落下帷幕,纵观三天的会议议程,当前全球主要的数据库例如Oracle,MySQL,SQL Server,PostgreSQL等纷纷亮相大会,来自国内外互联网、金融、教育...

    firim 评论0 收藏0
  • 深入解读:获Forrester数据能力高评价的阿里云DataWorks思路与能力

    摘要:阿里云成为唯一入选的中国产品。在阿里云的众多产品中,和共同构成了服务能力的核心。作为大数据能力赋能的重要手段,出现在了等阿里云专有云解决方案中。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。 1.前言 本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13,...

    ashe 评论0 收藏0
  • 深入解读:获Forrester数据能力高评价的阿里云DataWorks思路与能力

    摘要:阿里云成为唯一入选的中国产品。在阿里云的众多产品中,和共同构成了服务能力的核心。作为大数据能力赋能的重要手段,出现在了等阿里云专有云解决方案中。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。 1.前言 本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13,...

    caoym 评论0 收藏0

发表评论

0条评论

最新活动
阅读需要支付1元查看
<