资讯专栏INFORMATION COLUMN

私有灾备云解决方案

youkede / 1218人阅读

摘要:灾备服务支持本地灾备异地灾备公有云灾备两地三中心等多种服务方式,可根据业务特点和需求,灵活选择灾备方式,保证业务的和。公有云灾备架构公有云灾备服务支持多种业务部署方式,为云平台业务提供不同指标,控制云平台业务灾备成本。

UCloudStack 云平台通过分布式存储系统保证本地数据的安全性,同时通过远程数据备份服务,为用户提供远程数据备份和容灾备服务,可以将本地云端数据统一归档、备份至远程云平台,保证本地发生重大灾难时,可通过远端数据中心快速恢复业务。容灾方案需考虑两个核心的指标:

RTO(RecoveryTime Object): 恢复时间目标,指数据中心发生灾难后,应用系统从宕机到业务恢复所需的时间,即业务恢复的及时性体现,代表可以容忍业务最长恢复时间。RTO 值越小,代表需越快恢复业务,相对成本也较高;

RPO(Recovery Point Object):恢复点目标,指数据中心发生灾难后,灾备系统恢复的数据对应的时间点,即应用发生故障时,可以容忍的最大数据丢失量。RPO 值越小,代表数据越重要,需提高对数据备份的频率,相对成本也较高;

RTO 和 RPO 的标准与容灾方案的成本为线性关系,对于 RTO 和 RPO 的需求,需考虑业务系统本身特征及成本等方面因素,详见 信息安全技术信息系统灾难恢复规范。

UCloudStack 灾备服务支持本地灾备、异地灾备、公有云灾备、两地三中心等多种服务方式,可根据业务特点和需求,灵活选择灾备方式,保证业务的 RTO 和 RPO。

6.1 本地灾备UCloudStack 平台通过分布式存储系统、RAID5 及多副本机制,自动屏蔽软硬件故障,磁盘损坏和软件故障,系统自动检测到并自动进行副本数据备份和迁移,保证本地数据安全性。详见[分布式存储](#2.3.5 分布式存储)。同时平台支持将本地虚拟机、镜像、云硬盘、数据库等数据定时增量备份至对象存储服务。本地灾备架构如下图所示:


本地灾备架构


平台支持灵活的备份和恢复策略,可通过不同时间维度,全量或增量的方式备份数据,

当本地数据损坏或误删时,可将本地备份数据还原至平台,恢复业务数据及业务运行;

当本地数据中心发生灾难时,可通过异地灾备、公有云灾备等方式重建数据中心并恢复业务;

6.2 异地灾备服务UCloudStack 云平台在保证本地数据中心的业务数据安全的同时提供异地灾备服务,将云业务镜像及数据通过专线、SD-WAN、VPN 或互联网连接以增量的方式复制到异地对象存储服务,确保业务数据 RPO 指标。当本地数据中心发生灾难时,可快速通过异地数据恢复业务。


异地灾备架构


异地灾备服务支持多种业务部署方式,为云平台业务提供不同 RTO 指标,控制云平台业务灾备成本。

(1)RTO 指标高,业务恢复时间长,成本低

业务部署:在异地灾备中心仅部署对象存储服务,将本地数据中心云业务镜像、业务数据及数据库以全/增量的方式复制到对象存储服务中;

业务恢复:通过将异地灾备中心对象存储服务的备份数据还原至本地,在本地恢复云业务及数据,重建本地数据中心;

(2)RTO 指标低,业务恢复时间长,成本高

业务部署:所有业务应用、数据库、负载均衡分别部署在本地数据中心和异地灾备中心;

本地数据中心为 Active 模式,异地灾备中心为 Cold Standby 模式;

负载均衡:每个业务的负载均衡实例均在灾备中心各部署一套;

虚拟机:针对业务对 RTO 不同需求,灾备中心可部署相同配置或降级配置的虚拟机;

对于 RTO 要求较高的应用,在灾备中心需部署与生产中心相同配置的虚拟机,用于满足业务切换时,可快速恢复业务,并保证业务运行环境的性能;

对于 RTO 要求较低的应用,在灾备中心可部署降级配置的虚拟机,以节省资源和成本;

数据库:针对每个业务在灾备中心部署一套相同的数据库服务,灾备中心数据库均为只读模式,两地数据库采用异步方式进行数据复制;

存储:灾备中心部署对象存储服务,灾备中心数据库直接连接对象存储进行数据读写;

智能 DNS :通过智能 DNS 服务,将业务域名 A 记录配置为本地数据中心 LB 的 IP 地址;

数据复制:针对业务对 RPO 的不同需求,两个数据中心采用多种网络互联;

数据库服务将数据通过异步方式复制到灾备中心对象存储服务;

虚拟机镜像、业务数据、文件数据以全/增量的方式,从本地数据中心复制到灾备中心对象存储;

业务恢复:当本地数据中心发生灾难或需要业务切换时,修改业务域名 A 记录和数据库状态;

通过智能 DNS 将业务域名 A 记录手动修改为灾备中心业务 LB 的 IP 地址,实现故障切换和业务恢复;

将灾备中心业务应用数据库服务修改为读写状态,业务应用数据库直接读写对象存储中的数据;

异地灾备中心与本地数据中心网络互联方式,会影响业务数据备份的频率和完整性;由于异地网络延时的影响,不建议两地数据中心均为 Active 模式。

6.3 公有云灾备服务UCloudStack 云平台提供本地数据中心到公有云平台的灾备服务,将云业务镜像及数据通过专线、SD-WAN、VPN 或互联网连接以增量的方式复制到第三方公有云平台对象存储服务,确保业务数据 RPO 指标。当本地数据中心发生灾难时,可快速在公有云上恢复业务,同时也可将公有云上的业务数据备份还原至本地,重新本地数据中心。


公有云灾备架构


公有云灾备服务支持多种业务部署方式,为云平台业务提供不同 RTO 指标,控制云平台业务灾备成本。

(1)RTO 指标高,业务恢复时间长,成本低

业务部署:在公有云平台仅申请对象存储服务,将本地数据中心云业务镜像、业务数据及数据库以全/增量的方式复制到对象存储服务中;

业务恢复

通过将公有云对象存储服务的备份数据还原至本地,在本地恢复业务,重新本地数据中心;

使用对象存储备份数据,在公有云平台直接部署业务云主机、负载均衡、数据库等服务,恢复业务;

(2)RTO 指标低,业务恢复时间长,成本高

业务部署:所有业务应用、数据库、负载均衡分别部署在本地数据中心和公有云平台;

本地数据中心为 Active 模式,公有云平台为 Cold Standby 模式;

负载均衡:每个需要负载均衡的业务均在公有云申请一个负载均衡实例,并将业务云主机加入后端;

云主机:针对业务对 RTO 不同需求,公有云可部署与本地数据中心相同或降级配置的云主机;

对于 RTO 要求较高的应用,公有云需部署与生产中心相同配置的云主机,用于满足业务切换时,可快速恢复业务,并保证业务运行环境的性能;

对于 RTO 要求较低的应用,公有云可部署降级配置的云主机,以节省资源和成本;

数据库服务:针对每个业务在公有云平台部署一套相同的数据库服务,云平台数据库服务均为只读模式,两地数据库采用异步方式进行数据复制;

对象存储服务:公有云平台部署对象存储服务,公有云平台业务应用数据库直连对象存储进行数据读写;

智能 DNS :通过智能 DNS 服务,将业务域名 A 记录配置为本地数据中心 LB 的 IP 地址;

数据复制:针对业务对 RPO 的不同需求,本地数据中心和公有云平台间采用多种网络互联;

数据库服务将数据通过异步方式复制到公有云平台对象存储服务;

虚拟机镜像、业务数据、文件数据以全/增量的方式,从本地数据中心复制到公有云平台对象存储服务;

业务恢复:当本地数据中心发生灾难或需要业务切换时,修改业务域名 A 记录和数据库状态;

通过智能 DNS 将业务域名 A 记录手动修改为公有云平台业务 LB 的 IP 地址,实现故障切换和业务恢复;

将公有云平台业务应用数据库服务修改为读写状态,业务应用数据库直接读写对象存储中的数据;

异地灾备中心与公有云平台网络互联方式,会影响业务数据备份的频率和完整性;由于网络延时的影响,不建议公有云平台业务为 Active 模式。

6.4 两地三中心灾备服务两地三中心指同城双中心加异地灾备的容灾解决方案,兼具高可用性和灾难备份的能力。两地指同城和异地;三中心指本地数据中心、同城灾备中心、异地灾备中心。同城双中心具备基本等同的业务处理能力并通过高速链路实时同步数据,通常同时分担业务运行和业务访问,并可进行切换运行;异地灾备中心用于同城双中心的数据备份。

UCloudStack 云平台提供两地三中心灾备服务,支持在同城双活数据中心基础上,增加一个异地灾备中心,并与同城双活实现同步;当同城双中心均发生自然灾害等原因发生故障时,异地灾备中心可以实现数据恢复,进一步提高业务 RTO 及 RPO 指标。


两地三中心


UCloudStack 云平台将同城双中心分别作为一个区域(Region)的两个可用区(Availability Zone),即生产可用区和同城灾备可用区。两个可用区间距离为 30 公里左右,使用 DWDM 通道将两个可用区内网直接互连,具备二层网络打通和网络负载均衡条件,满足同城双活网络时延小于 2ms 。

6.4.1 业务部署两地三中心灾备模式下,同城双中心在一个网络中,为达到双活高可用的目标,业务部署区别于异地灾备服务。同城双中心部署由 UCloudStack 提供多可用区负载均衡、数据库提供跨可用区高可用;异地灾备中心部署根据业务对 RPO 需求部署云服务。

同城双中心(ACtive-Active)

生产可用区和同城灾备区均为 Active 模式,同城双中心均接受并处理业务访问;

负载均衡:

UCloudStack 负载均衡采用集群架构,基于跨可用区分布式部署,利用 BGP+ECMP 实现集群自动容灾,保证业务可用区级别灾难的 RTO 指标;

在同城 Region 中部署的负载均衡服务实例,会分别分布在生产可用区和灾备可用区中,保证服务可靠性;支持将同城双中心的所有云主机作为后端服务器,达到同城双活的目标;

针对每个需要负载均衡的业务,同城双中心仅需在生产中心申请 1 个负载均衡服务实例,UCloudStack 平台自动会在同城灾备中心部署一个负载均衡服务实例,用于同城负载均衡灾备;

将同城双中心的同一个业务的虚拟机均加入至生产中心的负载均衡实例后端,请求会被分别负载到同城双中心的业务虚拟机上,实现同城双活请求入口;

通常业务请求会通过生产中心负载均衡服务实例进行负载转发,同城灾备中心仅在生产中心发生灾难时进行自动切换;

虚拟机:针对每种业务分别在同城双中心部署一定数量的虚拟机和数据盘,如生产中心 4 台,同城灾备中心 2 台,并将 6 台虚拟机均加入到一个负载均衡服务实例后端;

数据库:

UCloudStack 数据库服务提供容灾方案,支持跨可用区高可用实例,可基于多可用区进行容灾实例部署;

针对每种业务在生产中心部署一套数据库服务,系统将自动在同城灾备中心部署一套相同的数据库实例;

同城双中心数据库通过半同步的方式进行数据同步,应用访问同一数据库实例,数据在生产可用区和同城灾备可用区各存储一份;

也可在业务级别将同城双中心的数据库进行读写分离,生产中心数据库为读写模式,同城灾备中心数据库为只读模式;

智能 DNS :通过智能 DNS 服务,将业务域名 A 记录配置为本地数据中心 LB 的 IP 地址;

异地灾备中心(Cold Standby)

异地灾备服务支持多种业务部署方式,为云平台业务提供不同 RTO 指标,控制云平台业务灾备成本。

RTO 指标高,业务恢复时间长,成本低

在异地灾备中心仅部署对象存储服务,将本地数据中心云业务镜像、业务数据及数据库以全/增量的方式复制到对象存储服务中;

RTO 指标低,业务恢复时间长,成本高

负载均衡:每个需要负载均衡的业务均在异地灾备中心部署负载均衡实例,并将业务虚拟机加入后端;

云主机:针对业务对 RTO 不同需求,公有云可部署与本地数据中心相同或降级配置的云主机;

对于 RTO 要求较高的应用,公有云需部署与生产中心相同配置的云主机,用于满足业务切换时,可快速恢复业务,并保证业务运行环境的性能;

对于 RTO 要求较低的应用,公有云可部署降级配置的云主机,以节省资源和成本;

数据库服务:针对每个业务在异地灾备中心部署一套相同的数据库服务,两地数据库异步方式复制数据;

对象存储服务:异地灾备中心部署对象存储,灾备中心业务应用数据库直连对象存储进行数据读写;

6.4.2 数据复制针对业务对 RPO 的不同需求,同城双中心和异地灾备中心采用多种网络互联。

同城双中心

同城双中心数据库通过半同步的方式进行数据同步,应用访问同一数据库实例,数据在生产可用区和同城灾备可用区各存储一份;

每种业务在同城双中心同时部署虚拟机和存储,云平台自动将生产中心虚机镜像复制到同城灾备中心;

异地灾备中心

数据库服务将数据通过异步方式复制到灾备中心对象存储服务;

虚拟机镜像、业务数据、文件数据以全/增量的方式,从本地数据中心复制到灾备中心对象存储;

6.4.3 业务恢复同城双中心为 Active-Active 模式,当生产中心业务发生故障或灾难时:

跨可用区负载均衡通过内部 DNS 自动将业务请求切换到同城灾备中心,可在分钟级恢复业务;

数据库容灾实例自动切换到灾备中心数据库实例,对用户透明;

异地灾备中心为 Cold-Standby 模式,当同城双中心均发生灾难或业务故障时:

通过智能 DNS 将业务域名 A 记录手动修改为异地灾备中心业务 LB 的 IP 地址,实现故障切换;

将异地灾备中心业务应用数据库服务修改为读写状态,业务应用数据库直接读写对象存储;

若采用成本较低的异地灾备方案:

可在异地直接通过虚机镜像、数据库备份及相关备份数据重建业务;

通过将异地灾备中心的数据还原至本地,重新本地数据中心,恢复业务;

6.5 灾备网络架构UCloudStack 灾备服务网络分别同城双中心网络和异地灾备网络,不同灾备服务构建方式,通过不同的网络链路进行互联互通。生产中心与异地灾备中心可通过 SD-WAN、专线、VPN、互联网等方式进行网络联通和数据复制,可根据业务对 RPO 的需求,选择不同的网络连接方案。


灾备网络架构


同城双中心

本地数据中心和同城灾备中心通过 DWDM 链路,将同城双中心内网核心进行物理互联,并通过三层将双中心二层网络打通,保证网络负载均衡条件,网络时延小于 2ms ;

同城双中心分别通过 WAN 链接与互联网连通,承载同城双中心的外网接入;

同城双中心的负载均衡、VPC、虚拟机、数据库及存储跨可用区部署,并保证跨可用区高可用;

异地灾备中心

异地灾备中心与同城双中心通过多种方式进行网络联通,用于数据复制和数据库复制;

异地灾备网络互联方式包括 SD-WAN、专线、VPN、互联网等,可根据业务对 RPO 的需求及对于成本的考虑进行网络互联方案选择;

SD-WAN /专线

通过 SD-WAN 、专线的方式将同城双中心的外网核心与异地灾备外网进行互联;

线路质量好,数据复制和同步速度较快,异地灾备业务 RPO 可以得到保证;

RPO 指标低,成本高;

Internet / VPN

直接通过 Internet 或 VPN 的方式将同城双中心的外网和异地灾备外网互联;

网络质量无法保证,数据复制和同步速度较慢,异地灾备业务 RPO 不能得到保证;

RPO 指标高,成本低;

6.6 灾备切换UCloudStack 灾备服务根据业务场景分为计划内和计划外切换;根据灾备服务方式分为同城和异地切换。

计划内指业务灾备演练和云平台运维,生产中心并未发生灾难或故障,多用于验证灾备服务能力;

计划外指生产中心发生大规模灾难,如地震、电子故障、病毒攻击等,生产中心已彻底损坏;

同城切换指同城双中心中的某个数据中心发生灾难的业务切换,合理部署业务可实现同城双中心自动容灾,无需用户介入切换,业务自动恢复;

异地切换指同城双中心均发生灾难,无法提供服务,需手工进行业务恢复和切换;

通常情况下,同城双中心自动进行业务灾备切换,无需人工介入,下文仅对异地灾备切换进行描述;

6.6.1 计划内切换数据比对:人工介入比对同城双中心和异地灾备中心业务数据和资源数据的一致性及完整性;

停止生产中心业务、网络、负载均衡或关闭硬件设施电源等;

检查异地灾备中心业务虚拟机中业务运行状态,并检查虚拟机是否在业务负载均衡实例的后端;

修改灾备中心业务数据库状态为读写状态,测试通过负载均衡服务地址,访问业务服务地址的状态;

通过智能 DNS 将业务域名 A 记录手动修改为异地灾备中心业务 LB 的 IP 地址,测试业务服务状态;

若异地灾备中心仅部署对象存储服务,即仅有生产中心业务数据的备份,需要在异地灾备中心或生产中心准备运行业务的基础 IaaS 及 PaaS 环境 ,通过备份数据逐个还原业务虚拟机、负载均衡、数据库、存储等。

6.6.2 计划外切换检查并确认同城双中心均已故障或不可用;

检查异地灾备中心业务虚拟机中业务运行状态,并检查虚拟机是否在业务负载均衡实例的后端;

修改灾备中心业务数据库状态为读写状态,测试通过负载均衡服务地址,访问业务服务地址的状态;

通过智能 DNS 将业务域名 A 记录手动修改为异地灾备中心业务 LB 的 IP 地址,测试业务服务状态;

修复生产中心或在异地重新同城灾备中心,并部署相关服务,对数据和业务进行同步及复制;

若异地灾备中心仅部署对象存储服务,即仅有生产中心业务数据的备份,需要在异地灾备中心准备运行业务的基础 IaaS 及 PaaS 环境 ,通过备份数据逐个还原业务虚拟机、负载均衡、数据库、存储等。

6.6.3 灾备回切生产中心或同城双中心故障恢复或重新后,将异地新生产中心业务切回至原生产中心,即本地数据中心。灾备回切属于计划内,切换流程与计划内切换一致。


文章版权归作者所有,未经允许请勿转载,若此文章存在违规行为,您可以联系管理员删除。

转载请注明本文地址:https://www.ucloud.cn/yun/125807.html

相关文章

  • 云时代数据中心架构与安全浅谈

    摘要:考虑到云数据中心未来承载业务系统的多样性和扩容空间,一般都会把架构设计成公有云和私有云相混合的融合架构。针对传统灾备系统建设面临的挑战,云数据中心更多倾向采用两地三中心的解决方案。近年数据中心处于高速的建设发展时期,十三五规划中也将大数据、云计算作为当前国家经济社会发展的重要战略内容,各政府部门对战略性新兴产业的大力扶持,以及对云计算、物联网、宽带和下一代网络的发展的高度重视,都给建设数据中...

    yy736044583 评论0 收藏0
  • 孔明说天有不测风云,我说无灾备不上云

    摘要:题记三国时赤壁鏖战,孔明说,天有不测风云,欲破曹公,宜用火攻,万事俱备,只欠东风。现在公共云混战,我想说,无灾备不上云,保护数据,未雨绸缪,带了雨伞,还需雨衣。题记:三国时赤壁鏖战,孔明说,天有不测风云,欲破曹公,宜用火攻,万事俱备,只欠东风。现在公共云混战,我想说,无灾备不上云,保护数据,未雨绸缪,带了雨伞,还需雨衣。未雨绸缪,到底是带雨伞还是雨衣呢?时代在变,人的追求也在变。随着公共云对...

    stormgens 评论0 收藏0
  • 灾备解决方案-为企业数字化转型保驾护航

    摘要:灾备解决方案为企业数字化转型保驾护航大家好,今天给大家介绍华为云混合云灾备解决方案。华为云结合了华为存储在基础技术的长期积累,以及国内外灾备领域领先的合作伙伴的实践,为解决方案提供坚实的技术底座。 灾备解决方案-为企业数字化转型保驾护航 大家好,今天给大家介绍华为云混合云灾备解决方案。首先我们来了解一下什么是灾备解决方案。企业全面云化有两个主要驱动力,Digitized与Digtal...

    thekingisalwaysluc 评论0 收藏0
  • 多云时代下,华为云首发混合云灾备解决方案

    摘要:华为云凭借十余年华为自身大规模灾备实践经验,以及深耕企业级容灾市场的技术积累,结合基于大企业云化需求的持续创新,协同合作伙伴覆盖客户细分场景,为企业提供值得信赖的完整公有云灾备解决方案。7月24号,华为云中国行第三站落地北京,华为公司副总裁、华为云BU总裁郑叶来到会并发表致辞,华为云EI产品部总经理贾永利发表主题演讲,分享华为云目前整体进展以及AI时代下华为云EI的理念和思考,并发布国内首个...

    Donne 评论0 收藏0
  • 为什么选择混合云?UCloud混合云UHybrid产品优势、架构及与传统IDC、自建私有云的对比

    摘要:立即咨询产品文档优刻得上线了混合云自建机房火爆预售官方补贴活动中针对混合云作了介绍,老刘博客本篇文章分享给大家有关产品优势架构及与传统自建私有云的对比。UCloud混合云UHybrid可提供丰富的IaaS和PaaS产品和专业的服务,整合UCloud公有云、托管云、私有云和客户自有托管IDC等资源,重点解决存量IT资源合理利用,实现多云互联互通,多区域灵活组网;满足各个行业上云业务稳定,平滑过...

    Tecode 评论0 收藏0

发表评论

0条评论

youkede

|高级讲师

TA的文章

阅读更多
最新活动
阅读需要支付1元查看
<