数据中心容灾备份规划设计
当今社会的信息化不断发展,企业的业务系统在不断增加,从数据规模来看,不管是在量级上还是数据类型上,都越来越庞大。数据越多,业务越复杂,数据的保护工作越值得重视。
本文从整体的角度来谈一谈企业数据中心的容灾备份规划设计。
一、灾备系统建设必要性
数据丢失意味什么?
IDC统计:美国在2000年以前的十年间发生过灾难的公司中,有55%当时倒闭,剩下的45%中,因为数据丢失,有29%也在两年之内倒闭,生存下来的仅占16%;
美国明尼苏达大学的研究表明:在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%在两到三年后退出市场。而随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。
数据集中化,风险加剧 以运营商、政府、金融、电力等行业为主的各行业逐步建立大型数据中心完成数据集中处理,数据的集中也意味着风险的加剧,提高企业的抗风险能力,已成为急需考虑和解决的问题。
业务中断对企业影响重大,企业业务如果缺乏业务连续性,关键业务中断对企业影响重大:直接收入损失、生产力损失、名誉损失和财务业绩损失。
灾难备份也是国家政策法规的要求
美国 《萨班斯法案》
中国中办 《国家信息化领导小组关于加强信息安全保障工作的意见》
中国人民银行 《关于加强银行数据集中安全工作的指导意见》
银监会《银行业金融机构信息系统风险管理指引》《商业银行操作风险管理指引》
证监会《证券公司集中交易安全管理技术指引》
保监会《保险业信息系统灾难恢复管理指引》
二、容灾和备份
备份:备份是容灾的基础,通常指在数据中心内,将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。
容灾:容灾系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
一般意义上,容灾指的是不在同一机房的数据或应用系统备份,备份指的是本地的数据或系统备份。通常说的灾备是将容灾与备份结合,即本地备份结合远程数据复制实现完善的数据保护。
三、灾备关键指标
在任何情况下,备份的首要目的都是为数据安全。在发生故障时快速的将业务恢复起来,所有的设计都要为这一个终极目标服务。为了量化这个需求,我们需要先引入两个概念:
数据恢复时间点(RPO)
RPO (Recovery Point Objective): 恢复点目标,可以理解为从丢失事件到最近一次在前备份的时间度量,以数据为出发点能够容忍的数据丢失量。
应用恢复时间(RTO)
RTO (Recovery Time Objective): 恢复时间目标,理解为可以中断或关闭多少时间而不会对业务造成重大损害,以应用为出发点 能够容忍的应用系统恢复时间段。
为了达到业务系统的RPO和RTO,我们所使用的将会是包含备份技术在内一系列技术的组合,而不单单是狭义上的备份技术,具体可以参考下面的图片:
但这并不意味着备份技术一无是处,它依然是数据恢复最后的凭仗,本文也主要偏向传统备份技术的论述。
根据SHARE 78国际组织提出的标准,可以将系统容灾的级别划分为如下7级。
灾备系统建设的国内标准
四、企业关注灾备的主要问题
领导想什么
我们企业对信息化依赖性如何?
如果企业关键业务中断会带来什么样的损失?
寻求什么样的合作伙伴支撑,有效保障业务的连续性?
如何平衡投入和产出?
需要投入多少资金?
哪种容灾建设模式最适合我们企业?
目前的IT支撑团队的能力能否支撑未来容灾建设和维护?
该怎么样调整组织架构匹配业务发展需求?
CIO想什么
当前企业的IT环境?
总数据量有多少,每天会新增多少数据?
我们企业的风险来自于哪些方面?
如何规避风险?
业务中断带来的直接经济损失、名誉损失是多少?
对RTO、RPO的需求?哪种容灾建设模式最适合我们企业?
如何构建端到端完整有效的数据保护机制,提升数据可靠性的同时,提升企业的运营效率?
怎样实现绿色高效、节能减排等方面的统一规划以匹配国家战略?
五、风险分析 Risk Analyze
RA的目的是针对当前核心业务流程,系统环境和所存在的潜力风险确定可恢复能力等级。
降低风险的方案。
可恢复能力级别的有效方案。
业务影响分析
BIA(业务影响分析)是用以分析当不可预见的故障或灾害发生时,对关键业务经济上和业务操作造成的影响的分析方法和流程;
识别关键业务功能和应用系统;
识别应用系统之间的相互关联和支持关系;
确定当在预定的时间内无法正常运行时,对关键业务造成的损失及影响(定性和定量);
确定灾难恢复和业务连续需求(RTO和RPO);
识别关键的服务时间段和可容忍的性能下降程度;
风险和投资平衡
六、业务连续性管理(BCM)的效果
七、容灾建设等级对标分析
八、容灾设计模式
同步、异步相结合
容灾备份解决方案框架
匹配客户业务和发展策略,提供从战略咨询、容灾规划、业务实施到持续运营管理的专业服务。
九、备份系统需求调研
企业中存在多种类型的结构化和非结构化数据,不同的行业的数据类型可能千差万别,但从备份软件的角度来看,需要备份的数据不外乎如下:
文件:Windows、Linux、unix平台的文件或目录
操作系统:Windows、Linux等操作系统
数据库:Oracle、db2、MS-SQL、MySQL…
邮件:MS-exchange、Lotus
ERP:SAP,包括R3(oracle、db2、maxdb等)和S4(hana)
虚拟化:Vmware、Hyper-V、KVM等
HCI:Nutanix
大数据:Hadoop
云计算:openstack
NDMP:NAS存储,如NetApp的fas系列
容器:如docker和k8s
所以一般在规划综合备份系统之前,首要的工作是做备份需求调研,先把备份对象确认下来。调研一般可以通过访谈或会议的方式,由备份负责人向业务系统负责人发放备份需求表,应用负责人根据调研问卷提供自己所负责的业务系统的基本情况和备份需求。
通过调研可以梳理出以下内容:
1. 需要进行备份的业务系统的数量
2. 涉及备份的业务系统的主机数量
3. 备份主机的需要备份的数据类型、数据量以及重要程度
4. 备份主机的系统类型、系统版本、应用类型和应用版本
5. 备份主机所能给定的备份窗口 - 备份数据需要保留的周期
6. 备份主机的网络和存储接入情况
经过汇总分析后的业务系统需求表中,可以获取如下信息:
1. 备份存储的空间要求
2. 备份主机的备份速度相关的性要求
3. 备份软件所需要的备份模块要求
4. 业务系统数据备份的等级划分
5. 业务主机的备份调度
十、容灾备份系统规划设计
业务系统的备份需求收集完毕后,需要根据实际情况和各业务系统对备份的要求进行整体的备份规划,一般来说分以下几个部分:
1. 策略规划
2. 调度规划
3. 存储规划
4. 容灾规划
3.1 策略规划
策略规划指的是对各业务系统进行分类,然后备份软件按照分类将业务数据划分到不同的策略,进行集中备份管理。一般情况下,策略的内容会包含备份主机、备份内容、备份频率,备份保留周期等内容。备份策略的划分需要参考调研需求节点的备份需求表,在分类上可以基于以下维度:
1. 基于相同的业务数据类型
2. 基于相同的业务系统类型
3. 基于相同的业务数据保留周期
4. 相关联、相依赖的业务系统组合
策略的规划要从实际需求出发,参考自身的RPO和RTO指标来完成设计。
要避免设计不足,达不到恢复需求;同时也要避免过度设计,浪费宝贵的存储资源和计算资源。
3.2 调度规划
一般调度规划指的就是业务系统备份作业的发起窗口。不同的业务系统有自己的特性,在调度设计时要充分考虑备份作业对业务系统的影响。比如某些支撑系统工作日白天需要不间断运行,这时备份作业需要放到晚上执行;而某些跑批的系统需要晚上执行,备份作业则需要放到白天执行。
不同业务系统的基本情况和备份需求,一般会在需求调研阶段收集完毕。在调度规划时要从多方面综合考虑,要确保在不影响业务正常运行的情况下,在给定的备份窗口内完成数据备份,一般情况下规划调度时,需要考虑如下因素:
1. 业务主机备份的数据量和给定的备份窗口
2. 备份服务器的资源负载程度
3. 备份网络环境的负载程度
4. 业务方面的其他特殊要求
3.3 存储规划
备份存储的规划需要从两个维度来考虑:
1. 备份网络
可以说影响整个备份系统性能的关键因素就是备份网络,备份网络设计上的不足会导致一系列的性能问题,最终导致RPO和RTO不达标,关于备份网络,需要关注以下几点:
优先使用独立的备份专网,包括前端IP网络和后端san网络
在兼容的前提下,优先使用高速网络,如万兆网、16G的FC网 3. 为性能做好并发设计预留,通过多通道的方式可以大幅度提升性能
无法使用备份专网的情况下,在调度设计阶段重点考虑网络因素,避免备份流量影响生成业务的流量
2. 备份存储
目前备份系统的存储主要有:
1. 磁盘存储:包括供备份服务器使用的独立磁盘存储、部分厂商的备份一体机、备份服务器的大容量本地磁盘等。目前磁盘存储是主流的备份介质,随机读取性能好,结合重删等特性可以达到较好的性价比。
2. 磁带存储:磁带库是历史悠久的备份存储,不断的更新换代,历久弥新,在性能和稳定性上有了巨大的进步。在离线保存、数据量巨大的情况下还有很大的优势,缺点是多通道并发需要增加磁带驱动器,成本较高。另外,虚拟磁带库弥补了部分物理磁带库的优点,但本质上还是磁盘存储。
3. 云存储:近些年的趋势,如基于S3、swift等接口协议的公有云、私有云存储。在部分场景下替代了磁带库,但出于合规等要求,部分企业无法使用。
对于备份存储的通用设计需求如下:
1. 确保作为主备份存储的设备,在容量上可以容纳规划内的业务系统备份数据。这个容量主要来源于备份需求表,及后期固定年限内的数据增长预估。
2. 确保主备份存储的性能,可以满足并发写入时的峰值要求。这里的并发写入指的是指定备份窗口内,所有运行备份作业的主机并发,而不是整个备份系统的备份主机并发,因为在设计时,调度是错峰执行的。
3. 为备份存储规划独立的备份网络。
4. 合理利用存储或备份软件的高级特性,如重复数据删除、压缩、数据复制等功能,这样可以同时在备份性能和容量上得到收益。
5. 对于磁带存储,及时更新磁带机设备。不同代差的磁带机在性能和稳定性方面差异巨大。
6. 做好多副本设计,重要的备份数据要多份存放,避免因备份存储故障导致备份数据不可用。
7. 多通道设计,不仅体现在备份网络的多通道,存储也要跟上,比如多磁带机。
8. 合理利用分级存储,比如磁盘+磁带组合,磁盘+云存储组合。通过对备份存储的组合使用,可以在性能、容量和成本等方面做到最优化。
9. 合理设计磁带出库机制,做好出库管理。
3.4 容灾规划
通常情况下,我们所说的备份指的是本地的备份系统。但是对于很多企业来说,都存在多个数据中心,并且这些数据中心间可能还做了同步、异步或双活等容灾机制。长远来看,备份系统的规划设计也要跟得上企业的容灾规划。
关于备份容灾设计,有以下几种设计模式:
1. 主中心备份到磁带库,定期做磁带出库,将磁带运输到备中心保存,备中心可选设计一套备份系统用来做恢复验证。严格意义上来讲,这只能算是备份介质的异地存放,不能算容灾。
2. 主备中心独立部署备份系统。在主备中心已经基于业务或数据层面做了数据同步的情况下,这种方式实际上是部署了两套独立的备份系统,两套备份软件在数据和架构上都是独立的。
3. 主备中心采用了相同备份存储,并且基于备份存储层面做了数据同步。备份软件直接使用同步后的数据。这种方式下,备份软件独立部署,但是备份数据存在复制关联,比如下图是主备机房基于EMC的DD存储做复制。
主备中心采用了相同的备份软件平台,并且做了了基于备份软件的数据同步,一般情况下,同步会基于重删和压缩技术来减少数据传输量。比如下图是基于nbu air复制技术的容灾备份
具体使用哪种容灾备份模式,并没有一定的成例。需要结合企业自身的实际情况,选择最合适自己的。另外,备份容灾的规划可以放长远一些,分阶段逐步完成,没有必要一蹴而就。
总结
备份系统的整体设计是涉及多个方面的综合工程,需要从多个维度通盘考虑,得到一个最优解。在大多数情况下,出于现实情况的约束,也可以立足当下,着眼未来,分批逐步实现自己的需求。总之,前期的良好规划对于备份系统是非常重要的,一个良好运行的备份系统可以在遇到紧急数据故障的时候发挥极其重要的作用。
文章来自于网络,如果侵犯了您的权益,请联系站长删除!