制定灾难恢复计划
灾难恢复计划包括彻底评估灾难性事件的潜在风险、灾难可能造成的运营损失、对员工和外部利益相关方的影响以及相关的财务损失或监管罚款。
在制定灾难恢复计划的过程中,企业需要确定执行发起人和受影响的团队;列出灾难期间可能受到伤害的物理和 IT 资产目录;并考虑对客户、供应商、合作伙伴和其他利益相关者的潜在影响。
IT 部门需要决定哪些工作负载可以从备份中恢复,哪些工作负载需要实时数据与以较低容量运行的服务相结合,哪些工作负载需要全部容量。在某些情况下,停机的活动系统会自动切换到备用系统,以尽可能减少停机时间并实现零数据丢失。在其他情况下,切换则是手动进行的。IT 团队需要选择备份站点并制定一个计划,从而快速重新启动应用。在这个过程中,云技术是一个很大的助力。企业还需要寻找可能妨碍重新启动运营的 IT 依赖项,例如哪个离线应用会阻止其它应用重新上线。
除了这些技术方面之外,高管和各个业务部门还应制定紧急沟通和响应计划,为员工提供关于灾难恢复计划的培训,通过桌面模拟或演示来进行测试或演练,并持续改进该计划。
风险评估和恢复目标
每个灾难恢复计划都应该对可能中断业务运营的事件进行风险评估,对可能受影响的应用进行影响分析,以及对由此产生的财务损失进行估算。业务影响分析应包括每个应用的 RTO 和 RPO。据此,企业可以制定恢复计划,以更高的成本换取更短的恢复时间和恢复点目标。
备份和恢复策略
备份和恢复方法属于性能成本范畴,具体包括:
离线备份:RPO 较高,但面对勒索软件攻击,这可能是唯一的选择
Pilot light 部署:可以在几分钟内(而不是几小时)将系统恢复到工作状态,但比简单的备份副本更昂贵,也更难维护
温备方法:可将实时数据与以较低容量运行的云技术应用副本相结合
主动/主动故障转移方法:多个实时站点以全部容量运行,恢复时间且恢复点接近于零,这是一种昂贵的灾难恢复策略,尽管现代软件架构和数据管理策略可以帮助控制成本并可能带来其他优势,包括提高可扩展性
计划测试和合规性
仅仅创建 IT 库存、确定应用层和映射依赖关系是不足够的。为了使灾难恢复工作达到企业所期望的水平,从操作系统到应用的所有技术都需要冗余的资源。灾难恢复的成功还取决于定期测试,无论是通过桌面预演,由利益相关方口头介绍步骤,还是由 IT 部门对相关方案进行实体演示,并测试仅在灾难期间使用的系统组件。
财务报告和数据保护法规也会影响灾难恢复计划。例如,美国企业财务报告法规《萨班斯-奥克斯利法案》(SOX) 对数据保留要求有明确规定。《美国健康保险携带和责任法案》(HIPAA) 要求制定灾难发生期间的电子健康信息应急计划,而欧盟的《通用数据保护条例》(GDPR) 则要求在灾难期间提供公民个人数据。
DRaaS 的优势和使用场景
灾难恢复即服务 (DRaaS) 是一种云技术服务,旨在让企业在公有云或混合云中运行应用,并在云技术提供商的设施而不是本地数据中心中实施灾难恢复计划。借助基于云技术的 DRaaS 产品,企业可以在云技术区域之间远程转换计算、数据库和应用负载,并自动执行恢复业务系统所需的步骤,而无需重新设计业务系统架构或使用专门的管理软件。故而云技术提供商的 DRaaS 解决方案必须在备用区域中采用高可用性设计,确保发生灾难性事件时相关服务仍可访问且可正常运行。
面对基础设施因自然灾害或网络事件(例如勒索软件攻击)受损,同时无法访问本地网络资源时,企业可以使用云端灾难恢复计划,在灾后恢复数据。由于数据可以存储在区域性的云端,因此该策略可以满足 GDPR 等数据保护法规要求。当预算紧张时,DRaaS 也不失为一个理想的解决方案,其成本会低于设置冗余恢复站点的成本。