了解灾难恢复术语 – RTO、RPO、故障转移、BCP 等

灾难恢复计划是组织在发生异常事件之前必须采取的首要措施。

在 IT 行业,它首先创建一份正式文件,其中包含处理灾难及其后果的计划、行动和程序。

灾难是在没有事先通知的情况下突然发生的事件,可以有不同的类型。 当它落地时,个人和组织将面临多种困难,包括财务问题和用户体验。

如果发生攻击,您必须准备好将其影响降至最低并更快地恢复您的运营。 这是准备实用的灾难恢复计划将帮助您阻止或防止灾难的地方。 您还可以减少其在用户体验、成本和停机时间方面的后遗症。

此外,您必须准备好您的计划、人员、策略、设备和系统,以使一切恢复正常。 但为此,您必须深入了解灾难恢复。

在本文中,我将详细讨论这一点以及关键的灾难恢复术语,以便您可以勇敢地反击并在这种不利条件下变得更强大。

让我们开始!

什么是灾难?

灾难是可以在任何地方发生的不可预见的事件,包括 IT 行业。 它既可以自然发生,也可以人为发生,可能会干扰公司的运营并扰乱基础设施的结构。

因此,组织及其客户、供应商、员工和合作伙伴都会受到影响。 它在财务、行业声誉、客户信任和安全范围方面给组织带来了压力。

因此,您必须提前做好准备以克服这种情况。 为此,您需要立即恢复每个操作和数据。 简而言之,您必须让您的组织做好准备,以便在尽可能短的时间间隔内为您的客户恢复一切。

灾难有多种类型,例如网络攻击、破坏、恐怖袭击、勒索软件或物理威胁、飓风、地震、火灾、洪水、工业事故、停电等等。

灾难恢复是什么意思?

灾难恢复是在遭受灾难后恢复正常运行的过程。 它涉及恢复对硬件、软件、设备、连接性、网络、电源和数据的访问。 您必须在记录的过程中设置规则和程序,以便您的组织在灾难发生前做好准备。

但是,如果您组织的设施遭到破坏,您必须通过通信、运输、采购、工作地点等方面的工作来扩展一些活动。

为什么灾难恢复计划很重要?

为从自然或人为灾难中恢复制定一个完美的计划对于每个 IT 行业都是必不可少的。 确保您在正确的地方拥有正确的员工和工具,以便顺利执行计划。

让我们更深入地了解为什么灾难恢复至关重要。

限制损害赔偿

灾难是不可预知的。 没有人知道它什么时候来,什么时候去。 但是,您提前准备好控制对基础架构造成的损害。

例如,在洪水多发地区,您可以将重要文件和设备类型放在顶层以避免损坏。

同样,在网络攻击破坏数据或窃取数据之前备份您的基本数据。

恢复服务

如果您为从灾难中恢复制定了可靠的计划,那么将所有服务恢复到正常状态是快速而容易的。 这意味着在很短的时间内,您可以恢复几乎所有的主要资产和服务。

尽量减少中断

您无法知道明天或手术的下一步会发生什么。 但是,有了完美的恢复计划,您就不必担心后果。 您的基础架构可以以最小的中断继续运行。

培训和准备

IT 基础架构由许多在屋檐下工作的员工组成。 所有人都必须了解恢复情况,以便在紧急情况下按要求和预期立即采取行动。

适当的准备还将降低与您的组织相关的每个人的压力水平。 此外,您可以培训您的员工在发生意外事件时采取必要的行动。

灾难恢复术语

让我们从术语开始,以更深入地了解灾难恢复。

  5 款适用于您下一次施工的土方工程估算软件

RTO

恢复时间目标 (RTO) 是组织根据业务性质设定的在不影响财务增长的情况下容忍灾难的时间量。

在设置 RTO 时,公司必须检查可能以多种方式影响您的组织的停机时间。 它用于研究可行的策略,即使在灾难之后也能继续您的业务运营。 当客户在应用程序中遇到任何干扰时,他们会询问应用程序需要多长时间才能恢复操作。 答案是每个组织的 RTO。

示例:假设您是 PayPal 或 Pioneer 等在线交易公司,面临不可预测的事件。 在这种情况下,您的 RTO 将足够快地恢复操作。

换句话说,一家公司将其 RTO 设置为一两个小时,以避免财务或数据形式的后果。

RPO

恢复点目标 (RPO) 是 IT 基础架构在时间和信息量方面可以处理的数据丢失。

令人困惑?

以记录银行交易的数据库为例,包括转账、调度、支付等。 当灾难发生时,数据库会实时恢复。 在这种情况下,灾难时的数据库与灾难后的数据库恢复之间的差异为零。

对于一些公司来说,从备份中恢复所有信息需要大约 24 小时是可以接受的,但有时这可能是灾难性的。 根据 RPO 要求设置基础架构至关重要。 这包括提高备份频率、在架构中添加备用数据库等等。

故障转移

想一想您长途旅行的情况。 突然,由于一些意想不到的原因,你爆胎了。 您感谢您车辆中的备用轮胎和更换有缺陷轮胎的工具。

故障转移以相同的方式工作。

这意味着您在灾难期间需要备份连接。 简而言之,故障转移意味着拥有可在灾难发生时将信息切换到恢复系统的网络和系统。

故障转移可确保您的所有服务顺利运行,即使存在基础设施或硬件故障。 这样,您可以防止您的组织丢失数据和收入,并避免最终用户的服务中断。

您可以手动设置它,也可以让它自动运行以将数据移动到备用服务器。

故障回复

IT 故障恢复是一种简单的操作,在处理灾难后,原始生产回到其原始位置(系统)。 在攻击期间,公司会执行故障转移操作,因此所有工作负载都会转移到 VM 副本或备份系统。

但是,您不能只是跳过返回的下一步。 当您恢复一切并重新投入使用时,您需要将所有工作负载转移到其原始虚拟机或系统上。 将工作负载返回到原始工作场所或系统的整个过程称为故障恢复。 这意味着您在攻击后“回来”。

故障回复也用于企业的定期维护。 确实,故障恢复总是在故障转移之后发生。 换句话说,故障转移是第一步,故障恢复是恢复基本数据的第二步。 它可以在云到云、本地到本地、本地到云或这些之间的任何组合之间设置。

博士

灾难恢复 (DR) 是您预先制定计划以在时间范围内恢复资产的过程。

灾难恢复使组织能够快速响应并从意外事件中恢复每一项服务。 它还提供正式文件,其中包含在发生意外事件时立即采取行动的说明。

BCP

业务连续性计划 (BCP) 是最可接受的灾难恢复计划之一,它允许 IT 基础架构制定策略以处理服务器、移动设备、个人计算机和网络的 IT 中断。

BCP 与灾难恢复略有不同,因为它帮助组织制定计划以重建企业软件和生产力以满足关键业务需求。

在这里,一家公司创建了一个恢复系统来克服潜在的威胁,例如网络攻击或自然灾害。 它旨在保护资产并确保所有服务在罢工后迅速恢复运作。

BCM

业务连续性管理 (BCM) 是一种风险管理流程,专门设计用于抵御对业务流程的威胁。 BCM 是 BCP 的下一步,它验证恢复计划以确保企业中的每个人都能立即响应计划并恢复所有重要的东西。

BCM 充当管理框架,用于在面临外部和/或内部威胁时识别基础设施风险。 它还确保框架在定期测试的帮助下高效运行,以增强可预测性、降低风险并调整未来攻击的计划。

  如何在 Microsoft Word 中创建和更新图表

BIA

业务影响分析 (BIA) 是通过识别关键系统、运营和流程来分析业务生存率的过程。 它讲述了由于您的运营中断而导致的灾难对您的组织的影响。

BIA 在攻击实际发生之前预测后果,以收集有助于创建强大恢复策略的关键信息。 它还确定了由于故障而涉及的成本,例如设备的更换成本、现金流损失、利润、工资等。

创建 BIA 报告时,您必须考虑业务中涉及的关键流程、中断对不同区域的影响、可接受的持续时间、可容忍的区域、财务成本等。

调用树

呼叫树是一个管理人员列表的过程,以便在紧急情况下呼叫。 这是一个遵循树状结构的过程。

例如,在灾难期间,一个人会联系一小组成员并发送紧急信息,这些工作人员会分别呼叫每个小组。 这样,所有员工都会在威胁期间得到通知,并开始他们分配的工作,以及时恢复每个功能和流程。 制作清单很简单,但实时实施会造成混乱。

您必须执行定期呼叫活动,以使每个紧急工作人员做好保持警觉的准备。 定期测试还可以帮助识别可能严重影响性能的更改或丢失的数字。

呼叫树包含在紧急情况下用于传递指令的信息。 它也可以手动完成,但人们使用自动化来加速流程并通知当今数字世界的成员。

指挥中心/控制中心

它是一个虚拟或物理设施,专门准备在危机期间提供对恢复计划的指挥或控制。 它与团队沟通以在灾难期间管理系统和功能。

传统上,基础设施依赖于指挥中心处理危机而没有任何适当的方法。 如今,组织已经完美地设计了他们的控制中心,这将即时响应转变为核心竞争力。

一旦感知到灾难,指挥中心就会迅速进入恢复阶段。 此外,它还充当服务、新闻、交付等方面的报告点。 在这种情况下,它还将来自多个学科的人聚集在一起。

事件响应

事件响应是为应对攻击而给出的一种响应。 它是在正确的程序和人员的帮助下完成的,以在正确的时间有效地保护网络和数据安全。

如果组织在意外事件发生之前制定了事件计划,则可以实时保护其数据免受威胁。 事件响应专家始终对问题保持警惕,并在事件发生时自然采取行动。 他们采取某些措施来避免安全漏洞,确保在灾难恢复期间不跳过任何一步。

一开始,您必须确定关键数据并将其存储在云端或任何远程位置以确保安全。 通过定期更新事件响应计划来解决当前的基础设施需求和不断演变的网络威胁。

备份

备份解决方案可帮助 IT 基础架构维护数据副本并在正确的时间安全地存储数据。 如果您面临数据库损坏、所有数据的意外删除或任何其他问题,您必须准备好备份以立即恢复数据并继续使用服务。

它涉及复制文件并将它们存储在安全位置,以便在发生异常事件后轻松访问所有数据。 如果您在多个位置备份数据以确保即使站点出现故障也可以恢复它,这将有所帮助。

弹力

社区、州、组织和个人在不影响服务和系统的情况下抵抗或抵御灾难的能力被称为灾难恢复力。

组织必须准备好承受因危险而产生的大量压力。 确保您有能力通过更好的计划来最大程度地减少损失,而不是等待有人来拯救您。 这将帮助您应对灾难并有效地恢复您的 IT 基础架构。

在这里,主要目标是在必要时在正确的时间保存和恢复基本功能和结构。 要成为具有抗灾能力的组织,您必须提前做好准备,并具备预测风险、适应变化、​​分享学习、整合各部门、管理风险等级的能力。

服务水平协议

服务水平协议 (SLA) 是一项灾难计划,您可以在其中向最终用户提及在紧急情况下恢复服务所需的时间。

SLA 确保客户的数据安全且不会泄露或与第三方共享。 它是与最终用户问题的单点联系。

每个 IT 基础架构都向其客户提供有关 SLA 的保证。 因此,请确保事先与最终用户进行沟通。

单点光纤

单点故障 (SPOF) 是连接到许多其他系统或应用程序的设备、个人、资源或应用程序。

如果这样的设备或资源出现故障,连接到系统的所有重要部件都会随之出现故障。 因此,整个流程和业务运营都会受到影响。

因此,您必须制定策略来处理此类问题,以保持您的组织正常运行。 您可以做的第一件事是确定可以产生更大影响的单个设备或系统。 接下来,运行业务影响分析并获得风险评估分数,以了解即将发生的场景。 在事件发生前挖掘并找到它们。

列出所有 SPOF 后,根据恢复过程对它们进行分类。 将每个 SPOF 分为三个不同的类别:

  • 以更少的时间和预算轻松直接地恢复。
  • 恢复将是困难的,但可以开发一个可靠的过程来恢复。
  • 一旦它下降,就无法采取任何措施来恢复。

您可以根据类别采取相应的行动。

系统恢复

在硬件故障期间,您必须运行恢复过程以将特定系统或服务器恢复为其原始形式。 要恢复整个系统,您需要准备好恢复要求、备份、固件兼容性和硬件兼容性。

系统恢复是将机器重置为其以前的设置或与新机器相同的状态的过程。 这样做将消除由于系统中安装的软件或应用程序而导致的所有病毒感染。

此过程包括 IT 基础架构的恢复计划,该基础架构设置并遵循某些程序,以确保数据可用性免受人为或自然中断的影响。

  20 个最佳 ER 图工具

系统还原

系统还原是一种恢复工具,可让您在正确的时间将某些文件和信息恢复到以前的状态。

通过系统还原,您可以将注册表项、已安装的程序、驱动程序、系统文件等恢复到之前的版本。 这在许多灾难中起到了救命稻草的作用。

测试计划

它是指存储有关测试策略、估计、资源、截止日期、目标和时间表的信息的文档。 它作为运行测试以确保硬件和软件安全的蓝图。

这包括根据计划管理灾难后果的程序和步骤进行的各种测试。 执行定期测试,以使您和您的组织做好准备,在行动过程中不要跳过一个步骤。 这样,IT 基础架构就可以了解缺点并为战斗做好准备。

结论

没有人知道灾难何时会发生。 因此,适当的安全和安保措施对每个企业都至关重要。

灾难恢复术语将帮助您了解如何应对攻击和灾难。 它还将帮助您提前做好准备,以便在发生意外事件时保护您的基础设施。 您将能够创建有效的实时灾难恢复策略来节省数百万美元并保留客户的信任。