了解灾难恢复术语 – RTO、RPO、故障转移、BCP 等

0 Shares

灾难恢复计划是任何组织在面对突发事件时必须优先考虑的关键步骤。

在信息技术领域，这通常表现为一份正式文件，详细说明应对灾难及其后续影响的计划、措施和流程。

灾难是指突然发生且事先无法预料的事件，其形式多种多样。一旦发生，无论是个人还是组织都将面临诸多挑战，包括财务损失和用户体验下降等问题。

如果遭受攻击，必须做好充分准备，以便将影响降到最低，并迅速恢复运营。这时，制定切实可行的灾难恢复计划将发挥关键作用，帮助阻止或预防灾难的发生，并减少其对用户体验、成本和停机时间等方面的负面影响。

此外，必须提前准备好计划、人员、策略、设备和系统，确保一切尽快恢复正常。为了实现这一目标，深入了解灾难恢复至关重要。

在本文中，我将详细探讨灾难恢复，并介绍一些关键术语，以便您能够更有力地应对挑战，并在不利条件下变得更加强大。

让我们开始吧！

什么是灾难？

灾难是指可能发生在任何地方（包括信息技术行业）的不可预测事件。它可以是自然灾害，也可能是人为因素造成的，都可能对公司的运营造成干扰，并破坏基础设施的正常运行。

因此，组织及其客户、供应商、员工和合作伙伴都可能受到影响。灾难会对组织的财务状况、行业声誉、客户信任和安全保障等多个方面造成巨大压力。

因此，必须提前做好准备，以应对这种情况。这需要迅速恢复所有操作和数据。简而言之，组织必须做好充分准备，以便在尽可能短的时间内为客户恢复一切正常运作。

灾难的形式多种多样，包括网络攻击、破坏活动、恐怖袭击、勒索软件攻击、物理威胁、飓风、地震、火灾、洪水、工业事故、停电等等。

灾难恢复的含义？

灾难恢复是指在遭受灾难后恢复正常运营的过程。它包括恢复对硬件、软件、设备、连接、网络、电源和数据的访问。组织必须在灾难发生前制定相关的规则和流程，做好充分准备。

此外，如果组织的设施遭到破坏，则必须通过通信、运输、采购、工作场所等方面的工作来扩大恢复范围。

为什么灾难恢复计划如此重要？

制定完善的灾难恢复计划对于每个信息技术企业都至关重要，可以应对自然或人为灾难。确保相关人员和工具到位，以便顺利执行计划。

让我们深入了解灾难恢复的重要性。

减少损失

灾难是不可预测的。没有人知道它何时会来，何时会结束。但是，可以提前做好准备，以尽量减少对基础设施造成的损害。

例如，在洪水多发地区，可以将重要的文件和设备存放在高处，以避免损坏。

同样，在网络攻击破坏或窃取数据之前，必须及时备份重要数据。

恢复服务

如果制定了可靠的灾难恢复计划，就可以快速轻松地将所有服务恢复到正常状态。这意味着在短时间内恢复几乎所有主要资产和服务。

最大限度地减少中断

我们无法预知明天或下一步会发生什么。但是，有了完善的恢复计划，就不必担心后果。您的基础设施可以以最小的中断继续运行。

培训和准备

信息技术基础设施由许多员工共同维护。每个人都必须了解恢复流程，以便在紧急情况下按要求和预期立即采取行动。

适当的准备工作还可以降低组织内每个人的压力水平。此外，还可以培训员工在发生意外事件时采取必要的行动。

灾难恢复术语

让我们从了解一些关键术语开始，以便深入了解灾难恢复。

RTO (恢复时间目标)

恢复时间目标（RTO）是指组织根据业务性质设定的，在不严重影响财务增长的情况下，容忍灾难造成的业务中断的时间上限。

在设定RTO时，公司必须评估停机时间可能对组织造成的各种影响。它用于制定可行的策略，确保即使在灾难发生后也能维持业务运营。当客户在应用程序中遇到任何中断时，他们会想知道应用程序需要多长时间才能恢复正常。而每个组织都有其自身的RTO。

例如，假设您是一家在线交易公司，如 PayPal 或 Pioneer，正面临突发事件。在这种情况下，您的RTO应足够快地恢复操作。

换句话说，一家公司可能会将其RTO设置为一到两个小时，以避免财务或数据方面的损失。

RPO (恢复点目标)

恢复点目标（RPO）是指信息技术基础设施在灾难发生时，允许丢失的数据量和时间点。

这听起来可能有些令人困惑？

以记录银行交易的数据库为例，包括转账、调度、支付等。当灾难发生时，数据库需要实时恢复。在这种情况下，灾难时的数据库与灾难后恢复的数据库之间的差异为零。

对于一些公司来说，从备份中恢复所有信息需要大约 24 小时是可以接受的，但有时这可能是灾难性的。根据RPO要求设置基础设施至关重要，这包括提高备份频率、在架构中添加备用数据库等等。

故障转移

想象一下您正在进行长途旅行的情况。突然，由于一些意想不到的原因，您的轮胎爆了。您很庆幸自己的车上有备用轮胎和更换故障轮胎的工具。

故障转移的工作原理类似。

这意味着在发生灾难时，您需要备用的连接方案。简而言之，故障转移是指在发生灾难时，能够将信息切换到恢复系统的网络和系统。

即使存在基础设施或硬件故障，故障转移也能确保所有服务顺利运行。这样可以避免组织丢失数据和收入，并减少最终用户的服务中断。

您可以手动设置故障转移，也可以让它自动运行，以便将数据移动到备用服务器。

故障恢复

信息技术故障恢复是一种简单的操作，在处理完灾难后，将原始生产环境恢复到其初始状态（系统）。在攻击期间，公司会执行故障转移操作，因此所有工作负载都会转移到虚拟机副本或备份系统。

但是，不能只是跳过返回的步骤。当一切恢复正常并重新投入使用时，需要将所有工作负载转移到其原始虚拟机或系统上。将工作负载返回到原始工作场所或系统的整个过程称为故障恢复。这意味着在攻击之后“恢复”。

故障恢复也用于企业的定期维护。实际上，故障恢复总是在故障转移之后发生。换句话说，故障转移是第一步，而故障恢复是恢复基本数据的第二步。它可以在云到云、本地到本地、本地到云或这些组合之间设置。

DR（灾难恢复）

灾难恢复 (DR) 是指预先制定计划并在一定时间内恢复资产的过程。

灾难恢复使组织能够快速响应并从意外事件中恢复每一项服务。它还提供正式文件，其中包含在发生意外事件时立即采取行动的说明。

BCP（业务连续性计划）

业务连续性计划（BCP）是最常用的灾难恢复计划之一，允许信息技术基础设施制定策略来处理服务器、移动设备、个人计算机和网络的IT中断。

BCP 与灾难恢复略有不同，它侧重于帮助组织制定计划，重建企业软件和生产力，以满足关键业务需求。

在这里，公司会创建一个恢复系统来克服潜在的威胁，如网络攻击或自然灾害。它旨在保护资产，并确保所有服务在灾难发生后迅速恢复运行。

BCM（业务连续性管理）

业务连续性管理 (BCM) 是一种专门用于防范业务流程威胁的风险管理流程。 BCM是BCP的下一步，它验证恢复计划，确保企业中的每个人都能迅速响应计划，并恢复所有重要内容。

BCM 充当管理框架，用于在面临外部和/或内部威胁时识别基础设施风险。它还确保框架在定期测试的帮助下高效运行，以提高可预测性、降低风险并调整未来的攻击计划。

BIA（业务影响分析）

业务影响分析（BIA）是指通过识别关键系统、运营和流程来评估业务生存能力的过程。它分析灾难对组织运营中断的影响。

BIA 在攻击实际发生之前预测后果，以收集关键信息，帮助制定强大的恢复策略。它还确定了由故障导致的成本，如设备更换成本、现金流损失、利润损失、工资支出等。

在创建BIA报告时，必须考虑业务中涉及的关键流程、中断对不同区域的影响、可接受的持续时间、可容忍的区域、财务成本等。

呼叫树

呼叫树是指在紧急情况下联络管理人员的列表，它遵循树状结构。

例如，在灾难期间，某人会联络一小组工作人员并发送紧急信息，然后这些工作人员会分别联系他们小组中的每个人。这样，所有员工都会在威胁期间收到通知，并立即开始他们被分配的工作，及时恢复各项功能和流程。制定清单很简单，但实时执行可能会造成混乱。

必须定期进行呼叫演练，以便每个应急工作人员都能随时保持警惕。定期测试还可以帮助识别可能严重影响性能的更改或丢失的号码。

呼叫树中包含在紧急情况下传递指令的信息。可以手动进行，但人们更倾向于使用自动化来加速流程，并通知当今数字世界的成员。

指挥中心/控制中心

指挥中心/控制中心是指专门用于在危机期间提供灾难恢复计划指挥或控制的虚拟或物理设施。它与团队进行沟通，以在灾难期间管理系统和功能。

传统上，基础设施依赖于指挥中心来处理危机，而没有适当的方法。如今，组织已经完美地设计了他们的控制中心，这将即时响应转化为核心竞争力。

一旦感知到灾难，指挥中心就会迅速进入恢复阶段。此外，它还充当服务、新闻、交付等方面的报告点。在这种情况下，它还会聚集来自多个领域的人员。

事件响应

事件响应是指为应对攻击而做出的反应。它需要借助正确的程序和人员，在正确的时间有效地保护网络和数据安全。

如果组织在意外事件发生之前制定了事件计划，那么就可以实时保护其数据免受威胁。事件响应专家会始终警惕地关注问题，并在发生事件时自然地采取行动。他们会采取相应的措施来避免安全漏洞，确保在灾难恢复期间不遗漏任何步骤。

首先，必须确定关键数据，并将其存储在云端或任何远程位置，以确保安全。通过定期更新事件响应计划，来应对当前基础设施需求和不断演变的网络威胁。

备份

备份解决方案有助于信息技术基础设施维护数据副本，并在正确的时间安全地存储数据。如果面临数据库损坏、所有数据的意外删除或任何其他问题，必须提前准备好备份，以便立即恢复数据并继续使用服务。

它包括复制文件并将它们存储在安全位置，以便在发生意外事件后轻松访问所有数据。在多个位置备份数据有助于确保即使某个站点出现故障，也可以恢复数据。

弹性

社区、州、组织和个人在不影响服务和系统的情况下抵抗或应对灾难的能力被称为灾难恢复弹性。

组织必须做好承受风险带来的巨大压力的准备。确保您有能力通过更好的计划来最大限度地减少损失，而不是等待救援。这将帮助您应对灾难并有效地恢复信息技术基础设施。

在这里，主要目标是在必要时在正确的时间保存和恢复基本功能和结构。为了成为具有抗灾能力的组织，必须提前做好准备，并具备预测风险、适应变化、分享经验、整合各个部门以及管理风险等级的能力。

SLA（服务水平协议）

服务水平协议 (SLA) 是一项灾难恢复计划，用于向最终用户说明在紧急情况下恢复服务所需的时间。

SLA 确保客户的数据安全，不会被泄露或与第三方共享。它是与最终用户问题的单点联系。

每个信息技术基础设施都会向其客户提供有关SLA的保证。因此，请务必提前与最终用户进行沟通。

SPOF（单点故障）

单点故障 (SPOF) 是指连接到许多其他系统或应用程序的设备、人员、资源或应用程序。

如果此类设备或资源出现故障，则连接到该系统的所有重要组件都会随之发生故障。因此，整个过程和业务运营都将受到影响。

因此，必须制定策略来处理此类问题，以确保组织正常运转。第一步是确定哪些单个设备或系统可能会产生更大的影响。接下来，进行业务影响分析，并获得风险评估分数，以了解潜在的风险。在事件发生之前找出这些风险。

在列出所有SPOF之后，根据恢复过程对其进行分类。将每个SPOF分为三个不同的类别：

可以在较短的时间和预算内轻松直接地恢复。
恢复过程会比较困难，但可以开发可靠的恢复流程。
一旦发生故障，就没有任何措施可以恢复。

可以根据类别采取相应的措施。

系统恢复

在硬件故障期间，必须运行恢复过程，以将特定系统或服务器恢复到其原始状态。要恢复整个系统，需要准备好恢复要求、备份、固件兼容性和硬件兼容性。

系统恢复是指将计算机重置为其以前的设置或与新计算机相同的状态的过程。这样做将消除由于系统中安装的软件或应用程序而导致的所有病毒感染。

此过程包括信息技术基础设施的恢复计划，该计划制定并遵循某些流程，以确保数据可用性不会受到人为或自然中断的影响。

系统还原

系统还原是一种恢复工具，可在正确的时间将某些文件和信息恢复到以前的状态。

通过系统还原，可以将注册表项、已安装的程序、驱动程序、系统文件等恢复到之前的版本。这在许多灾难中都起到了关键作用。

测试计划

测试计划是指记录测试策略、估算、资源、截止日期、目标和时间表信息的文档。它充当运行测试以确保硬件和软件安全的蓝图。

这包括根据计划管理灾难后果的流程和步骤所进行的各种测试。进行定期测试，确保您和您的组织都做好充分准备，在运行过程中不跳过任何步骤。这样，信息技术基础设施就可以了解其弱点，并为应对挑战做好准备。

结论

没有人知道灾难何时会发生。因此，适当的安全和保障措施对于每个企业都至关重要。

了解灾难恢复术语可以帮助您更好地应对攻击和灾难。它还可以帮助您提前做好准备，以便在发生意外事件时保护基础设施。您可以创建有效的实时灾难恢复策略，从而节省大量资金并保持客户的信任。