数据仓库如何成为数据仓库的未来[+5 Learning Resources]

随着公司生成的数据越来越多,传统的数据仓库方法变得越来越难以维护,而且维护成本也越来越高。 Data Vault 是一种相对较新的数据仓库方法,它通过提供一种可扩展、敏捷且经济高效的方式来管理大量数据,从而解决了这一问题。

在这篇文章中,我们将探讨 Data Vaults 如何成为数据仓库的未来,以及为什么越来越多的公司采用这种方法。 我们还将为那些想要深入研究该主题的人提供学习资源!

什么是数据仓库?

Data Vault 是一种数据仓库建模技术,特别适用于敏捷数据仓库。 它为扩展提供了高度的灵活性,数据的完整单位时间历史化,并允许数据加载过程的强大并行化。 Dan Linstedt 在 1990 年代开发了 Data Vault 建模。

在 2000 年首次发表后,她在 2002 年通过一系列文章获得了更大的关注。 2007 年,Linstedt 赢得了 Bill Inmon 的认可,Bill Inmon 将其描述为他的 Data Vault 2.0 架构的“最佳选择”。

  它是什么以及为什么需要它

任何接触过敏捷数据仓库这个术语的人都会很快想到 Data Vault。 该技术的特别之处在于它专注于公司的需求,因为它可以对数据仓库进行灵活、省力的调整。

Data Vault 2.0考虑了整个开发过程和架构,由组件方法(实现)、架构和模型组成。 优点是这种方法在开发过程中考虑了商业智能与底层数据仓库的所有方面。

Data Vault 模型提供了一种现代解决方案来克服传统数据建模方法的局限性。 凭借其可扩展性、灵活性和敏捷性,它为构建能够适应现代数据环境的复杂性和多样性的数据平台提供了坚实的基础。

Data Vault 的轴辐式架构以及实体和属性的分离支持跨多个系统和域的数据集成和协调,从而促进增量和敏捷开发。

Data Vault 在构建数据平台中的一个关键作用是为所有数据建立单一的真实来源。 其统一的数据视图以及通过卫星表捕获和跟踪历史数据变化的支持支持合规性、审计、法规要求以及综合分析和报告。

Data Vault 通过增量加载实现的近乎实时的数据集成功能有助于在大数据和物联网应用程序等快速变化的环境中处理大量数据。

Data Vault 与传统数据仓库模型

第三范式 (3NF) 是最著名的传统数据仓库模型之一,在许多大型实施中通常是首选。 顺便说一下,这与数据仓库概念的“先驱”之一 Bill Inmon 的想法相符。

Inmon 架构基于关系数据库模型,通过将数据源分解为存储在数据集市中并使用主键和外键互连的较小表来消除数据冗余。 它通过执行参照完整性规则确保数据的一致性和准确性。

范式的目标是为核心数据仓库构建一个全面的、公司范围的数据模型; 然而,由于高度耦合的数据集市、近实时模式下的加载困难、费力的请求以及自上而下的设计和实现,它存在可扩展性和灵活性问题。

用于 OLAP(联机分析处理)和数据集市的 Kimbal 模型是另一种著名的数据仓库模型,其中事实表包含聚合数据,维度表以星型模式或雪花模式设计描述存储的数据。 在此架构中,数据被组织成非规范化的事实表和维度表,以简化查询和分析。

Kimbal 基于为查询和报告优化的维度模型,使其成为商业智能应用程序的理想选择。 但是,它存在面向主题的信息隔离、数据冗余、查询结构不兼容、可扩展性困难、事实表粒度不一致、同步问题以及需要自上而下设计和自下而上实现等问题。

相比之下,Data vault 架构是一种混合方法,结合了 3NF 和 Kimball 架构的各个方面。 它是一种基于关系原理、数据规范化和冗余数学的模型,以不同方式表示实体之间的关系,并以不同方式构建表字段和时间戳。

在此架构中,所有数据都存储在原始数据保险库或数据湖中,而常用数据以规范化格式存储在业务保险库中,其中包含可用于报告的历史数据和特定于上下文的数据。

Data Vault 通过提高效率、可扩展性和灵活性来解决传统模型中的问题。 它允许近乎实时的加载、更好的数据完整性以及在不影响现有结构的情况下轻松扩展。 还可以在不迁移现有表的情况下扩展模型。

建模方法数据结构设计方法3NF 建模 3NF 中的表自下而上Kimbal 建模星型模式或雪花模式自上而下Data VaultHub-and-Spoke 自下而上

数据仓库架构

Data Vault 具有轴辐式架构,基本上由三层组成:

暂存层:从源系统收集原始数据,例如 CRM 或 ERP

数据仓库层:当建模为数据仓库模型时,该层包括:

  • Raw Data Vault:存储原始数据。
  • 业务数据仓库:包括基于业务规则的协调和转换数据(可选)。
  • Metrics Vault:存储运行时信息(可选)。
  • Operational Vault:存储直接从操作系统流入数据仓库的数据(可选)。

数据集市层:该层将数据建模为星型模式和/或其他建模技术。 它为分析和报告提供信息。

图片来源:Lamia Yessad

Data Vault 不需要重新架构。 可以直接使用Data Vault的概念和方法并行构建新功能,并且不会丢失现有组件。 框架可以大大简化工作:它们在数据仓库和开发人员之间创建了一个层,从而降低了实施的复杂性。

  如何使用 Google Lighthouse 测试您的网站?

Data Vault 的组件

在建模期间,Data Vault 将属于对象的所有信息分为三类——这与经典的第三范式建模形成对比。 然后,这些信息将彼此严格分开存储。 功能区域可以映射到 Data Vault 中所谓的集线器、链接和卫星中:

#1。 集线器

中心是核心业务概念的核心,例如客户、卖家、销售或产品。 当业务键的新实例首次被引入数据仓库时,围绕业务键(商店名称或位置)形成中心表。

该集线器不包含任何描述性信息,也没有 FK。 它仅包含业务键、仓库生成的 ID 或哈希键序列、加载日期/时间戳和记录源。

#2。 链接

链接建立业务键之间的关系。 链接中的每个条目都对任意数量的集线器的 nm 关系建模。 它允许数据保险库灵活地响应源系统业务逻辑的变化,例如关系亲切度的变化。 就像集线器一样,链接不包含任何描述性信息。 它由它引用的集线器的序列 ID、仓库生成的序列 ID、加载日期/时间戳和记录源组成。

#3。 卫星

卫星包含存储在中心中的业务密钥或存储在链接中的关系的描述性信息(上下文)。 卫星“仅插入”工作,这意味着完整的数据历史记录存储在卫星中。 多个卫星可以描述单个业务键(或关系)。 但是,卫星只能描述一个密钥(集线器或链路)。

图片来源:Carbidfischer

如何构建数据仓库模型

构建 Data Vault 模型涉及多个步骤,每个步骤对于确保模型可扩展、灵活且能够满足业务需求至关重要:

#1。 识别实体和属性

识别业务实体及其相应的属性。 它涉及与业务利益相关者密切合作,以了解他们的需求和他们需要捕获的数据。 一旦确定了这些实体和属性,就将它们分成中心、链路和卫星。

#2。 定义实体关系并创建链接

一旦您确定了实体和属性,就定义了实体之间的关系,并创建了表示这些关系的链接。 每个链接都分配有一个业务键,用于标识实体之间的关系。 然后添加卫星以捕获实体的属性和关系。

#3。 建立规则和标准

创建链接后,应建立一套规则和数据仓库建模标准,以确保模型具有灵活性并能够处理随时间变化的变化。 应定期审查和更新这些规则和标准,以确保它们保持相关性并符合业务需求。

#4。 填充模型

创建模型后,应使用增量加载方法为其填充数据。 它涉及使用增量加载将数据加载到集线器、链路和卫星中。 增量加载可确保仅加载对数据所做的更改,从而减少数据集成所需的时间和资源。

#5。 测试和验证模型

最后,应该对模型进行测试和验证,以确保它满足业务需求,并且具有足够的可扩展性和灵活性来处理未来的变化。 应执行定期维护和更新,以确保模型与业务需求保持一致,并继续提供统一的数据视图。

数据仓库学习资源

掌握 Data Vault 可以提供宝贵的技能和知识,这些技能和知识在当今数据驱动的行业中备受追捧。 以下是一份完整的资源列表,包括课程和书籍,可帮助您了解 Data Vault 的复杂性:

#1。 使用 Data Vault 2.0 建模数据仓库

本 Udemy 课程全面介绍了 Data Vault 2.0 建模方法、敏捷项目管理和大数据集成。 该课程涵盖 Data Vault 2.0 的基础知识和基础知识,包括其体系结构和层、业务和信息库以及高级建模技术。

  如何在笔记本电脑上打开 DWG 文件

它教您如何从头开始设计 Data Vault 模型,将 3NF 和维度模型等传统模型转换为 Data Vault,并了解 Data Vault 中维度建模的原理。 该课程需要数据库和 SQL 基础知识的基本知识。

这门畅销课程的评分高达 4.4(满分 5 分)和超过 1,700 条评论,适合希望在 Data Vault 2.0 和大数据集成方面打下坚实基础的任何人。

#2。 用用例解释数据仓库建模

本 Udemy 课程旨在指导您使用实际业务示例构建 Data Vault 模型。 它可作为 Data Vault 建模的初学者指南,涵盖关键概念,例如使用 Data Vault 模型的适当场景、传统 OLAP 建模的局限性以及构建 Data Vault 模型的系统方法。 具有最少数据库知识的个人也可以访问该课程。

#3。 Data Vault Guru:实用指南

Patrick Cuba 先生的 Data Vault Guru 是数据保险库方法的综合指南,它提供了一个独特的机会,可以使用类似于软件交付中使用的自动化原理对企业数据仓库进行建模。

该书概述了现代架构,然后提供了有关如何提供灵活的数据模型以适应企业数据保险库变化的详尽指南。

此外,本书通过提供自动时间线校正、审计跟踪、元数据控制以及与敏捷交付工具的集成来扩展数据保险库方法。

#4。 使用 Data Vault 2.0 构建可扩展的数据仓库

本书为读者提供了使用 Data Vault 2.0 方法自始至终创建可扩展数据仓库的综合指南。

本书涵盖了构建可扩展数据仓库的所有基本方面,包括 Data Vault 建模技术,该技术旨在防止典型的数据仓库故障。

本书提供了大量示例,以帮助读者清楚地理解这些概念。 凭借其实用的见解和真实世界的示例,这本书对于任何对数据仓库感兴趣的人来说都是必不可少的资源。

#5。 冰箱里的大象:Data Vault 成功的指导步骤

John Giles 的 The Elephant in the Fridge 是一本实用指南,旨在帮助读者通过从业务开始和以业务结束来取得 Data Vault 的成功。

本书侧重于企业本体和业务概念建模的重要性,并提供有关如何应用这些概念创建可靠数据模型的分步指导。

通过实用的建议和示例模式,作者对复杂的主题进行了清晰而简单的解释,使本书成为 Data Vault 新手的绝佳指南。

最后的话

Data Vault 代表了数据仓库的未来,在敏捷性、可扩展性和效率方面为公司提供了显着优势。 它特别适合需要快速加载大量数据的企业以及希望以敏捷方式开发商业智能应用程序的企业。

此外,拥有现有孤岛架构的公司可以从使用 Data Vault 实施上游核心数据仓库中获益匪浅。

您可能还对了解数据沿袭感兴趣。