深入了解 Power BI 数据建模
对于 Power BI 的新手,或者希望更深入理解其功能的您,建议从数据建模入手。掌握数据建模后,逐步进行数据挖掘,最终从 Power BI 报告中提取有价值的见解。
数据建模是任何数据分析项目的基石。它位于用户所见的数据可视化和仪表板的底层,是支撑一切的核心。
正如其他数据分析工具一样,Power BI 也需要在后端进行数据建模。这个过程包括数据整合、数据转换、创建输入数据集中各个表之间的关系以及添加计算等步骤。
本文将详细介绍 Power BI 数据建模的相关知识,包括如何创建 Power BI 数据模型的详细步骤指南,帮助您全面掌握。
什么是数据建模?
数据建模的核心在于创建数据结构、关系和属性的简化表示,通过连接数据集的底层组成部分(如表、行和列等)来实现。
它有助于组织和理解数据,以便高效地存储、检索和分析。后端数据模型对于设计数据库、软件和系统至关重要。
数据建模涉及识别实体、定义其属性以及展示它们之间如何相互连接,从而产生模式和可操作的见解。它对于确保数据分析的准确性,并支持决策过程至关重要。
Power BI 数据分析中数据建模的重要性
数据建模在数据分析工具中起着至关重要的作用,例如 Power BI。此商业智能工具依赖于结构良好的数据模型来创建有意义的可视化和分析结果。
通过运用数据建模原理,您可以有效地连接、转换和可视化来自多个来源的大型数据集。 Power BI 中的数据建模还有助于确保这些分析工具中呈现的数据是准确且相关的。
最终,数据建模帮助我们做出明智的决策,并释放数据驱动洞察的全部潜力。本质上,它也为 Power BI 等强大的数据分析工具提供了宝贵的商业智能基础。
数据建模的类型
1. 概念数据建模
概念数据建模侧重于数据的整体视图。它在高层次上表示数据,不考虑特定的数据库结构或技术细节。这种方法有助于使数据与组织目标保持一致,并帮助利益相关者理解数据的目的和重要性。
2. 物理数据建模
物理数据建模专注于根据存储和检索的技术实现层面来构建数据集。它指定了可以在数据库系统中使用的数据存储结构,例如表、索引和约束。
3. 逻辑数据建模
逻辑数据建模弥合了概念建模和物理建模之间的差距。这种建模可以作为数据库设计的蓝图,促进业务利益相关者和技术团队之间的沟通,同时保持数据的完整性和一致性。
Power BI 中的数据建模技术
1. 星型模式
星型模式是 Power BI 中广泛使用的数据建模技术。在这种方法中,有一个包含关键指标和度量的中心事实表,周围围绕着提供数据上下文的维度表。它被称为“星形”,因为事实表位于中心,像星形的点一样连接到维度表。
2. 基数
基数定义了 Power BI 中表之间的关系。它指定一个表中有多少唯一值与另一个表中的值匹配。基数选项包括一对一、一对多和多对一。选择正确的基数对于准确的数据建模至关重要。
3. 交叉筛选方向
交叉筛选方向是指对一个链接表中的数据应用筛选器将如何影响另一个表中的数据。交叉筛选方向有两种类型:
单向
单向交叉筛选方向是一种关系选项,其中筛选器只能沿一个方向流动,通常是从维度表到事实表。它确保筛选维度表会影响事实表,而不是相反。
双向
双向交叉筛选允许筛选器在事实表和维度表之间双向流动。它在某些情况下很有用,但应谨慎使用,因为如果管理不当,可能会导致意外结果。
4. 雪花模式
图片来源:learn.microsoft.com
雪花模式是星型模式的扩展,其中维度表进一步规范化为子维度。这创建了一个更加结构化但复杂的模式。虽然它可以减少数据冗余,但在 Power BI 中导航可能需要付出更多努力。
5. 查找表
查找表是保存参考信息的维度表,例如产品详细信息或地理数据。它们用于丰富事实表中的数据,为分析提供额外的上下文。
6. 数据表
数据表是一个有时与事实表互换使用的术语。它们包含主要数据,包括度量和外键,并作为构建 Power BI 报告和可视化的基础。
Power BI 中数据建模的优势
- Power BI 数据建模使您能够连接多个数据表,以便在分析整个数据集、创建报告或构建仪表板时,可以从这些表中获取数据。
- 结构良好的数据模型可以在 Power BI 中实现引人注目且有意义的可视化。
- 当存在底层数据模型时,普通用户可以轻松地与数据的可视化部分进行交互。
- 优化的 Power BI 数据模型可帮助您更快地从包含数百万行的大型数据库中查询数据。
- 当后端存在结构化数据模型时,您可以通过分析大型数据集的所有表来深入钻取数据。
- 此外,您还可以轻松地将一个数据模型链接到另一个数据模型,或引用不同报告中的数据模型,以交叉链接数据集进行高级洞察提取。
- 您可以通过创建 Power BI 数据模型并通过基于角色的访问保护它们,来控制和保护数据的敏感部分,同时保持数据的公共部分开放。
- 如果您通过从零售 POS、应用程序和市场收集数据来处理实时增长的数据集,则必须先创建一个数据模型,然后再分析每天增长的整个数据集。
如何在 Power BI 中进行数据建模
在 Power BI 中创建数据模型非常简单。以下是您必须遵循的步骤:
将数据集导入 Power BI
首先,您必须将数据集导入 Power BI。您可以导入任意数量的数据集,也可以导入包含多个数据对象(如表、列、行等)的数据集。
Power BI 将自动分析导入的数据集或数据对象,并根据列标题或表标题的名称创建主数据模型。
要导入数据集,请按照以下步骤操作:
- 打开 Power BI 桌面应用。
- 它应该显示 Power BI 工作区以及启动屏幕。
- 单击“获取数据”。
- 在“获取数据”对话框中,您可以在左侧导航窗格中选择要导入的数据类别,并在右侧导航窗格中选择数据的来源或类型。
- 默认数据源类型选择为“全部”。
- 由于我的数据集位于 Excel 工作簿中,因此我将选择右侧的“Excel 工作簿”选项,然后单击“连接”。
- 在“打开”对话框中,导航到要在 PC 上导入的 Excel 文件,然后双击该文件将其导入到 Power BI 中。
- 现在,您应该位于导航器对话框中。
- 在那里,选中要导入到 Power BI 报告的数据对象。
- 单击“加载”以完成 Power BI 中的数据导入过程。
创建 Power BI 数据模型
当您单击导航器上的“加载”按钮时,Power BI 开始分析数据集、创建数据对象模型、创建数据模型,最后将您带到“报告视图”选项卡。
如果单击左侧面板上的“表视图”菜单,您应该会获得刚刚导入到 Power BI 的所有数据对象的表格视图。
Power BI 不会自动保存到目前为止的工作。因此,您需要单击功能区菜单上的“文件”,然后单击左侧面板上的“保存”,将文件保存到 PC 上的某个位置。
现在,我们深入研究 Power BI 中的数据建模过程。按着这些次序:
- 单击 Power BI 工作区左侧面板上的“模型视图”选项卡。
- 您现在应该看到 Power BI 创建的默认数据模型。
- 在当前示例中,它是星型模式,因为中间有一个事实表,并且事实表被维度表包围。
- 现在,Power BI 可能并不总是准确地创建您需要的数据模型连接。
- 在当前示例中,尽管有类似的列标题“Geography”和“Geo”,但它无法将事实表与维度 Table24 连接起来。
- 它无法做到这一点,因为列标题不完全匹配。
- 要将Table24与事实表Main Data连接起来,只需将Table24的“Geo”对象拖到事实表的“Geography”元素的中心即可。
就是这样!您已在 Power BI 上成功创建数据模型。下面找出关系线上各个对象的含义:
- 事实表边缘的星号和维度表边缘的数字“1”代表一对多连接。
- Power BI 上两个表之间的连接线上的箭头指示筛选器的方向。当箭头的锐边面向事实表时,应用于维度表的任何筛选器都会影响事实表。
- 当有两个箭头时,筛选器会影响两侧的表,即事实表和维度表。
可视化您的数据
现在,您可以通过以下方式可视化数据集以提取可操作的见解:
- 单击“报告视图”选项卡。
- 从右侧的“可视化”部分中选择任何图表。
- 我选择了堆积柱形图。
- 展开 Power BI 工作区最右侧的数据集。
- 将项目拖放到图表编辑器的 X 轴和 Y 轴字段上。
- Power BI 将自动为您创建图表。
Power BI 中数据建模的用例
创建整体报告
为了创建多维报告或仪表板在 Power BI,您必须使用 Power BI 数据模型功能。单张表中的数据可能意义不大。但是,当您从不同的数据集和对象中引入数据时,您可以更好地可视化数据。
整合数据
假设源 Excel 工作簿或 SQL 数据库中有多个数据集或数据表。您可以将所有报告连接到星型或雪花架构中,并将它们作为一个整体进行可视化,而不是制作不同的 Power BI 报告。通过统一所有数据对象,您可以更好地讲述数据故事。
数据清理和转换
只有当您尝试创建 Power BI 数据模型时,是否需要清理和转换原始数据集才会变得明显。
例如,如果该工具无法连接数据模型中的相关数据列或表,则列标题可能不匹配。所以,您就知道要解决什么问题。
另一个例子可能是表中的多个元素。假设数据集中只有 4 个地理位置,即 US、CA、UK 和 DE。但数据模型显示了一个额外的内容,即空白。这是因为某些地理名称包含不必要的空格,因此 Power BI 将它们分类到新的地理元素中。
控制数据可见性
您可以使用“模型视图”选项卡来限制谁可以查看 Power BI 报告或仪表板中的内容。通过单击 Power BI 数据模型工作区中每个数据卡上的眼睛图标,您可以隐藏或取消隐藏表。
如果数据卡中有多于一列,您也可以自定义这些列的可见性。
操作选定的数据表
Power BI 数据模型界面上的每个数据表都带有更多选项或三点图标。在那里,您可以发现可以对所选数据表执行的以下活动:
- 新建度量值或列
- 刷新数据
- 管理关系
- 增量刷新
- 管理聚合
- 还有更多
结论
本文介绍了创建 Power BI 数据模型,用于在逻辑报告或仪表板中可视化大型分布式数据集的过程。
到目前为止,您已经了解了 Power BI 中的不同数据建模技术。此外,您还找到了从头开始创建 Power BI 数据模型的步骤。现在就开始按照这些步骤创建您自己的数据模型吧。
接下来,您可以考虑学习数据分析师课程,开启您在数据科学或数据分析领域的职业生涯。