假设检验是私营和政府部门的许多分析师用来对人口数据做出可能的陈述或假设的一种方法。
如果您一直在处理或研究人口数据,您一定遇到过这个重要的假设检验工具。
可以采用许多方法来做出假设,但并非所有方法都能提供更高的准确性。
如果您不确定自己的数据但仍想使用它,那么这可能会给您的组织带来风险。
假设检验是实现更高准确度的好策略。 它在人口分析中发挥了重要作用。
在本文中,我将讨论什么是假设检验、它是如何工作的、它的好处和它的用例。
所以,事不宜迟,让我们开始吧!
什么是假设检验?
假设检验是一种统计推理方法,分析人员用来检验可用的人口数据是否充分支持给定的假设并据此做出假设。
通过这种方法,分析师可以轻松地评估一个假设,并根据手头的数据确定该假设的准确性。
简单来说,它是一个基于推理统计的测试过程,可以让你根据收集到的样本数据对人口数据做出判断。
一般来说,分析师几乎不可能找到整个人口的属性或任何特定参数。 但是通过假设检验,您可以根据样本数据及其准确性做出明智的预测和决策。
假设检验的类型
不同类型的假设检验是:
- 零假设:统计表明样本数据是突变的,给定样本数据中的两个变量之间不存在相关性。
- 备择假设:它证明了主要论点并反对原假设。 它是测试过程中的主要驱动力,因为它显示了样本数据中两个变量之间的相关性。
- 非定向假设:这种类型的假设检验用作双尾假设。 它描述了样本数据中两个变量之间没有方向,真实值与预测值不同。
- 方向假设:方向假设描述了两个变量之间的某种关系。 在这里,样本数据中的一个变量可以影响其他变量。
- 统计假设:它帮助分析师评估数据和值是否满足某个假设。 它在对样本总体参数的结果进行陈述和假设时非常有用。
接下来,让我们讨论假设检验的方法。
假设检验方法
为了评估特定假设是否正确,作为分析师,您需要大量似是而非的证据才能得出结论。 在此测试过程中,在开始评估之前会设置零假设和备择假设。
假设检验不仅仅涉及一种方法,而是涉及多种方法来评估样本数据是否有利。 作为分析师,您必须考虑数据和样本量,并选择适合您的假设检验方法。
正态性测试
它是一种标准的假设检验方法,用于分析样本数据中的正则分布。 在测试过程中,检查围绕均值分组的数据点是低于还是高于均值。
在此统计测试中,点高于或低于平均值的可能性是一样的。 形成钟形曲线,并且均匀分布在均值的两边。
Z-测试测试
这是人口数据呈正态分布时使用的另一种假设检验。 当您知道数据的方差时,它测试两个单独总体参数的平均值是否不同。
在分析人口数据时,当数据样本量超过 30 时,您很可能会使用这种类型。 此外,中心极限定理是使 Z 检验适用的另一个原因,因为该定理指出当样本量增加时,样本呈正态分布。
T 检验测试
当样本量有限且通常是分布的时,您将使用 T-Test 假设检验。 一般情况下,当样本量在30以下,且参数的标准差你不知道时,主要应用它。
当您进行 T 检验时,您可以计算特定总体数据的置信区间。
卡方检验
卡方检验是一种流行的假设检验过程,通常用于评估数据分布的适应性和完整性。
来源:wikipedia.org
但是,您将使用此假设类型的主要原因是当您想要针对假设值或已知值的总体方差检验总体方差时。 进行了不同的卡方检验,但最常见的类型是方差和独立性的卡方检验。
方差分析测试
缩写为方差分析,它是一种统计测试方法,有助于比较两个样本的数据集。 但是,它允许您一次比较两个以上的均值。
它还解释了样本数据的因变量和自变量。 ANOVA 的用法与 Z-Test 和 T-Test 的用法非常相似,但后两者仅限于只有两种手段。
假设检验如何工作?
每个使用假设检验的分析师都使用随机样本数据进行分析和测量。 在检验过程中,随机样本数据用于检验原假设和备择假设。
正如我们之前所讨论的,零假设和备择假设是完全互斥的,并且在测试结果中,只有一个可以为真。
但是,在某些情况下,原假设会被拒绝; 替代假设并不总是正确的。
资料来源:分析步骤
p值:当测试过程开始时,涉及到p值或概率值,它表明结果是否显着。 不仅如此,p 值还显示了在检验过程中拒绝或不拒绝零假设时发生错误的概率。 生成的 p 值为 0 或 1,然后将其与显着性水平或 alpha 水平进行比较。
此处的显着性水平定义了可接受的风险,同时在测试期间拒绝零假设。 重要的是要记住,假设检验的结果可能导致两种类型的错误:
- 类型 1 错误发生在检验结果否定原假设(即使原假设为真)时。
- 当样本结果接受原假设尽管是假的时,就会出现类型 2 错误。
导致拒绝零假设的所有值都存储在临界区中。 将关键区域与其他区域区分开来的是临界值。
执行假设检验的步骤
资料来源:媒体
假设检验主要包括四个步骤:
- 定义假设:第一步,作为分析师,您的工作是定义两个假设,以便只有一个假设为真。 零假设表明平均 BMI 没有差异,而备择假设表明平均 BMI 存在显着差异。
- 计划:在下一步中,您需要设计一个关于如何分析示例数据的分析计划。 至关重要的是,您应该进行抽样并收集样本数据,以确保它旨在检验您的假设。
- 分析样本数据:在决定如何评估数据之后,就该开始这个过程了。 您将必须对示例数据进行物理分析,以免出现冗余。 在分析数据时,您应该检查样本是否相互独立,并且两个样本大小是否足够大。
- 计算测试统计数据:在此阶段,您必须计算测试统计数据并找到 p 值。 p 值将通过假设原假设为真来确定。
- 评估结果:在最后一步,您需要评估假设检验的结果。 在这里,您将决定是拒绝零假设还是根据样本数据声明其合理性。
现在,我们将探讨假设检验的好处。
假设检验的好处
假设检验的好处是:
- 它可以帮助您分析您对数据决策的主张的强度。
- 作为分析师,它允许您创建一个可靠的环境来决定样本数据。
- 它可以让您确定假设检验中涉及的样本数据是否具有统计显着性。
- 它有利于评估任何系统测试过程中测试结果的可靠性和有效性。
它可以帮助您根据需要将样本阶段的数据外推到更大的总体。
假设检验的用例
假设检验被用于各个领域,以适当地猜测样本数据的准确性。 假设检验的一些真实示例是:
#1。 临床试验
假设检验在临床试验中被广泛使用,因为它可以帮助医疗专业人员根据样本数据确定新药、治疗或程序是否有效。
医生可能认为治疗可能会降低某些患者的钾水平。 医生可能会在进行治疗前测量一组患者的钾水平,并再次检查水平。
接下来,医生进行假设检验,其中 H0: Uafter = Ubefore,这表示应用治疗后钾水平与之前相同。 另一个假设表明 Ha:Uafter < Ubefore,这意味着钾水平在应用治疗后有所下降。
因此,如果 p 值小于显着性水平,则医生可以得出结论,该治疗可以降低钾水平。
#2。 制造业
制造工厂使用假设检验来帮助主管确定新方法或技术是否有效。
例如,一些制造单位可能会使用假设检验来确定新方法是否有助于他们减少每批次的缺陷产品数量。 假设每批次的不良品数量为 300 件。
制造商必须确定使用该方法前后生产的缺陷产品总数的平均值。 他们可能会执行假设检验并使用假设 H0:Uafter = Ubefore,其中应用新方法后产生的缺陷产品的平均值与之前相同。
另一个假设表明,HA:Uafter 不等于 Ubefore,这意味着应用新方法后产生的缺陷产品总数不相同。
测试后,当 p 值小于显着性水平时,制造单位可以断定生产的缺陷产品数量发生了变化。
#3。 农业
假设检验通常用于查明肥料或杀虫剂是否引起植物的生长和免疫力。 生物学家可以通过测试来证明某种植物在施用新肥料后可能会长高 15 英寸以上。
生物学家可能会施肥一个月以收集样本数据。 当生物学家进行测试时,一个假设是 H0 U=15 英寸,这表明肥料不会促进植物的平均生长。
另一个假设显示 HA:U > 15 英寸,这意味着肥料会促进植物的平均生长。 在 p 值小于显着性水平时进行测试后,生物学家现在可以证明肥料导致比以前更多的生长。
学习资源
#1。 统计数据:Udemy 的分步介绍
Udemy 正在提供一门统计学课程,您将在其中学习统计学的逐步介绍,涵盖假设检验。 本课程包含来自前 Google 数据科学家的示例和课程,可帮助您掌握置信区间、假设检验等。
#2。 Udemy 数据分析的基本统计数据
这个关于数据分析基本统计的 Udemy 课程将帮助您通过真实世界的项目、有趣的活动、假设检验、概率分布、回归分析等学习统计。
#3。 数据科学和商业分析统计
这门关于数据科学和商业分析的统计课程由 Udemy 提供,将帮助您学习假设检验。 它涵盖了不同的统计主题,使数据科学家和业务分析师能够学习和掌握它们。 它涵盖了推论和描述性统计以及回归分析。
#4。 Jim Frost 的假设检验
这本书在亚马逊上有售,是帮助分析师做出数据驱动决策的直观指南。
它涵盖了假设检验的工作原理、为什么需要它们、如何有效地使用置信区间、p 值、显着性水平以及更多主题。
#5。 Scott Hartshorn 的假设检验
这本书以其视觉示例而独树一帜,最适合寻求假设检验快速指南的初学者。
它将向您介绍统计数据的重要性、类型及其工作原理。 它不需要您以前有深入的统计知识,而是直观地解释一切。
最后一句话
假设检验有助于验证假设,然后根据评估得出统计数据。 它被用于许多领域,从制造业和农业到临床试验和 IT。 这种方法不仅准确,而且可以帮助您为您的组织做出数据驱动的决策。
接下来,查看成为业务分析师的学习资源。