时间序列数据简介
在数据分析领域,时间扮演着至关重要的角色。尤其是在时间序列分析中,时间本身就是一个关键的数据维度。
什么是时间序列数据?
时间序列数据指的是按照时间顺序排列的一系列数据点。这种数据类型强调了各个观测值之间的先后依赖关系。在当今这个数据驱动的世界里,时间序列数据几乎无处不在。我们日常生活中接触的各种事件都受到时间流逝的影响,因此我们不断地与各种时间序列数据互动。
通常情况下,时间序列数据被假设为按照固定的时间间隔生成,这被称为规则时间序列。然而,并非所有时间序列数据都需要以定期的方式产生。例如,不规则时间序列的数据点可能遵循一系列时间阶段,但数据点的采集并不一定以定期的方式进行。这意味着数据的测量可能不是周期性的,而是以离散的时间间隔或者以突发的形式出现。自动取款机(ATM)的取款或账户存款就是不规则时间序列的例子。
从技术角度来看,在时间序列中,一个或多个变量在特定的时间段内会发生变化。如果只有一个变量随时间变化,我们称之为单变量时间序列。例如,一个传感器每秒测量一次房间的温度,那么每一秒都会产生一个温度值,这是一个一维的数据。相反,如果有多个变量随时间变化,则称为多元时间序列。例如,在银行经济学中,多元时间序列可以用于研究一个变量(例如回购利率)的政策变动如何影响其他变量(例如商业银行的贷款支付)。
时间序列数据在众多学科中都有广泛的应用,包括金融、地质学、气象学、制造业、计算机科学、物联网、物理学和社会科学等领域。它可以用于追踪天气变化、出生率、死亡率、市场波动、网络性能等等。其主要应用场景包括监控、预测和异常检测。例如,时间序列预测在确定数据库管理系统的普及程度方面起着至关重要的作用。下图展示了在多年时间里(2019-2021年)数据库管理系统(DBMS)的普及程度。
时间序列的关键组成部分
影响时间序列中观测值的因素被认为是其关键组成部分,主要包括以下几类:
- 趋势或长期变动
- 短期变动
- 季节性变化
- 周期性变化
- 随机或不规则变动
趋势
趋势指的是数据在较长时间内呈现出的增长或减少的长期走向。 需要注意的是,在给定的时间范围内,数据的向上或向下移动并不一定始终保持在同一方向。
趋势在不同的时间段内可能表现为上升、下降或保持稳定。但是,整体趋势必须始终与向上、向下或稳定的模式一致。这种趋势性的移动在农业生产力、死亡率、制造设备和工厂数量等例子中十分明显。
线性和非线性趋势
通过绘制时间序列值与时间的关系图,我们可以根据数据的聚集模式来识别趋势的类型。如果数据点大致围绕一条直线分布,那么趋势被认为是线性趋势。否则,如果数据点的分布模式显示出变量之间的变化率不稳定或不恒定,则表示存在非线性趋势, 也被称为曲线相关。
短期变动
时间序列中的短期变动通常会在一段时间内重复出现。它们表现为不规则的短时间爆发,并对正在研究的变量产生影响。短期变动主要分为以下两类:
季节性变化
这些变化会在不到一年的时间内定期和有规律地发生。它们往往在12个月内表现出相似或几乎相同的模式。如果数据是定期记录的,例如每小时、每天、每周、每月或每季度记录一次,那么这类变化就会成为时间序列的一部分。
季节性变化可能是人为因素造成的,也可能是自然发生的。不同的季节或气候条件在这些变化中起着至关重要的作用。例如,农作物的生产完全取决于季节。同样,雨伞或雨衣的市场需求取决于雨季,而冷却器和空调设备的销售在夏季达到顶峰。
人为因素包括节日、聚会和婚礼等场合。这种短期的事件每年都会发生。
周期性变化
运行时间超过一年的时间序列变化被称为周期性变化。对于企业来说,一个完整的周期被称为“商业周期”。业务绩效的上升或下降取决于多种因素,例如经济结构、业务管理和其他相互作用的力量。这些周期性的业务变化可能是有规律的,但不是周期性的。一般来说,企业会经历繁荣、衰退、萧条和复苏四个阶段的循环过程。
这种循环变化是时间序列模式中不可或缺的一部分,因为业务发展在很大程度上依赖于生成的“顺序数据点”。
随机或不规则的变动
随机成分会导致观测变量的显著变化。这些纯粹是不规则的波动,没有任何固定的模式。这些力量在本质上是不可预测的、不稳定的——例如,地震、洪水、饥荒和其他灾难。
通过分析源时间序列数据中的上述随机事件,可以更好地为未来可能发生的类似情况做好准备。
时间序列的类型
时间序列数据可以分为确定性、非确定性、平稳和非平稳四种类型。让我们来详细了解每一种类型。
#1. 确定性时间序列
确定性时间序列可以用解析表达式来描述。它不涉及随机或概率方面。在数学上,它可以根据泰勒级数展开精确地表示所有时间间隔。如果它的所有导数在某个任意时间点都是已知的,那么这是可能的。这些导数明确指定了当时的过去和未来。如果满足所有条件,则可以准确预测其未来行为并分析其过去的行为。
#2. 非确定性时间序列
非确定性时间序列具有与之关联的随机方面,这会阻止对其进行明确描述。因此,解析表达式不是表达这种时间序列的有效解决方案。时间序列可能是不确定的原因如下:
- 描述它所需的信息并非全部可用。尽管原则上可能存在数据,但不能将其视为可明确量化的。
- 数据生成过程本质上是随机的。
由于随机因素,非确定性时间序列遵循概率规律。因此,数据通常用统计术语来处理,这意味着数据由概率分布以及各种形式的平均值定义。这包括分散的方法和度量,例如方差。
#3. 平稳时间序列
在平稳时间序列中,均值、方差等统计特性不依赖于时间。平稳时间序列更容易预测,因为我们可以认为它的统计特性将与过去观察到的保持一致。因此,各种统计预测方法都基于时间序列几乎是平稳的假设。这意味着通过应用简单的数学变换,时间序列可以被视为近似平稳。
#4. 非平稳时间序列
在非平稳序列中,统计特性会随时间变化。因此,具有趋势或季节性的时间序列属于非平稳类别,因为趋势和季节性可能会影响不同时间间隔内的时间序列的值。非平稳时间序列描述了不可预测的数据,从而无法对其进行建模或预测。
时间序列分析与预测
时间序列分析和预测是观察、分析和研究生命过程以及不同种类物体的演化和动态的有效工具。让我们更深入地了解每一个概念。
时间序列分析
时间序列分析被定义为分析一段时间内收集的数据的过程。在这个过程中,数据分析师在固定的时间段内以恒定的间隔记录数据。数据观察率,也就是时间间隔,可能从几秒到几年不等。
时间序列数据描述了被检查的变量,它提供了在特定时间跨度内波动模式的详细分析。分析所需的参数可能因不同的领域和学科而异。一些示例包括:
- 科学仪器——每天记录的数据
- 商业网站——每天的客户访问量
- 股票市场——每周的股票价值
- 季节——每年的雨天
为了确保一致性和可靠性,时间序列分析需要处理大量的数据点。良好的样本量是对已发现的趋势或模式真实性的有力体现。
此外,时间序列分析也适用于根据过去记录的数据预测未来事件。
时间序列预测
时间序列分析使组织能够确定趋势随时间波动根本原因。有了数据,企业就可以进一步研究和分析,以更好地了解如何应对不熟悉的趋势并预测即将发生的事件。公司通常采用数据可视化技术来识别数据中的异常。
时间序列预测围绕着两个基本因素:
- 根据过去的数据行为来预测未来会发生什么。
- 假设即将到来的趋势与过去的数据模式相似。
在预测中,主要目标是从根本上预测数据点在未来将如何保持不变或发生变化。以下是一些来自不同行业的示例,以帮助我们更好地理解时间序列分析和预测的细微之处。
- 股票市场——预测每天的收盘价。
- 销售额——预测商店每天的产品销售额。
- 定价——预测每天的平均燃油价格。
一些用于时间序列预测的常见统计技术包括简单移动平均(SMA)、指数平滑(SES)、自回归积分移动平均(ARIMA)和神经网络(NN)。
云端时间序列数据
为了充分发掘时间序列数据的价值,企业需要能够快速存储和查询数据。资本市场公司依靠大量的历史数据和流数据来进行实时数据分析,并做出有效的业务决策。这可能涉及预测股票价格的波动性、确定净资本要求或预测汇率。为了提供灵活性和无缝的数据处理能力,许多公司都选择将它们的时间序列数据库迁移到云端。
随着时间序列数据库向云端的迁移,组织可以按需访问无限的资源。这使得公司能够利用大量的计算资源来完成任务,并最大限度地提高网络吞吐量,而无需担心延迟问题。
云基础设施中的时间序列数据库非常适合计算密集型的工作负载。这包括基于实时市场趋势执行风险计算。金融公司可以消除数据中心的开销,并以零投资的方式利用资源来提高工作负载的生产力。
云服务提供商,例如 AWS,提供了 亚马逊时间流,这是一种时间序列数据库服务,可以轻松地加载、存储和分析时间序列数据集。它们提供了存储管理、事务密集型工作负载、实时分析工具和数据流功能,以便在事件发生时显示事件。
因此,云基础设施能够放大和扩展时间序列数据的优势。
时间序列的应用
时间序列模型有两个主要用途:
- 理解产生特定数据模式的潜在因素。
- 基于分析结果,拟合模型进行预测和监控。
让我们来看一下时间序列数据的一些应用实例。
#1. 金融和商业领域的时间序列
所有金融、商业和投资决策都基于当前的市场趋势和需求预测。时间序列数据被用来解释、关联和预测动态的金融市场。金融专家可以分析金融数据,从而为降低风险、稳定价格和交易的应用提供预测。
时间序列分析在财务分析中起着关键作用。它被用于利率预测、预测股票市场的波动等等。商业利益相关者和决策者可以就制造、采购、资源分配等做出明智的决策,并优化他们的业务运营。
这种分析方法可以有效地应用于投资部门,以监测安全率及其随时间的变化。我们也可以观察短期(例如,每小时或每天记录的数据)或长期(例如,跨越数月或数年的观测)证券价格。时间序列分析是跟踪证券、资产或经济变量在较长时间内表现的有用工具。
#2. 医疗领域的时间序列
医疗保健正在迅速发展成为一个数据驱动的领域。除了金融和商业分析之外,医疗领域也广泛利用时间序列分析。
考虑一个场景,在治疗癌症患者时,时间序列数据、医疗一致的程序和数据挖掘技术的协同作用是必不可少的。可以采用这种混合框架来利用从收集的时间序列数据(例如患者的 X 射线图像)中提取特征的功能,以跟踪患者的进展情况以及他们对医疗界提供的治疗方法的反应。
在医疗保健领域,从不断变化的时间序列数据中得出推论具有至关重要的价值。此外,先进的医疗实践要求随着时间的推移连接患者记录,以便更好地了解患者的健康状况。此外,必须定期准确地记录患者的健康参数,以便更清楚地了解患者的健康状况。
随着先进医疗仪器的出现,时间序列分析已经在医疗保健领域占据了一席之地。考虑以下示例:
- 心电图设备:用于通过记录心脏电脉冲来监测心脏状况的设备。
- 脑电图设备:用于量化大脑电活动的设备。
这些设备使医疗从业人员能够进行时间序列分析,从而实现更快、更有效和更准确的医疗诊断。
此外,随着可穿戴传感器和便携式医疗保健设备等物联网设备的出现,人们现在可以用最少的输入定期测量一段时间内的健康变量。这导致了对患病和健康个体的时间相关医疗数据进行持续的数据收集。
#3. 天文学中的时间序列
天文学和天体物理学是时间序列数据得到显著利用的两个现代学科。
从根本上说,天文学涉及绘制宇宙物体的轨迹和天体,并进行精确测量,以便更好地了解地球大气层以外的宇宙。由于这种要求,天文专家在校准和配置复杂的仪器以及研究感兴趣的天文物体时,非常精通处理时间序列数据。
时间序列数据长期以来一直与天文学领域相关联。早在公元前 800 年,人们就开始定期收集太阳黑子的时间序列数据。从那时起,时间序列分析就被用于:
- 根据恒星距离来发现遥远的恒星。
- 观察超新星等宇宙事件,以便更好地理解我们宇宙的起源。
在这种情况下,时间序列数据与恒星、天体或物体发出的光的波长和强度有关。天文学家不断地监控这种实时数据流,以便在宇宙事件发生时实时检测到它们。
近年来,出现了天体信息学和天体统计学等研究领域,它们融合了数据挖掘、机器学习、计算智能和统计学等多个学科。在这些新兴的研究领域中,时间序列数据在快速有效地检测和分类天文物体方面发挥着重要作用。
#4. 天气预报中的时间序列
亚里士多德对天气模式进行了广泛的研究,以便更好地了解古代天气变化的原因和影响。随着时间的推移,科学家们开始在诸如“气压计”等仪器上记录与天气相关的数据,以计算大气变量。数据被定期收集并保存在不同的地点。
最终,天气预报开始出现在报纸上。快进到今天,世界各地都安装了广泛存在的天气预报站,以收集准确的天气变量。
这些站点具有先进的功能设备,它们相互连接以收集和关联来自不同位置的天气数据。相关数据被用于根据需要预测每个时间实例的天气状况。
#5. 业务发展中的时间序列
时间序列数据使企业能够做出业务决策。这是通过分析过去的数据来推断未来的事件并阐明可能的可能性来实现的。过去的数据模式被用于导出以下参数:
- 业务增长:要评估整体财务和业务绩效并衡量增长,时间序列数据是最合适和可靠的资源。
- 估计趋势:可以采用各种时间序列方法来估计新出现的趋势。例如,考虑使用这些方法分析一段时间内的数据观察,以反映特定电子设备销量的增加或减少。
- 揭示季节性模式:记录的数据点可以揭示有助于数据预测的波动和季节性模式。获得的数据信息对于产品价格存在季节性波动的市场来说至关重要。这些数据可以帮助企业更好地规划和开发产品。
结论 👨🏫
总而言之,时间序列数据可以看作是在固定时间段内收集的复杂数据点的特征。随着物联网设备、智能家居设备和便携式设备的出现,时间序列分析、建模和预测已成为我们日常生活中不可或缺的一部分。此外,时间序列数据正在医疗保健、天体物理学、经济学、工程、商业等多个领域得到广泛应用。