当前位置：首页 > 行业资讯 > 数字孪生五维模型｜孪生系统中的时空大数据分析

数字孪生五维模型｜孪生系统中的时空大数据分析

2年前 (2023-02-21)行业资讯

隐含在数字孪生体中的时空关联性(Spatial-temporal Correlation)蕴含着本体运行态势的大量统计信息。例如湖面上的涟漪是个非常优美的时空演变过程，从时间、空间、时空联合的角度上看均极具规律。然而现有的大部分数学工具无法很好地处理时空数据，它们往往在开始阶段就采用时空割裂的方式对数据进行降维，这样就丢失了大量的统计信息，会造成所构建的诊断判据难以兼顾敏感性和可靠性、或者复杂模式无法识别等一系列工程后果。文章提出基于随机矩阵理论(RMT)的时空大数据分析框架：将时空数据集建模为随机矩阵序列，即分析最小单元变为N×T的随机矩阵(在此视角下，经典分析可将最小分析单元视为1×T的向量或1×1的标量)。然后，简要讨论了RMT的基本理论、工具和方法，例如渐近谱定律、变换、收敛速度、自由概率，从而得以从数字孪生体中提取高维统计量以进一步工程系统的构建态势感知指标，以便更为宏观、全面地理解系统本体。最后，给出了一些潜在的应用领域。

关键词：数字孪生、数据驱动、不确定性、时空数据、大数据分析

随着数据相关工程技术的高速发展，缺少数据或者数据质量的问题已经得到了极大地缓解，数据科学成为数据赋能的核心。以电力系统为例，系统中所部署的相量测量单元(PMU)收集了系统运行产生的大量时空数据，以期望将其用于改进广域保护和控制。然而，电力系统经典算法大多数是基于模型的，即建立在机理假设/简化和线性系统控制理论的基础上，具有确定(deterministic)的分析结果。然而，这些模型难以应付当今电力系统其复杂性与不确定性不断增加的发展趋势，将促成一个开放、扁平、非线性、高不确定性和分布式的能源互联网EIoT，如图1所示。对于这样的EIoT，是很难用机理模型或决定论来建模描述的。

时空数据是上述系统或当今工程系统中的主要数据：多个传感器(N个空间维度)同时记录系统本体的演变过程(T个采样时刻)。面对以上时空数据，我们很难提取统计信息，尤其是时空相关性；高维结构不符合大多数传统数学方法的要求。此外，该任务与神经网络等监督训练算法与海量标记数据的不对称性不兼容。幸运的是，随机矩阵理论(RMT)通过统一时间和空间它们的比值c = T/N，可以从数学上严格地开展时空相关性联合分析(Spatial-temporal jointly analysis),从而为时空数据分析以及数字孪生体态势感知提供新的分析工具与视角。

2. DT框架

为将复杂系统与数据科学有机结合起来，有必要首先对数字孪生DT及其框架进行探讨。

得益于系统复杂性的增值和数据科学的发展，当今DT应该具有以下4个新的特性：

1、对于所处复杂环境下的某个系统，以特定应用为视角(如异常检测)，其感知结果对于多样性和不确定性应具备一定的鲁棒性；

2、兼容了数据科学，特别是大数据统计分析和人工智能；

3、近乎实时的与本体(通过数据)链接；

4、可以与本体及其物理环境互动，甚至在假想场景下反应一致。

为此，DT应具备以下三点内在属性：

1、数据驱动模式：特备是处理高维数据，从中提取价值；

2、无缝衔接能力：通过学习和更新机制，与本体保持一致；

3、闭环反馈机制：输出控制策略等所造成的结果将作为反馈变量输入到决策器中。

DT是时空数据的载体，上述框架为时空大数据分析提供了支撑。

3.时空联合分析方法论

本部分总结罗列了时空大数据联合分析方法论相关数个重要问题，并对其做了相关的回答。

Q1、时空大数据是什么？

Q2、时空大数据挖掘的目标是什么？

Q3、如何挖掘？

Q4、数据建模工具有哪些？

Q5、数据分析工具有哪些？

Q6、高维信息如何支撑具体应用？

Q7、高维统计指标相比于传统指标有哪些区别？

上述问题均是传统机理分析和决定论所不涉及的，它们将贯穿我们的讨论。

A. 时空大数据、信息挖掘及其相关工具，高维指标

电力系统所承载的数据流是一种时空大数据，满足以下大数据定义：

1）在某个时间点，系统中的采样数据可以排列成一个维的向量(取决于采样数据类型数目，往往较大)，

2）系统数据采样的时间足够长，其观测数据可形成数据库

3）对系统中任意一段时间()的采样数据，可以定义函数。

大数据挖掘体系包含高维数据建模与分析所涉及的基础理论、数学工具和处理算法等，其实现的难点在于高维度—维度高(而非数据量大)也是大数据的最主要特征。高维度(即多量测点)开辟了数据集的空间维度，从而得以通过高维统计分析计算出多个变量间的相关性，即得到高维统计信息。高维度与高密度(即高采样率)的融合即构成了高维时空数据结构—数据维度N和样本数T均较大且相当(N/T=c>0)。对于这种结构，绝大部分的工具往往无法从中提取到有效的统计信息——传统的物理模型和分析算法往往是低维的，如前文所述的三维Park变换，低维工具往往通过分而治之的方式处理高维数据集，即进行多次独立分析而每次分析仅处理低维数据，这种处理方式割裂了高维时空数据(又称时空大数据)的时空联合相关性，丢失了最主要的统计信息；更重要的是，从统计学角度来说，传统意义上的大数定律和中心极限定理不再适用——采用以经典极限理论为基础的参数/非参数统计方法来处理时空大数据其结果可能严重错误。

数据驱动的核心思想是将数据视为研究对象的表象，通过直接挖掘数据而非依靠将数据带入预设模型来认知对象继而分析出所关注的对象属性。数据模型的建模与分析可独立于工程系统，即利用数据集和统计工具即可实现。数据驱动范式在一定程度上规避了在电网系统中基于物理运行机理难以建模、大量数据难以利用等问题，并可采用统计工具分析各个环节和数据模型其高维特征的统计性质(收敛性、置信度、精度、训练/测试误差)，所得的高维特征为系统认知提供了新的依据。就目前而言，高维特征主要包括基于大数据统计分析BDA的高维统计量(high-dimensional statistics)，以及基于深度神经网络的深层特征(deep feature)。

对于高维数据驱动模式的配电网认知，借助高维分析工具提取数据的高维特征是其优越性的主要体现——高维特征相比于低维特征更适合用于认知指标：高维特征的构建涉及多个量测数据，包含更多的统计信息(从信息量的角度考虑，高维特征包含低维特征)，且对原始数据丢失、异常等瑕疵有较强的鲁棒性；更重要的是，原始数据及其对象本身就是高维的，高维特征在构建过程中考虑了噪声空间(不确定性、数据质量、干扰、误差等)与信号空间(对象属性)的高维统计规律(如时空联合相关性，仅体现在高维空间中)，并可依此分离两者从而提高所建特征对信号的表征能力，故高维特征的统计性质往往更加稳定(收敛性好、方差小)。

B. 随机矩阵理论及其高维指标构建

随机矩阵理论(random matrix theory, RMT)的研究起源于原子核物理领域。Wigner在研究量子系统中得出结论，对于复杂的量子系统，随机矩阵理论的预测代表了所有可能相互作用的一种平均[25]。偏离预测的那部分属性反映了系统中特殊非随机的性质，这为了解和研究潜在的相互作用和关系提供了理论支撑。

RMT以矩阵为单位，可以处理独立同分布(independent identically distributed，IID)的数据。RMT并不对源数据的分布、特征等做出要求(如满足高斯分布，为Hermitian矩阵等)，仅要求数据足够大(并非无限)。故该工具适合处理大多数的工程问题，特别适合用于分析具有一定随机性的海量数据系统。随机矩阵理论认为当系统中仅有白噪声、小扰动和测量误差时，系统的数据将呈现出一种统计随机特性；而当系统中有信号源(事件)时，在其作用下系统的运行机制和内部机理将会改变，其统计随机特性将会被打破。单环定律(Ring Law)、Marchenko-Pastur定律(M-P Law)均是RMT体系的重大突破。在这些理论基础上，可进一步研究随机矩阵的线性特征根统计量(linear eigenvalue statistics, LES)，而平均谱半径(mean spectral radius)则是LES所构造出的一个具体对象。

B1. 随机矩阵理论基本定理

B2. 随机矩阵理论中心极限定理及其高维统计量LES

在随机矩阵理论中，Wigner的半圆律Semicircle Law和Marchenko-Pastur的M-P Law可类比经典统计中的大数定理，而接下来将自然而然地研究随机矩阵线性特征值统计量(linear eigenvalue statistics, LES)的中心极限定理。

C.高维指标 VS 低维指标 VS 经典指标

高维特征相比于低维特征更适合用于构建认知指标：低维特征可表征简单的变量，如仅用均值和方差即可表示高斯变量的所有统计信息，然而均值和方差一样的时间序列可能截然不同；高维特征的构建涉及多个量测数据，包含更多的统计信息(从信息量的角度考虑，高维特征包含低维特征)，且对原始数据丢失、异常等瑕疵有较强的鲁棒性；更重要的是，原始数据及其对象本身就是高维的，高维特征在构建过程中可考虑噪声空间(不确定性、数据质量、干扰、误差等)与信号空间(对象属性)的高维统计规律(如时空联合相关性，仅体现在高维空间中)，并可依此分离两者从而提高所建特征对信号的表征能力，故高维特征的统计性质往往更加稳定(收敛性好、方差小)。