大数据背景下剩余寿命预测典型解决思路的研究动态和存在的问题_检测资讯

大数据背景下剩余寿命预测典型解决思路的研究动态和存在的问题

嘉峪检测网 2024-06-14 08:59

摘要

1、分析了「机理模型与数据混合驱动的剩余寿命预测技术」、「基于机器学习的剩余寿命预测技术」、「统计数据驱动的剩余寿命预测技术」以及「机器学习和统计数据驱动相结合的剩余寿命预测技术」的基本研究思想和发展动态；

2、结合随机退化设备监测大数据特点以及剩余寿命预测不确定性量化这一核心问题,深入剖析了当前研究存在的局限性和共性难题。

1、机理模型与数据混合驱动的剩余寿命预测

基于机理模型的方法主要是依据失效机理构建描述设备退化过程的参数化数学模型,结合设备的设计试验数据或经验知识辨识数学模型参数,进而基于状态监测数据更新机理模型参数实现设备的剩余寿命预测。

典型的参数识别与更新方法:

卡尔曼滤波、粒子滤波和贝叶斯方法……

常见的用于剩余寿命预测的机理模型:

Paris模型、Forman模型以及在其基础上的各种改进和扩展模型，主要用以描述裂纹扩展和层裂增长。

问题：

现有基于机理模型的剩余寿命预测方法未能结合实际运行设备的实时监测数据,难以准确反映设备当前运行的实际状态,特别是在设备运行环境、运行工况发生变化时,若不能利用实时监测数据对模型进行更新,将产生较大的预测偏差。

机理模型与数据混合驱动的剩余寿命预测方法：

为了使得机理模型能够更好地建模实际服役个体设备的性能演变过程,将设备实时运行监测数据与机理模型进行混合,将有助于实现剩余寿命预测准确性的提升。

因此,机理模型与数据混合驱动的剩余寿命预测方法也得到了较多的关注和发展。

最近该方面的研究分别针对锂电池系统和旋转机械设备,提出了机理模型与数据混合驱动的剩余寿命预测方法。根据机理模型与数据混合驱动实现方式不同,可将这类混合驱动的剩余寿命预测方法分为两大类:

1)基于监测数据构建机理模型所刻画退化状态的测量模型,运用卡尔曼滤波、粒子滤波等方法估计退化状态和机理模型参数，然后通过机理模型预测设备的剩余寿命。

2)首先分别基于数据和机理模型进行设备的剩余寿命预测,然后利用决策层融合方法实现集成基于数据和基于机理模型的剩余寿命预测。

以上两类机理模型与数据混合驱动实现剩余寿命预测的方式各具优势:

第1种方式：能够充分考虑退化状态难以直接测量的实际, 在考虑监测数据中测量噪声的情况下, 可实现隐含退化状态的估计和机理模型参数的更新, 使得最终的预测结果能够更准确地反映设备当前的实际状态;

第2种方式：实现过程相对简单独立,决策层融合的形式较为多样,如平均法、权重平均、核回归、证据组合等,能够集成多种方法的优势,有助于提升预测结果的鲁棒性。

虽然基于机理模型的方法和机理模型与数据混合驱动方法得到了一定的发展,但其成功应用的基础是可获取精确可靠的机理模型。随着当代设备逐步呈现复杂化、非线性化以及高维化等特征,其健康状态演化规律通常难以精确机理建模或者获得失效机理模型的成本过高。现有研究中通过物理机理分析、理化分析、实验分析等手段获取的机理模型主要针对特定材料或对象,这一点也可以通过当前机理模型的种类相当匮乏反映出,由此在一定程度上限制了这类方法的广泛应用。

因此,在大数据背景下,通过挖掘数据中隐含的设备健康状态信息,发展数据驱动的剩余寿命预测方法成为当前的主流和研究的焦点。

2、基于机器学习的剩余寿命预测

基于机器学习的设备剩余寿命预测主要思路：

通过机器学习拟合性能变量演化规律并通过滚动外推到失效阈值以预测失效时间,或直接建立监测数据与失效时间的映射关系实现端到端的预测,基于此通过预测的失效时间减去当前运行时间得到剩余寿命的预测值。

本文重点结合最新的研究进展和大数据下剩余寿命预测的现实需求,对基于机器学习的剩余寿命预测技术发展动态和存在的问题进行分析。根据机器学习网络模型结构特点,这类方法主要分为基于浅层机器学习的方法和基于深度学习的方法。

2.1基于浅层机器学习的剩余寿命预测

基于浅层机器学习的剩余寿命预测方法中的典型代表为神经网络、支持向量机等,具体发展动态分述如下：

1）神经网络

神经网络是一种模拟人类中枢神经系统组织结构与信息处理机制的学习网络, 主要由输入层、隐层和输出层组成。神经网络具有自学习、自组织、自适应以及强非线性映射拟合能力等优点，因而在设备剩余寿命预测领域受到了学者们的广泛关注。

2)支持向量机

支持向量机是由Cortes和Vapnik于1995年首次提出的,在小样本和高维数据机器学习领域受到广泛关注,主要原理是首先通过非线性变换将多维输入向量映射到高维特征空间,然后在高维特征空间中构造最优超平面来实现样本分类或回归。

由于支持向量机能够有效避免“维数灾难”问题, 且具有较好的泛化能力, 因而广泛应用于设备的剩余寿命预测中。

3)其他浅层模型

除了以上几种常用的浅层模型外, 一些其他机器学习模型也被应用到装备的剩余寿命预测中, 如「极限学习机、贝叶斯网络、随机森林、梯度提升决策树、基于案例的学习方法、基于案例的推理方法」等。

通过文献总结分析可以发现,虽然浅层神经网络训练相对比较容易,基于浅层机器学习方法实现设备剩余寿命预测的研究具有较长的历史,但这类方法中采用的网络结构简单、预测性能较多地依赖于专家先验知识与信号处理技术, 且难于量化剩余寿命预测结果的不确定性。

此外, 这类研究中较多的方法需借助人工经验与知识预先提取监测数据中的关键信息并构建退化指标, 因此退化指标的好坏将很大程度上决定浅层神经网络的预测性能。

在大数据时代, 设备退化特征愈发表现出耦合性、不确定性、非完整性等特点, 浅层机器学习算法自学习能力较弱, 难以自动处理和分析海量监测数据。因此, 大数据下剩余寿命预测的智能学习模型由 “浅”入 “深”、势在必行。

2.2 基于深度学习的剩余寿命预测

深度学习作为一种大数据处理工具, 旨在模拟大脑学习过程, 构建深度模型, 通过海量数据学习特征, 刻画数据丰富的内在信息, 最终提升建模精度。

深度学习当前已成功应用于许多工程领域, 如图像识别、自然语言处理、语音识别、故障诊断等, 同时在剩余寿命预测领域也崭露头角。

如图1所示, 根据网络结构的不同, 这类方法主要包括:基于深度自编码器的方法、基于深度置信网络的方法、基于卷积神经网络的方法、基于循环神经网络的方法以及多种网络组合而成的混合网络方法：

无论基于哪种深度网络结构形式, 其基本思想都是采用现有深度学习模型建立性能测试数据与剩余寿命标签或退化标签之间的潜在关系。

下面针对几种典型的深度学习网络, 介绍其应用于剩余寿命预测时的研究动态并分析当前研究存在的问题。

1)深度自编码网络

深度自编码网络是由多个自编码器或降噪自编码器堆叠组成的深度神经网络。基于深度自编码网络的剩余寿命预测通过提取出原始数据的深层次特征, 然后通过逻辑回归层或全连接层实现机械装备的剩余寿命预测。

由于自编码器是以重构原始输入为学习目标, 因而其学习到的特征对数据有更本质的刻画, 有利于提高预测精度, 且深度自编码网络能够以无监督学习方式逐层对网络参数进行预训练, 将训练结果作为反向微调的初始值, 确保了网络参数的在线更新, 在剩余寿命预测领域得到了广泛的应用。

2)深度置信网络

深度置信网络主要是由多个受限波尔兹曼机堆叠与一个分类层或回归层组合形成的深度网络, 通过逐层预训练和反向精调策略解决深度模型普遍存在的训练困难问题, 不仅能实现数据从浅层到深层的特征表示与提取, 而且能发现输入数据的分布式特征, 在深层特征提取方面获得了广泛的应用。

3)卷积神经网络

卷积神经网络作为一类经典的前馈神经网络, 是由LeCun等首次提出并用于解决图像处理问题的, 主要由若干卷积层和池化层组成, 既能输入序列数据, 也能处理网格化数据, 在计算机视觉、语音识别等领域应用十分广泛。针对设备性能监测大数据的特点, 先后发展出了多种用于剩余寿命预测的卷积神经网络，主要包括「深度卷积神经网络、多层可分离卷积神经网络、多尺度卷积神经网络、联合损失卷积神经网络」等。

相比于其他深度学习网络, 卷积神经网络能够更有效地处理力信号、振动信号、声发射信号、光信号等高维原始数据，可实现从监测数据中自动提取退化特征信息, 适合处理监测大数据且具有降噪的功能, 同时其网络参数量相对较少, 训练更加方便高效, 因此易于构建更深的网络结构。

然而, 随机退化设备的监测数据蕴含的健康特征往往是时序相关的, 而卷积神经网络在应对大数据下时序特征提取能力不足, 容易造成重要时序特征的丢失，这对于剩余寿命预测是不利的, 因此卷积神经网络在应用于剩余寿命预测时经常与其他深度网络组合使用。

4)循环神经网络

循环神经网络作为一类包含前馈连接与内部反馈连接的前馈神经网络，主要用于处理具有相互依赖特性的监测向量序列，由于其特殊的网络结构, 能够保留隐含层上一时刻的状态信息, 目前已经在剩余寿命预测领域得到广泛的关注, 被应用于锂电池系统、风力发电设备、航空发动机等。

为解决循环神经网络通常存在 “记忆衰退”进而导致预测偏差较大这一问题, 学者们对循环神经网络模型进行了改进, 提出了一种长短期记忆(Long short term memory, LSTM)模型, 门结构作为LSTM的独特结构, 能够在最优条件下确定出所通过信息特征, 在剩余寿命预测领域获得了广泛的应用。

-5)混合深度网络

基于混合深度网络的方法可看作多个深度学习网络以一定方式组合连接(如串联、并联等)用于弥补现有单一深度学习网络的不足, 目前主要的混合形式包括「深度置信网络 + 前馈神经网络、受限玻尔兹曼机 + LSTM网络、LSTM网络 + 卷积神经网络、LSTM网络 + 编码−解码模型、循环神经网络 + 自编码器、多损失编码器 + 两阶段卷积神经网络」等。这类方法主要通过继承不同深度学习模型的优势, 进而期望实现取长补短、改善剩余寿命预测的效果。

需要说明的是, 基于深度学习的剩余寿命预测研究正在蓬勃发展, 以上介绍到的文献仅是冰山一角。通过对当前相关研究发展动态的分析不难发现, 无论是传统的基于浅层机器学习还是正在蓬勃发展的基于深度学习的剩余寿命预测研究, 基本上都可以归结到两种思路, 即基于退化量滚动预测和基于学习网络建立监测数据与失效时间端到端的映射。虽然在以上两种思路下的剩余寿命预测方法研究快速发展, 且都属于数据驱动的方法。

但当前研究面对剩余寿命预测现实需求时主要存在以下有待解决的问题:

问题1

目前这些基于机器学习的剩余寿命预测研究, 基本上都是将其他领域应用需求驱动下提出并发展起来的各种深度网络直接应用, 其网络结构和参数均是确定性的, 一般只能得到确定性的剩余寿命预测值, 很难得到能够量化剩余寿命预测不确定性的概率分布。

造成以上问题的根本原因：所采用的学习网络并不是针对剩余寿命预测的核心需求设计的, 更多的是直接采用或借鉴其他任务需求下发展起来的学习网络。因此, 如何设计并发展面向剩余寿命预测及其不确定性量化需求的专用学习网络, 使得其能够从监测数据中学习到反映预测不确定性的剩余寿命概率分布相关的信息, 是克服现有研究发展瓶颈的根本途径和有重要价值的研究方向。

问题2

现有研究中通过学习网络建立监测数据与失效时间端到端映射以预测剩余寿命的思路, 其成功实现的前提是能够获取充分的同类设备失效时间数据以制作训练标签。然而, 在工程实际中, 由于受到安全性与经济性等因素的限制, 设备运行至失效状态是极其危险的, 一般在失效前对设备进行替换。在该情况下, 所能获取的更多的是设备在服役过程中积累的大量状态监测数据, 关于设备失效时间的数据几乎没有, 因而这类状态监测大数据大多属于非全寿命周期类型。尽管大数据背景下非全寿命周期数据包含了丰富的设备退化机制与寿命信息, 但由于失效数据匮乏将导致现有基于机器学习的剩余寿命预测方法中所需的寿命标签难以制作(即零寿命标签问题), 由此为构建监测数据与剩余寿命之间端到端的映射关系带来了极大的挑战。与此同时,基于退化量滚动预测的思路以退化量为标签构建预测模型, 能够减少对寿命标签数据的依赖, 但在实现过程中将本身存在误差的退化量预测值作为预测模型输入进行滚动预测, 容易造成预测误差的累积,进而影响剩余寿命预测的准确性。

此外, 目前基于以上思路的剩余寿命预测研究主要针对完整监测数据, 而对于图2所示的 “碎片化、分段的、稀疏的”非完整监测大数据与剩余寿命之间的映射关系鲜有研究。因此, 零寿命标签情形下如何通过非完整监测大数据构建随机退化设备剩余寿命预测模型, 发展剩余寿命预测研究的新范式仍有待解决。

问题3

如前所述，剩余寿命预测是衔接设备健康状态感知与基于状态感知信息实现设备的个性化精准健康管理的桥梁，因此剩余寿命预测方法的可解释性对于将预测结果用于设备的健康管理（如预测维护、备件订购等）至关重要。

然而，现有基于机器学习的剩余寿命预测方法通过学习网络建立监测数据与剩余寿命之间的映射关系，监测数据与剩余寿命之间的关系难以显式表示，呈现“黑箱”特点，难以解释设备退化失效机理。

此外，当前的研究较多地关注了剩余寿命预测的准确性，但机器学习模型中超参数的选择对预测结果的准确性和鲁棒性具有重要影响，预测的效果对调参技巧和经验有较大的依赖，而如何合理有效地选择机器学习模型的超参数在机器学习领域本身就是一个极具挑战性的问题。

综合以上两个方面可见，「发展具有可解释性的基于机器学习的剩余寿命预测方法」，将有助于打通当前这类方法从理论研究到推广应用于设备健康管理的最后一公里。提高基于机器学习的剩余寿命预测方法的可解释性的研究方向包括在学习网络设计中考虑设备退化失效的机理知识、基于学习网络从监测数据中提取退化特征时将特征的趋势性或单调性作为约束条件考虑、将超参数的选择问题转化为提升预测效果的优化问题纳入模型训练过程等。

3、统计数据驱动的剩余寿命预测

传统统计数据驱动的剩余寿命预测方法通过对设备失效时间数据统计分析, 构造寿命T的分布函数, 由此设备在t时刻的剩余寿命即为T-t|T＞t,z,其中z代表该类设备的事件数据集(主要指失效时间数据), 然后通过分布拟合得到寿命的概率分布, 再通过上述条件随机变量的关系实现剩余寿命预测。

然而，随着生产制造水平的不断提升，设备的可靠性逐步提高，很难在短期内（即使是加速条件下）获得足够多的失效数据或对于昂贵的设备获取成本过高，而且这类方法没有用到设备运行过程中的监测数据，预测结果难以反映当前运行实际情况，由此导致难以实现个体服役设备的精准健康管理。

相比之下，随着信息技术和传感器技术的迅猛发展，通过设备性能退化变量的监测数据，建立描述设备性能演化过程的随机模型，便可预测设备剩余寿命，这类方法以概率统计理论为基础，在随机模型框架下建模性能退化变量演变规律，以概率分布的形式给出剩余寿命分布的表达式，不仅能得到剩余寿命的点估计，而且能描述预测的不确定性（方差、置信区间等各种不确定性量化指标），这对维修、替换、后勤保障等的科学决策极为重要，因而已成为国内外研究的热点。

根据建模过程中涉及的性能退化变量数目,主要分为单变量模型和多变量模型两种情况：

单变量下随机退化设备剩余寿命预测研究得到了广泛关注和深入研究。

在工程实际中,设备存在运行工况、运行环境、运行负载多变等复杂运行模式,反映设备性能退化的变量往往不止一个且相互关联,呈现多性能退化变量的特点,表征设备健康状态的性能退化指标往往并不唯一。①第1种是基于Copula函数的方法。其中,Copula函数是一种连接多维联合分布与一维边缘分布的特殊函数,基于此函数,多个相关退化量的联合分布可以通过每个退化量的边缘分布和Copula函数融合为一个整体分布。②第2种是基于信息融合的方法。这种方法的主要思路是在进行退化建模之前,首先根据多维数据之间的关系,通过优化、加权、融合滤波等方式,将多维数据投影变换到一维数据上来,提取一个单变量复合性能指标,再应用已有针对单变量的方法对此一维数据进行建模和预测。此类方法的优点在于融合后的性能指标可以采用传统针对单变量的退化建模和剩余寿命预测方法。

然而,在多维数据融合时其相互之间的关系一般难以界定,使得融合后的指标难以全面反映整个设备的退化,而且融合后的指标物理意义不明确,导致退化失效阈值的确定成为一个新的难题。

可以看出, 统计数据驱动方法以概率统计理论为基础, 利用随机模型对监测数据进行建模, 进而对剩余寿命进行推断, 可以得到剩余寿命的概率分布, 在量化剩余寿命预测不确定性上具有天然优势, 且随机模型参数与设备退化失效过程紧密相关使得模型可解释性较强(如反映退化快慢的退化率参数、反映退化过程时变不确定性的扩散系数等), 因此得到了可靠性领域学者的大力推崇, 发展迅速。

但需要注意到的是, 无论是单变量下还是多变量下, 这类方法主要针对图2所示的完整监测数据且需要能够从监测数据中提取具有一定统计特征的退化趋势数据以实现参数化的演变轨迹建模。图片然而, 在大数据时代, 通常采用传感器网络收集多物理源信号以全面反映设备状态, 由于多源信号差异大、采样策略形式多, 数据价值密度低, 导致数据质量参差不齐, 现有统计数据驱动的方法从大数据中提取退化特征信息如同大海捞针, 处理如图2所示的 “碎片化、分段的、稀疏的”监测大数据更是难上加难, 没有良好统计特征的退化数据做输入, 这类方法必将迷失于浩瀚的数据海洋。

此外, 单变量下随机退化设备剩余寿命预测研究试图提取单一特征表征设备健康状态全貌的思路, 已与复杂运行条件下设备健康状态需从多维度表征的需求不相适应, 而现有多变量下随机退化设备剩余寿命预测问题的研究基本都是试图通过转换为单变量情况再来处理, 未充分考虑多性能退化变量相互耦合、相互影响的机制, 多变量耦合导致的剩余寿命分布求解难题仍未能得到有效解决。

因此, 针对大数据环境下随机退化设备的剩余寿命预测问题, 发展新的理论和方法势在必行。

4、机器学习方法与统计数据驱动方法相结合的剩余寿命预测

通过第2节和第3节的文献分析可以看出, 以深度学习为代表的机器学习方法在监测大数据深层次特征自动提取、复杂结构数据拟合、非线性映射等方面具有强大的处理能力, 但很难得到体现剩余寿命预测不确定性的概率分布, 这与其强大的数据处理能力和学习能力还不相匹配。

统计数据驱动的方法虽能得到剩余寿命的概率分布、在量化剩余寿命预测不确定性上具有天然优势, 但对具有多源信号差异大、采样策略形式多、数据价值密度低、数据质量参差不齐等特点的监测大数据处理能力非常有限。

因此, 若能将机器学习方法与统计数据驱动方法相结合, 有望综合两者的优势、弥补各自局限性。

最近, 一些学者也开始了这方面的探索性研究。这些研究在做出了有益尝试的同时, 还存在不容忽视的局限性:

1)深度网络用于特征提取而随机模型用于建模特征实现剩余寿命的概率分布输出, 但在实现过程中特征提取和模型建立是孤立进行的, 由此导致机器学习方法和统计数据驱动方法实际是简单的组合关系, 提取的深度退化特征能否适应并匹配所采用的随机模型仍是问题, 因为在特征提取过程中并没有考虑提取后采用何种形式的模型对其建模表征;

2)深度网络通常可以从监测大数据中提取深层次、多维度的退化特征，但以上方法通过指标筛选技术从多维度特征中选择单个特征用于随机退化建模，由此这类方法还存在第3节讨论的所选单一特征难以表征设备健康状态全貌、未考虑多变量耦合下剩余寿命分布求解等问题；

3)通过深度网络从大数据中提取的退化特征实际上是虚拟退化指标, 物理意义不明确, 由此导致这些退化指标所对应的失效阈值确定成为一个新的难题。

通过上述分析可见,若能综合统计数据驱动方法在预测不确定性量化能力上的优势与机器学习方法在大数据处理能力上的优势,实现交互联动、交叉融合、强强联合,发展大数据环境下随机退化设备剩余寿命预测新理论与新方法,有望为大数据时代设备剩余寿命预测与健康管理打造一把利器。

然而，现有为数不多的综合机器学习方法和统计数据驱动方法的剩余寿命预测研究中，基于监测数据的退化特征提取过程与所提取特征的随机过程建模是孤立进行的，由此导致机器学习方法和统计数据驱动方法实际上是简单的组合关系。此外，这些研究中提取退化特征的过程中主要关注了特征本身的特性（如单调性、趋势性等），但如此提取的特征能否适应并匹配所采用的随机过程模型并不能保证。因此，「发展大数据下退化特征提取与随机退化建模交互联动的剩余寿命预测方法，将有助于形成大数据下剩余寿命预测研究的新模式。」

参考文献：李天梅,司小胜,刘翔,等.大数据下数模联动的随机退化设备剩余寿命预测技术[J].自动化学报, 2022, 48(9):23.DOI:10.16383/j.aas.c201068.

来源：滚动轴承故障诊断与寿命

大数据背景下剩余寿命预测典型解决思路的研究动态和存在的问题

相关新闻：