基于DT决策树的风机变桨编码器预警算法

(整期优先)网络出版时间:2021-02-24
/ 2

基于 DT决策树的风机变桨编码器预警算法

白日欣

新天绿色能源股份有限公司 河北省石家庄市 050000

【摘要】本论文研发了一种基于DT决策树的风机变桨编码器预警算法。算法融合基于时间序列的风机SCADA秒级数据以及风机状态事件数据,进行数据关系挖掘,加数据标签,应用过采样的方式处理数据不平衡问题,通过自学习风机随时间变化的风机数据特征,建立基于DT决策树的变桨编码器预警评估器模型。为了提高结果的可靠性,DT预警模型执行了五次基于时间序列拆分交叉验证,并应用实际案例验证了预警模型的可靠性。

【关键词】风机故障;DT决策树;变桨编码器预警

0 引言

风电场多处于偏远地区,占地面积广,运行条件恶劣,设备故障更易发生且难以发现,且故障发生后维修时间长,高时效性预警系统是推动风机由“事后检修”向“风机状态预警检修”的有效方法。根据风机历史故障统计,风机变桨系统故障在风机所有故障类型中占比较大。基于以上原因,本论文研发了一种基于DT决策树的风机变桨编码器预警算法。本算法能够提前预警风机变桨系统编码器的失效故障、跳线故障以及电池容量不足等未来将要发生的故障情况。

1 SCADA数据逻辑关系挖掘以及加标签

挖掘SCADA秒级采样数据之间的隐含关系,发现能够反映风机变桨系统编码器异常的SCADA数据为:分辨率为1秒钟的时间戳,有功功率,风速,桨距角和叶片1A编码器值、叶片1B编码器值、叶片2A编码器值、叶片2B编码器值、叶片3A编码器值、叶片3B编码器值、叶片1变桨目标位置、叶片2变桨目标位置、叶片3变桨目标位置等SCADA字段。以上这些测量值具有聚合属性,因此可以用作机器学习的功能。字段包含停机事件、停机种类、警报的开始时间戳与结束时间戳。

SCADA数据的每一行都需要一个描述风机状态[1]的字段,风机运行状态标志位和风机故障状态标志位。所选择的类别对于正常行为描述为“0”,对于故障类[2]描述为是“1”。为了预先预测故障,因此还将使用称为“故障之前”的一类类别。为了使标记过程自动化,可将SCADA中正常运行时间与停机时间数据合并,并根据故障部件以及故障类型(变桨系统编码器的失效故障、角度跳变故障以及电池容量不足)对数据加上相应的标签[3],具体风机状态标志见表2。在DT算法中,需要应用风机已经加上标签的风机变桨编码器正常运行数据、风机变桨编码器故障6h前数据、风机变桨编码器故障发生后数据训练变桨编码器预警评估器模型。

2基于过采样的数据不平衡处理方法

由于风机的正常数据、以及故障数据条数高度不平衡(例如,每个风机的“正常”级别的样本数量为数千,而“故障”级别和“故障发生前6个小时”的范围仅为几十到几百) 。这会导致变桨编码器数据分类器偏向多数类,而在少数类上的表现较差。针对这种情况,算法通过类平衡的方式进行分类来研究平衡数据的效果。平衡是在将训练数据输入分类器之前,使用不平衡学习库[5]的随机过采样器对所有类别进行过采样。进行过采样而不是随机采样,因为它不会减少数据量而导致信息丢失。此过采样不支持多标签分类(即,它仅接受大小为[行,1]的数组Y),因此将对每个故障使用单独的估算器。这意味着对于每台风机,使用不平衡多标签方法仅需要一个估计器,即可同时对所有标签进行训练。这个方法很好的解决了风机的正常数据、以及故障数据条数高度不平衡问题。

3五次交叉验证的DT离线预警模型与SVM离线预警模型的比较

DT使用树结构,应用基于过采样的方式抽取编码器的正常数据、故障前6h数据和故障数据按照一定比例生成模型训练数据集合,它通过学习风机变桨编码器正常数据、风机变桨编码器故障发生前数据、风机变桨编码器故障数据的数据特征,询问一系列条件,生成编码器故障状态预警决策树,以拆分具有不同属性的数据,做出风机状态分类,给出预警结果。

为了提高结果的可靠性,DT预警模型执行了五次基于时间序列拆分交叉验证。传统上,将数据集分为五组进行五重交叉验证[4],其中四组用于训练分类器,其余一组用于测试。在每个折叠中,训练和测试集的组合将有所不同。测量每个折叠的性能并取平均值以得到最终分数。由于风机SCADA数据是一个时间序列,有别于互不相关的离散数据,因此随着时间的推移收集的数据点可能具有某种形式的相关性,在分析时必须考虑这些相关性。因此,这使得传统的交叉验证不合适,因为它没有考虑数据的顺序。在本预警算法中,数据使用scikit-learn的时间序列分割进行划分,其中包括连续分割中的前一组数据。

本项目采用精度、召回率、F1分数性能指标评估分类器性能。应用DT预警模型对空中草原风电场16号风机3月18号-3月24号时间段进行数据分析,程序中设置有编码器失效预警的时间点的y值为1,设没有编码器失效预警的时间点的y值为0,一共有29345个模型测试样本,编码器失效故障预测精度达到99.837%。

DT预警模型与采用rbf(径像核函数)的SVM预警模型从预测精度、召回率、F1分数进行比较,结果如下所示:

表1 DT与SVM预警模型性能指标评估分类器性能对比表

指标

DT

SVM

精度

0.99837

0.893

召回率

0.96681

0.8762

F1分数

0.982337

0.88452

经过对数据16号风机3月18号-3月24号时间段的有功功率,风速,桨距角和叶片1A编码器值、叶片1B编码器值、叶片2A编码器值、叶片2B编码器值、叶片3A编码器值、叶片3B编码器值、叶片1变桨目标位置、叶片2变桨目标位置、叶片3变桨目标位置等数据特征自学习,通过数据加标签,分类筛选,成功识别出2018年3月28日10:00左右叶片2A编码器的线束异常。

4 结论分析

本模型能够预测风机变桨编码器可能在六个小时或更短的时间内出现故障,则可以将其关闭以防止发生进一步的损坏。1-6小时的提前预警使维护专业人员能够尽快分析原因并决定要采取的措施。


参考文献:

[1] 基于自适应观测器的风机变桨系统故障诊断[J] 宋昌举,文传博. 电工电气. 2019(11)
[2] 基于深度学习的电站风机故障诊断方法研究[D] 刘旭婷. 东南大学. 2019(06)
[3] 基于SCADA数据的风机故障诊断算法研究[D] 王锴轩. 中国地质大学(北京). 2019(05)
[4] 基于MADM-DT的并行组合评估模型的研究与应用[D] 黄月涓. 昆明理工大学. 2008(03)
[5] 基于不平衡大数据的CS-AdaBoost-DT模型在家电产品质检中的应用[J] 吴增源,周彩虹,刘畅,郑素丽 .工业工程与管理. 2019(11)
[6] Multilabel Classification of Membrane Protein in Human by Decision Tree (DT) Approach[J] Nijil Raj N,T. Mahalekshmi. BBA – Biomembranes. 2020(01)
[7] 基于DT和SVM算法的科技文献分类研究[J] 黄华. 计算机集成制造系统. 2016(05)


作者简介:白日欣,新天绿色能源数据建模高级工程师,主要从事风电场SCADA系统研发、风电场后评估、风机预警模型研发等。