面向电力大数据的多数据流实时处理技术研究

(整期优先)网络出版时间:2018-12-22
/ 2

面向电力大数据的多数据流实时处理技术研究

裴瑛慧

(国网陕西省电力公司信息通信公司陕西西安710065)

摘要:随着电网的建立健全,各方面的机制都不断完善加强,为了充分发挥实时采集的电网数据价值,要求技术发展能够适应大规模电网数据流实时处理的新要求。就目前来看,电力系统大数据分流所采用的理论方法依旧是传统的方式,而大规模电网的数据流庞大,具有实时性、无序性、无限性等特征,使得基于“先存储后处理”设计理念的数据批量处理在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面面临着前所未有的新的挑战。

关键词:电力大数据;多数据流实时;处理技术

随着电网终端采集装置的大范围安装与现场应用,越来越多的电网业务应用具备了数据实时采集的能力。为了充分发挥实时采集的电网数据价值,要求技术发展能够适应大规模电网数据流实时处理的新要求。然而,当前电力大数据的处理方式仍以传统的数据批处理为主,而大规模电网数据流在实时性、无序性、无限性、易失性、突发性等方面均呈现出了诸多新特征,使得基于“先存储后处理”设计理念的数据批量处理在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等方面面临着前所未有的新的挑战。类似于MapReduce的离线处理并不能很好地解决问题,而流计算可以很好地对大规模流动数据在不断变化的运动过程中实时地进行分析,捕捉到可能有用的信息。

1电力大数据流计算服务体系

1)面向电力业务人员的应用服务。依据电力业务应用特征将数据流的典型处理问题归纳为异常检测、在线转换清洗、时间窗口统计、在线模型训练等。针对不同处理类型提供可供调用的服务接口,将数据处理需求下发至分析、计算、资源监控等层面,使得用户可以直接调用封装后的处理模型进行应用部署。2)面向电力数据分析的分析服务。提供数据流分析算法、模型构建与评估、模型流程发布、模型流程管理等服务。分析算法包括单数据流的在线随机优化算法和多数据流的协同分析算法;模型构建是指训练并得到数据挖掘模型,模型评估帮助用户对数据挖掘模型的准确度进行分析,用户可基于模型评估结果进行参数优化配置;模型流程发布是指将数据挖掘模型流程进行发布,为电力业务应用系统提供流式数据实时处理功能;模型流程管理用于管理平台发布的数据挖掘模型流程服务包括的版本管理、停用预测等。3)面向电力应用开发人员的编程服务。面向电力应用开发人员提供分布式消息队列输入、流处理初始化、数据转换、计算任务分配及调度等编程接口。电力应用开发人员只需在相应的编程接口中编写相应的电力业务实时处理逻辑即可,并通过参数化设置,例如计算模式、监听源地址等,将编写的程序和配置发布到电力大数据实时流计算处理平台,实现计算任务部署应用。4)面向电力运维管理人员的监控服务。电力大数据实时流计算处理平台提供统一实时监管服务,可定期将计算任务的数据规模、处理进度、资源占用等信息反馈给分级资源管理器,再由分级资源管理器将监控状态信息实时反馈至中心资源管理器,并以图、表等可视化的方式向电力运维管理人员展现流式计算任务各层级处理状态。

2电力大数据计算服务体系

2.1面向电力业务人员的应用服务

电力业务人员需要承担起电力系统的系列任务,将数据流进行有序的处理,包括相关的检测、统计等内容,进行相应的程序处理,进行数据的传送、下达以及封装,将封装好的模型进行进一步的处理应用。

2.2面向数据分析的分析服务

数据分析是电力大数据处理的重点内容之一,通过一定的运算将数据进行算法的建立、模型的评估、系统的管理等内容处理。其中分流算法包括单数据流和多数据流的算法分析,模型构建评估是对数据模型进行进一步的优化,用户可以通过模型处理的结果进行具体的应用配置,模型流程管理是包括版本管理、停用预测等。

2.3面向电力应用开发人员的编程服务

面对大数据的处理,电力开发工作人员需要进行整体的编程处理,面向电力应用开发人员提供分布式消息队列输入、流处理初始化、数据转换、计算任务分配及调度等编程接口。开发人员针对实际的应用进行逻辑的编写,并通过相关的参数调整,将相应的数据内容传入到应用平台当中去,实现全面的部署。

2.4面向电力运维管理人员的监控服务

电力大数据实时流计算处理平台提供统一实时监管服务,可定期将计算任务的数据规模、处理进度、资源占用等信息反馈给分级资源管理器,然后在进行分级处理,将分支信息与主干信息进行紧密的联系,以图、表等形式来进行展示。

3电力大数据流计算技术框架

3.1数据即时采集

数据的采集是电力大数据分析计算的基础前提,能够有效的实现实时采集将对未来的数据处理、模型建立打下良好的基础,但是就数据采集与数据处理之间并不一定能够达到同步的效果,那将造成一定的误差,为此需要设立一定的数据缓存来进行方便数据的处理,缓存区一般采用内存缓存与文件缓存两种方式,可以极大的提高数据处理的高效性与安全性。

3.2数据的实时计算

将采集的数据进行有效的处理是其中的重要环节,要对数据进行计算处理则必须要借助计算平台,采用滑动窗口的方式进行多电网数据流输入,利用电力多数据流协同计算方法,进行数据流之间的异步协同优化,实现多数据流实时处理。

3.3高效的数据存储

当计算的结果与存储的数据较大时,需要进行一定的数据分流处理,当多数据处理结果小并且重要性不高时,可以直接存储带分布式列式数据库。相应的,采用该方式则会引起稳定性不足,甚至出现一定的数据损失,若是处理的数据量较大,且相对重要时,可以通过分布式消息队列Kafka,然后在储存到分布式列式数据库,该方式虽然有较为繁琐,但是有效的避免了数据丢失的问题,有效的提高了数据的稳定性。

4电力多数据协同计算

多数据流的并行处理主要是由并行计算架构和并行算法模块实现,通过对各数据流处理的中间结果缓存,进行分析任务的分布及结果合并。不同的数据流需要不同的计算体系以方便进行系统连接,目标函数的优化计算采用交替方向乘子989第46卷法(AlternatingDirectionMethodofMultipliers,AD-MM)并行优化算法,实现不同机器之间的信息交互共享和同步处。将数据流进行具体的划分结合成数据块,每一个数据块可以分给不同Workers进行处理,同时又可以进行继续划分成下一级的服务器,其中服务器可以进行相应的分区,通过一步步详细的划分使得无论是数据的提出还是处理更加高效。这样,训练数据、模型、参数都可以并行处理,系统因而就具有很好的可伸缩性。同时,部分Worker宕机不会影响到其他模型训练服务器,系统的容错性也很好Worker还可进行一批多次迭代后才更新参数到参数服务器。

5结论

本文基于电力大数据面临的实时处理需求,研究构建了面向多用户的电力大数据流计算服务体系,搭建了电力大数据实时流计算处理平台,并在实验环境下以用户电量计算为典型应用场景,基于同一测试基准对面向电力大数据的多数据流实时处理平台和国内某公司的实时流计算处理平台进行测试对比,取得预期效果。另外,考虑到电力大数据环境的复杂程度,以及电力大数据处理的实时性高要求,下一步将重点开展电力大数据多数据流的广域分布式异步协同分析方法研究,解决广域范围内电力数据流实时关联分析的同步及大尺度问题。

参考文献:

[1]王春凯,孟小峰.分布式数据流关系查询技术研究[J].计算机学报,2017,39(01):80-96.

[2]曹振丽.面向养殖环境监测的数据流处理方法研究[D].中国农业大学,2017.

[3]吴枫.数据流挖掘若干关键技术研究[D].国防科学技术大学,2017.

[4]李人和.数据流异常检测系统若干问题研究[D].复旦大学,2017.

作者简介:姓名:裴瑛慧;出生年月:19760316;学历:硕士;职称:高级工程师;研究方向:电力信息技术