基于决策树算法的电力客户欠费风险预测

(整期优先)网络出版时间:2019-11-22
/ 2

基于决策树算法的电力客户欠费风险预测

李丽凤

国网伊春供电公司黑龙江伊春153031

摘要:电网企业的主要经营利润来自于电费回收。结合电力客户的基本属性信息,关联不同类型用电客户的缴欠费行为,对客户欠费风险进行预测,便于电网公司针对不同风险等级客户提前制定差异化的电费催缴策略和防范措施,缩短企业的电费回收周期,有效降低经营压力。

关键词:欠费风险;决策树;电费回收

1.引言

国家电网公司建立了多个服务于电力用户的信息化系统,积累了大量的数据资源,业务数据从总量和种类上都已颇具规模,为本文的推进工作具备了良好的数据基础。在实现营配数据一体化基础上,通过数据分析,可为供电公司带来更大的经济效益。但对于大数据的分析至今仍存在一些技术上的障碍[1]:

(1)数据融合存在障碍。由于用户侧多个信息化系统在建设初期缺乏统一规划,开发厂商根据各业务部门的需求独立开发,导致数据结构不统一、同种数据重复存储、统计计算模型不一致、时间颗粒度难统一等一系列问题,难以形成全面的数据共享,与其他专业部门的系统存在数据壁垒。

(2)数据质量参差不齐。系统建设之前对档案质量管控不足,统计数据在颗粒度、维度、统计方式、完整性、一致性和准确性等方面千差万别,历史数据难以收集和整理。

(3)硬件设备承载力有待提升。近些年,电力数据呈爆发式增长,现有的系统架构和硬件设备只能够满足日常业务的处理要求,用电侧信息化系统对数据储存的颗粒度小,而且存储时间要求长,这对其数据存储和处理能力、数据交换能力信息网络传输能力以及数据展示能力都提出更高要求。

(4)隐私保护和信息安全面临挑战。电力需求侧大数据必然会涉及众多用户的隐私,由于目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律保护隐私,因此对信息安全也提出了更高的要求。

2.数据理解与数据挖掘模型构建

在对业务管理目标及要解决的实际业务问题明确定义后,根据业务逻辑和业务目标抽取业务源数据并进行抽样,建立由源数据子集构成的数据挖掘库。由于库中待挖掘数据仍存在一定的噪声及不一致的问题,因此需要对这些数据进行进一步清洗,然后对数据做初步的描述、分析,探索数据的分布情况和特点,抽取与业务分析目标相关的直接变量或转换变量。

对于客户欠费风险识别,主要是通过选取之前一段时间内发生过风险的客户分析结果作为客户风险判断依据。通过分析客户缴费行为历史数据,挖掘隐藏的欠费风险规律,识别客户风险[2]。

(2)客户缴费风险预测模型构建与算法设计

根据分析目标和模型特点,应选取合理的模型并对其进行验证。风险识别属于经验模型,必须依赖于以往的真实数据,即对训练集有要求。因此,对于风险分析一般通过经验模型来进行分析建模,本文选择决策树作为违约风险分析的算法。

将基尼指数大于15(建议值)的变量用于分析建模,从区分度最高的变量开始对根节点进行分裂,然后对每个子节点再进行分裂,直到不能分裂为止。应用决策树规则将一个样本自动归类到某叶子节点分类中,然后根据该节点中好坏客户比例确定分数值,预测模型的总体思路如下。

○1模型验证及测试

在验证集中,运用决策树算法,对比训练集,若验证集中的风险客户占比与训练集中的比例接近,则说明模型验证通过,否则需重新确定输入字段,验证模型的正确性。同理,在测试集中,运用决策树算法,对比验证集,如果测试集中的风险客户占比与验证集中的比例接近,则说明模型测试通过。最后导入全体客户数据,对客户欠费风险量化分数进行评判,对比测试集,如果全体客户数中的欠费风险客户占比与训练集中的比例接近,则说明没有发生“过拟合”。

○2风险等级划分

将客户欠费风险按分数从高到低进行排列,可以按照每5%样本区间的坏客户比例以及业务上能提供的服务资源情况,划分不同风险等级的客户,建议划分为3-4个等级。

3.机器学习算法在电力客户欠费风险预测的实施效果

采用混淆矩阵分析和提升度分析2种方法,分别对得到的决策树模型进行性能评估。

以某供电企业供电辖区部分数据为例,运用本文模型预测客户欠费风险。从评估结果来看,该模型具有较好的稳定性和适用性。

客户欠费现状见表1所列。

表1客户欠费现状

运用本文模型进行预测,模型预测效果见表2所列:

表2模型预测效果

由表1、表2可知,针对非居民客户,目前欠费率为3.82%,运用本文预测模型后,欠费可能性最高的5%客户中,实际欠费占比36.47%,与过去的方法相比,该模型对非居民客户的欠费风险识别率提升了9.54倍。因此,供电公司只需针对这5%的客户进行电费催收管理,就能避免36.47%欠费客户产生的不良效果。针对居民客户,目前欠费率为5.06%,运用预测模型后,欠费可能性最高的5%客户中,实际欠费占比24.88%,与过去的方法相比,该模型对居民客户的欠费风险识别率提升了4.92倍。因此,供电公司只需针对这5%的客户进行电费催收管理,就能避免24.88%欠费客户产生的不良效果,有效提高了电费回收效率。

参考文献:

[1]佚名.电费回收风险预测的大数据方法应用[C]//数字中国能源互联——2018电力行业信息化年会论文集.2018.

[2]黄文思,郝悍勇,李金湖,等.基于决策树算法的电力客户欠费风险预测[J].电力信息与通信技术,2016(1):19-22.