基于“奈曼分配”的云POS数据信息质量提升研究

(整期优先)网络出版时间:2023-11-11
/ 2

基于“奈曼分配”的云POS数据信息质量提升研究

靳新1  王立忠1  魏彬1

山东泰安烟草有限公司,山东泰安擂鼓石大街256号,271000

摘要:中国式现代化的构建,需要高质量的统计信息予以支撑。随着云POS不断成为数据信息处理的重要手段,提升基于云POS系统采集的信息质量尤为重要,本文从数据采集质量、数据质量评估和零售客户样本结构等方面,探讨了当前云POS信息质量较低的具体原因,并借助“奈曼分配”的分层抽样分析和量化管理应用等方面,分析了提升云POS数据信息质量的具体路径,为在新形势下提升数据信息质量提供了一种新的思路。

关键词:云POS;信息质量;奈曼分配

一、引言

随着移动互联网时代的到来,及数字经济的快速发展,合作共赢、跨界融合逐步成为未来的市场发展趋势,并且在此过程中,支付行业是串联各个行业和企业产业链的重要平台,而且任何行业和企业的发展,均需要货币流通予以支撑,这就需要支付平台的服务和配合。基于云POS系统收集、整理和加工高质量的数据信息,逐步成为当前各个行业和企业数据信息处理的重要途径,但由于数据采集质量、数据质量评估量化,及零售样本结构等问题,当前云POS数据信息仍存在质量较低等现象,如何提升基于云POS采集的数据信息质量,对于发挥统计信息在行业和企业高质量发展中的咨询、决策与监督等功能具有重要意义。

二、当前云POS数据信息质量不高的具体原因

POS系统已经形成了一定的专业门槛,但在数据采集质量、数据质量评估与量化,及零售客户样本结构等方面,导致数据信息质量仍然不高,具体原因如下:

(一)数据采集质量存在的问题及原因

从数据可应用的角度来讲,市场采集数据是否属于高质量数据,主要体现在真实性、准确性和完整性三个特点,数据只有满足三个特点才是高质量数据。然而,现实中云POS系统采集的数据并不完全满足三个特点,具体分为两个方面:其一,主观因素。零售户在主观上不想把真实的销售情况通过扫码销售反映出来,因此存在集中扫码、数据修改频繁、库存准确率低等问题。其二,客观因素。零售户能力不足、设备故障等原因,造成数据不准确、不完整,导致数据准确率低、非烟商品扫码数量与种类低、库存低于合理值等。因此,如何从源头上提高云POS采集数据的质量,是需要解决的重要问题。

(二)数据质量评估量化存在的问题及原因

相关行业,比如烟草行业看似前期已积累大量原始经营、销售、消费等数据,但由于数据统计标准不规范、分类不明确、关联度较弱等问题,无法被直接利用。再者,前期手工信息采集和自动信息采集的数据,需要花费大量时间进行录入整合与清理晒洗,时效性与实用性大打折扣。因此,如何利用经销库存表单和POS系统将数据精准量化以进一步分析、评估与应用,也是需要解决的重要问题之一。

(三)零售户样本结构存在的问题及原因

根据实际业务要求,目前市场数据采集范围仅限样本点,总体思路为通过样本点数据估计总体趋势,原则上样本点的结构要求做到各行政区域内档位、业态、城乡的全覆盖,且要求符合各层级(档位+业态+城乡)实际分布,但不同的层级具有不同的经营能力,各层级所需抽样的数量还需要根据各层级的经营能力判断。如何根据相关数据信息,基于不同零售户的经营能力对销售环节进行合理分配,也是在整理零售户样本信息时需要解决的问题之一。

三、基于“奈曼分配”提升云POS数据信息质量的相关措施

基于云POS系统提取的数据信息质量不高,主要原因在于数据信息采集时本身引起的误差过大所致,因为一般数据信息是针对总体中所抽取的样本进行估计得到,当从总体中随机抽取样本时,被抽取到的样本时随机的,这时针对样本估计得到的数据信息等指标毕竟与总体指标之间存在一定偏差(即实际抽样偏差),而且每次抽取的样本之间也可能存在较大的分散程度,这在一定程度上也提升了偏差程度,不利于有效估计总体样本的特征,导致统计信息质量不高。为了提升基于云POS系统提取的数据信息质量,本文认为可以引入“奈曼分配”法进行处理。所谓“奈曼分配”,是指在总体样本量固定的前提下,使估计量抽样方差最小的一种分配方法。

(一)基于“奈曼分配”的云POS数据分层抽样分析

针对区域+档位+业态+城乡等组成的样本点层级结构要求,其理论上属于分层抽样的范畴,分层抽样又称分类抽样或类型抽样,即将总体划分为若干个同质层,再在各层内随机抽样或机械抽样。分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性,各层样本数的确定方法有3种:

分层定比法,即各层样本数与该层总体数的比值相等,例如,样本大小n=50,总体 N=500,则n/N=0.1即为样本比例,每层均按这个比例确定该层样本数;

奈曼法,即各层应抽样本数与该层总体数及其标准差的积成正比;

非比例分配法,当某个层次包含的个案数在总体中所占比例太小时,为使该层的特征在样本中得到足够的反映,可人为地适当增加该层样本数在总体样本中的比例。

因各个层级之间的差异性较大(以烟草行业为例),主要体现在卷烟订单(进货)数量方面,若要较为真实地接近各层级的经营水平,需要引入订单(进货)因素,通过结合奈曼分配法,基于层级群体的订单(进货)量的标准差与客户数确定每层比例,最后根据所制定样本量合理分配各层级中抽样数量,项目实施过程中,还引入了终端数据质量评分体系,在奈曼分配法的基础上,按数据质量分数的高低择优抽样入库,样本点筛选逻辑如下:

8faaa7ef41c9db7434a46f47ddd7dd1e

(二)基于奈曼分配的量化管理应用机制建设

针对样本库量化管理方面的需求,本文采用系统日常评价+月度质量评估的机制对所有在线正常运行的云POS系统进行量化评分,评分的高低结合奈曼法进行样本点的动态管理。

5fdbede312872aa0649733d5b6de38c4

在日常监控评估环节,可以采用满分扣分制度,每日初始满分100分,若当日触发不同的监控规则扣除规则对应的分数,分数扣除越多,则当日的数据越低,分数越低则影响日均评分成绩。在月度量化评分环节,则是根据项目要求,按月的时间维度对所有的终端机使用情况进行评分,分数越高,数据质量越好。

实现对终端机“平时成绩”与“月度期末考试”的评价体系搭建后,系统将在每月初通过综合评定对终端机使用情况进行量化,其中,日常监控评分权重为0.6,月度评估评分权重为0.4两者综合分数高者所划分的群体等级越高,等级越高代表终端使用质量越高,其数据利用价值越高,便越接近真实的市场销售行为。在实际应用中,为了加强样本库的稳定性,对一类、二类样本点设置了容错保护机制,具体体现为基础加分与进退规则的差异化,避免大规模样本点置换现象出现。

四、结束语

经济高质量发展需要高水平的信息统计系统予以支撑,而伴随POS逐步成为当前各个行业和企业数据信息处理的重要途径,如何提升基于POS采集的数据信息质量,成为亟待解决的重要问题。本文首先针对数据采集质量、数据质量评估与量化,及零售客户样本结构等方面,探讨了当前云POS数据信息质量不高的具体原因,最后,基于“奈曼分配”,从分层抽样分析与量化管理应用机制建设两个维度,探讨了提升云POS数据信息质量的相关措施。

参考文献:

[1] 郭奕男.统计分析在企业经济效益中的应用[J].经济视野,201501.

[2] 郎春叶.高质量发展背景下提升烟草企业统计信息质量的思考[J].纳税,201909.

[3] 孙海霞.浅谈加强烟草企业的统计工作的对此[J].东方企业文化,201408.

[4] 王晓飞.高质量发展背景下提升烟草企业统计信息质量的思考[J].中国经贸导刊,201902.

[5] 王瑜.新形势下如何做好烟草企业统计管理[J].价值工程,201433.

[6] 薛瑞玲.浅谈企业如何提高统计信息质量[J].现代经济信息,201406.