基于数据中台的数据全链路监控研究与应用

(整期优先)网络出版时间:2022-08-24
/ 4

基于数据中台的数据全链路监控研究与应用

张丁文,张凯 ,郑磊,孙晓楠,王志宇

国网吉林省电力有限公司信息通信公司  吉林长春 130000;

摘要:数据中台是当前各大企业管理中备受欢迎的可持续数据应用平台,本篇报告首先对数据中台进行了相关的介绍,比如数据中台的建设意义、架构、主要功能,以及优势。随后对全链路监控进行了分析,包括全链路监控的目标、全链路监控特质、实现全链路监控的难点、现状分析,最后给出了适应当前形势的数据全链路监控方案。希望对数据全链路监控的研究起到一定的参考作用。

关键词:数据中台;全链路监控

引言

科学技术的更新迭代之迅速,令人惊叹,整个世界也开始步入互联网的高速发展时期,处处都被数字经济所笼罩,而随着时代发展演变,社会生产力和经济形态都出现了全新的变革。而新型信息通讯科技的发展与日俱进,也促进了传统产业再次创新,并推动了新兴业态的萌发。网络不同于传统的生活介质,它是一个全新的产品消费模式,而互联网的应用价值不但占拥消费网络,还迈向了工业网络,其增长速度更不必说是突飞猛进了。

数据中台是公司的重要基石、支撑性平台,企业建成的数据中台,已初步形成了数据全链路监控分析系统。不过在此处理过程中, 将汇总到的大数据从不同的存储层同时迁移、关联映射,在保证安全的前提下,提高使用效率,但同时也带来了数据链路过冗长,大数据分析和运维管理中工作过程复杂繁琐的弊端。以及利用现有技术手段的弊端。若借助现有数据中平台建设的成功,数据处理溯源和大数据分析中的日常数据管理与运营、维护的管理工作中,将能够利用人工技术在各系统、各层间实现是单独的个体,并且相互之间进行比对,以及监控与维护。由于工作人员工作劳动强度过大、工作效率低下、准确率不高,是大数据治理、管理应用的工作瓶颈所在。因此本次报告着重研发数据中台的全链路监测系统,以突破传统片面的大数据监控技术,形成了全链路覆盖的监控能力,推动形成覆盖数据,全生命周期的全链路监测解决方案,全面提升经营决策,运营管理,业务拓展等方面的支撑能力。

1数据中台建设意义

随着安全信息技术的发展和安全企业的不断深化,涉及安全领域的设备和系统种类越来越多,除了传统的监控摄像头外,还有智能视频采集终端、 RFID 采集终端、数据采集终端,多内置安全业务系统,以及相应的数据类型和数据类型正在快速增访问限制和许多内置安全业务系统以及相应的数据类型和数据类型正在快速增长。与此同时,随着业务安全与个人保护应用程序的日益发展,数据处理应用程式也变得日益复杂,服务方案也日益细化,复杂的应用程式提高了对各种数据分析合并,以及数据相关性分析的技术要求。在这些情形下,传统的安全数据应用模式将很难应对。因此,就公共安全领域来说,在典型的视频作战应用中,民警通常需要使用分散在不同系统中的相关信息,如地图传递、电子地图、警察接收、智能视频分析、智能人体汽车分析等,而这些信息无法获得信息后,需要综合大量信息,分析和处理过程,既繁琐又困难,很难迅速提取有效信息,发现指标相关性,更不用说形成人体车辆案件信息的相关性和分析信息综合作战的能力,这必然会大大降低实际应用的有效性。人体车辆轨迹的表示和因此,新数据的出现和分析数据的需要,对旧的安全信息系统的数据储存和应用模式提出了重大挑战。商业数据库和基于关系数据的数据仓库不仅难以管理以存储大量数据,而且处理和处理能力更为有限,无法支持大规模安全数据应用方案。面对大量不同类型的数据,如何确保数据质量,如何确保数据存储的读写效率,如何利用数据之间更深入的信息,如何提高企业级数据应用程序的效率等。这些都是安全和安保行业发展道路上的重要情况。

2数据中台的架构

数据中台是一套可持续的机制,使企业的数据有着充分的利用、分析价值,这种机制使企业在市场上占据优势,是符合当前时代发展的数字化组织形式。数据中台可以通过有形的产品,借以科学的措施对其支撑,创建出一套把数据变成资产并服务于业务的可持续机制。数据中台主要分为设备层、业务层、数据管理层和应用层。设施层的服务为感知前端设备、运算、内存、网络资源等提供了最基本的环境保障:业务层的视频联网共享业务和大数据层的视频连接、数据处理等是平台的主功能。而业务层的视频图像解析业务则完成了对视频图像分解、剖析系统中信息解析能力的服务化,是视频图像智能化建设应用的关键服务;数据层的数据接入、数据治理和数据服务是按照公共安全大数据处理的技术要求对视频图像信息数据库功能实施扩展,为视频图像智能化建设应用提供视频图像数据服务能力;应用层则对各平台的应用功能进行了综合整合,在有效保证数据安全和个人隐私性的情况下,更加高效地满足了各业务视频图像智能化应用的需要。而资料数据管理服务平台则主要包括了数据服务层、资料数据处理应用套件、数据管理底层和数据源底层等四个模块。而数据应用则是由企业前端客户端的服务提供。而数据应用则为企业的开发提供了离线、即时的开发工具,包括了在企业项目管理、代码开发、系统运维、发布警报等一系列的集成工具,以方便企业使用,并提高了其效率。

3数据中台具有的主要功能

3.1数据整合

  1. 数据丰富和完备:丰富的数据源进行整合和丰富。
  2. 管理简单易用:可视化任务设置、强大的监控管理系统。
  3. 大数据的集中运营:通过大数据分析连接、转移、写入或缓存内部根源中的各来源数据。
  4. 数据目次与管理:客户可以进行简单操作去定位查找待处理的数据,分析数据。
  5. 数据安全:保障数据的访问权限范围。
  6. 数据可用:用拓展的方式,去对异构数据进行存取的操作,那可用性与易用性都能够达到最高。
  7. 部署灵活:本地、公有“云”、私有“云”等多种安排方式。

3.2数据加工

  1. 完善的安全访问控制。
  2. 完善的数据质量保障体系。
  3. 合乎标准的、密切与业务相关联的,并且可扩展的标签体系。
  4. 面向业务主题的资产平台。
  5. 智能的技术,使得数据资产的生产被数据映射所简化。

3.3可视化展示

  1. 提供自然语言等人工智能服务。
  2. 提供丰富的数据分析功能。
  3. 展示出良好的数据可视化服务。
  4. 方便迅速、省时的服务开发环境便于业务人员根据数据进行软件应用的开发。
  5. 做出实时流数据分析。
  6. 给出预测分析、机器学习等高级服务。

3.4价值变现

  1. 提供数据应用的管理能力。
  2. 提供数据洞察直接驱动业务行动的通路。
  3. 提供跨行的业务场景的能力。
  4. 提供跨部门的普遍适应性业务价值能力。
  5. 提供基于场景的数据应用。
  6. 提供业务行动效果评估功能。

4数据中台的优势

4.1业务价值高

以数据为基石,持有客户为上的理念,以人为本,实时反馈数据,以洞察为企业发展的主要驱动力。将数据动态化激活,对业务模式实施不断改进、创新,以保障企业在市场中的地位持续领先。

4.2技术价值(成本低、能力多、应用广)

  1. 应对多数据处理的需求。
  2. 丰富标签数据,减低管理成本。
  3. 数据价值能体现业务系统效果而不仅是准确度。
  4. 支持跨主题域访问数据。

总而言之,大数据的中台是把信息生产资料服务,转变为数字生产力,同时数字生产力也反哺信息服务,并不断迭代循环下去的一个阶段,即大数据驱动决策、运营。

5全链路监控的目标

“微服务”架构使应用及中间件二者之间的调用链路变得更加复杂。同时,云原生及混合云的兴起对全链路监控的实现提出了更高要求。为提升混合“云”模式下的微服务架构应用的稳定性,通常来说,对全链路监控提出的3个核心诉求如下:

1. 系统间依赖梳理:能够完整绘制系统及服务间的调用关系,以帮助开发及运维评判上下游依赖关系,确定故障影响范围等。

2. 关键性能指标展示:能够展示每一个环节对应的关键性能指标,可为研发人员给出性能优化方向,并且能够帮助运营、维护人员对系统资源的合理分配给出建议。

3. “端到端”情况诊断:当系统出现故障或异常时,能够第一时间发出报警,协助运营、维护人员发现并快速定位和解决情况。

全链路监控就在为解决这些情况的背景下产生。全链路监控是一套用来针对跨语言、跨应用、跨服务器、以及跨数据中心的分布式系统服务,采用添加探针等方法,采集及获取应用及系统状态等重要性能指标信息,以调用链为主要方法展示及监控数据,用以协助开发人员和运维管理人员分析系统性能状况,并定位异常情况的分布式监测体系。一些平台上也把全链路监测体系称作全链路追踪。也可以说,全链路监测体系是一个涵盖了所有联系起来的IT体系,是一个可以全面记录应用行为,并保存日志,以显示各系统间调用路径和状况的最佳实现方法。在全链路监测体系下,调用链是一个核心概念。其意指从请求源头,经“微服务”调用,至底层各"中间件"之间的整个中间调度循环。全链路监控的重要价值就是“关联”,即由终端用户、后台“微服务”应用、云端中间件组件等共同构建编织的关系网。从概念和原理来看,这张关系网能够包含的范围越大,采集的关键指标的量越大,那么全链路监控能够体现的价值也就越高。

6全链路监控特质

6.1低侵入性

监控系统应当最大化保护系统不被外界侵入,同时对使用客户保持一定的透明性,减少开发人员的负担,降低接入门槛以及操作的难度。

6.2低性能影响

因为全链路跟踪管理系统必须对多个业务中间件进行日志信息收集,所以一般都要在整个业务网络内进行"埋点"或设置agent,但通常都集中在重点业务流程。所以要尽量减小对业务系统带来的性能干扰,一般而言,对CPU的占用小于百分之二即可成为一种考虑阈值。

6.3灵活全面的接入策略

为尽量使接入服务成本较低,应给出更灵活的监测配置策略,由服务方判断接入与否,以及采集数据的区域范围和粒度等,并给出相应的技术方法以保证监测决策生效。

6.4时效性

实时有效的监控数据展示功能,辅助相关人员对于系统行为的理解,为流程、架构、代码优化,以及扩容缩容、服务限流降级提供无误、客观的数据用来借鉴。

7实现全链路监控的难点

混合“云”模式下的各个“微服务”应用可能由不同的研发团队开发,且需要部署在多台服务器中以实现水平扩展功能,甚至可能同时部署在云端及自建机房的数据中心中,各类型的“中间件”部署及调用方式也是千差万别。在此背景下,实现全链路监控所要面临的挑战很多,总结起来有如下几点:

1. 支持大规模混合云场景:当数以千计的“微服务”应用部署在公有“云”及混合云的情况下,如何快速及时的采集应用运行状态信息,同时采集日志至日志中心。如何采集并将第三方“中间件”之间纳入监控系统,均是全链路监控研发人员需要面对的最严峻情况。

2. 降低对业务的影响:如果全链路监控抓取数据的SDK或探针在运行时,占用过多系统资源,或对应用性能产生过大影响,则会降低系统整体的抗压能力,甚至可能会对业务造成后果严重的不可预知的故障。

3. 监控体系丰富完备:一般而言,Java语言编写的应用较为容易获取其运行态监控数据,但其他类型应用由于生态相对不够完备,难以从底层架构层面实施全面支持。针对其他语言编写的应用,及对通过多种渠道部署的中间件实施完备的指标采集,是研发人员需要考虑的情况。

4. 维护工作简单可行:除了部署在客户端的SDK或探针之外,全套的全链路监控在服务端由接收模块、计算模块、存储模块、展示模块等部分组成。运营、维护人员需要对每一个探针及模块实施维护。因此,全链路监控系统在研发时必须考虑自身的易维护性,否则在大规模体系下,运营、维护工作将成为一场灾难。

5. 保障自身高可用性:全链路监控系统必须能够保障自身具有一定的高可用性,否则可能当某个模块或组件出现异常时,对整体业务系统失去正常监控功能。极端情况下,甚至会引起蝴蝶效应,而引起整个系统的“雪崩”出现。

总的来说,全链路监控的价值与它本身可覆盖的监控范围成正比,而它的挑战也同样与监控范围成正比。因此,全链路监控研发人员在实现功能时,必须同时考虑并克服这五条难点。

8现状分析

数据服务的运动性能信息的测量收集方法,可包括主动和被动二个类型。被动检测的方法是由网络设备记录来自这些装置的如数据包、错误、流量等信息,周期性的传递到中间设置,保存在数据库或进行数据分析。主动监测主要措施是由管理员或管理控制设备主动向网络设备请求监测数据或向网络中传输探针来自主获取数据。

数据中台与边缘计算协同的大数据监测分析要将数据中台与边缘计算联系起来,协同处理来自智能感知终端不断产生的新数据,协同部署和支撑数据监测分析应用,将数据中台的数据处理和监测分析应用承担的计算压力分配给各边缘侧,减轻数据中台的计算压力,提高数据监测分析的能力。  

9数据全链路监控方案

数据管理全链路是指对系统数据质在规划、收集、保存、共享、维护、使用、消亡生命周期的各个阶段里所可能产生的各种数据品质状况,以进行辨识、度量、监测、预警等各种管理活动,并通过改进与提升对组织的管理能力使数据品质得到进一步提高。

9.1总体架构

根据电力企业两级贯通要求,主要是实现两级同构、异构数据中台之间数据的监控,通过统一交换平台实现批量数据传输和实时数据横纵向的贯通。横向完成本级业务系统数据传输,纵向实现总部和二级平台之间数据交换。

9.2监测流程

如果当前的网络发生故障时,网络就可能发生阻寒、丢包等问题,而前端传感器所收集的数据也无法完全正确地传送至客户端。这些情形下都会严重影响数据链路监控的精确度。为解决这一情况,提供了一些数据的旁路捕获与同步方式。在该措施中,起初基于网卡混杂工作模式实现数据的旁路捕捉、获取,另一个是基于校验值对比法实现旁路数据库和主数据库的数据同步。数据旁路捕捉、获取过程无需停机,也不影响现有的网络拓扑和工作状态,有利于数据链路的安全稳定运行。旁路数据库和主数据库的数据同步基于校验值的对比,无需直接传输原始数据,显著降低了旁路数据库和主数据库之间的通信量。

旁路数据对实施产生的数据进行采集,网关在将量测数据转送到主服务器时,旁路服务器也能够对其进行旁路捕捉、获取。与出现故障的通信网络不同,新增设的数据旁路通道是无故障的,能够保障网关转送的数据及时准确地传输到旁路服务器上。此后,将旁路服务器和主服务器上的数据实施分块,并逐块比较其校验码。当旁路服务器和主服务器上,同一数据块的校验码不一样时,表明主服务器上接收到的数据是有误的。此时,将旁路服务器上的数据块,传输到主服务器上,并涵盖主服务器上对应数据块,从而实现数据同步。

9.3捕捉、获取措施

在大数据旁路获取与同步的处理过程中,大电流服务器对所收到的数据包进行了分解、剖析、过滤和重构。在起初,由大电流服务器对收到的数据包进行分解、剖析,以便收集到数据包的目的地址和对应数据;而另一个方式则是获得和主服务器有相同的目的地址的信息;大电流服务器分析与主地址有相同的目的地址的数据,从而获取该应用层的类型、划块和偏移信息,以及应用信息;而旁路服务器则通过划块和偏移数据对应用信息进行重构,从而获取到重构后的信息。

10 总结

本篇报告的上述模拟验证数据全链路监测的过程,是某公司应用数据中台的真实验证,通过与传统的以日志形式为主的全链路监测措施进行对比测试,检验了二十四小时内二种监测捕捉、获取的全链路信息所存在的不正常状况,进行分析并得到本文设计的适用于当前全链路监控措施的可行性与有效性。

参考文献:

[1] 基于企业中台云化构建及大数据分析研究[J]. 刘翠玲,徐敏,张翠翠,王鹏. 现代计算机. 2021(11)

[2] 电力企业中台云化构建及大数据分析研究[J]. 赵增涛,罗勇,梁成辉. 水电与抽水蓄能. 2020(03)

[3] 基于数据中台的数据安全研究与应用[J]. 张翠翠,胡聪,洪德华,刘翠玲. 现代计算机. 2021(07)