全面诠释大数据的产业链及应用领域

(整期优先)网络出版时间:2023-11-28
/ 3

全面诠释大数据的产业链及应用领域

邹定

中国移动通信集团宁夏有限公司  宁夏银川  750001

摘要:大数据是新生事物,不仅与国家的发展及人们日常工作、生活息息相关,且已融入社会方方面面、日益发挥其独到的价值作用,并展现出广阔的前景。本文从大数据的基本概念、大数据的发展演进、大数据的产业链、大数据的关键技术4个方面图文并茂进行阐述,使读者阅后易懂并能够对大数据的整体概貌有全面的了解。

关键词:大数据的概念、大数据的发展演进、大数据面临的挑战、未来趋势、规模、未来的发展、数据湖等

第一部分;大数据的基本概念:

1.大数据的定义:

1.1(广义):是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

1.2狭义的定义(技术):是通过获取、存储、分析,从大容量数据中心挖掘价值的一种全新的技术架构。

数据的级别;1KB=1024B(KB-Kilbyte TXT文本文件)

1MB=1024KB;   1GB=1024MB;  1TB=1024GB; 1PB=1024TB;    1EB=1024PB;     1ZB=1024EB.

2.数据的级别:

通常情况下、1辆自动驾驶车每天可以产生的数据为60TB;1座智慧工厂每天可以产生的数据为1PB;1座智慧城市每天可以产生的数据为2.5GB;全球数据量同比增速维持在25%左右。

3.通常情况下数据的主要来源:

1、传统企业数据包括CRM用户数据、ERP数据、库存数据、人事数据、财务数据等。

2、机器和传感器数据:包括设备日志、智能仪表、工业传感器、环境传感器、摄像头等。

3、社交数据:包括用户行为记录、访问记录、UGC记录、反馈数据等。

数据的类型(按结构分):

结构化数据(Structured  Date):以关系数据库表形式管理的数据、例如企业ERP、OA、HR里的数据。

非结构化数据:数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据。例如:Word、PDF、PPT及各种格式的图片、视频等。

非结构化数据:非关系模型的、有基本固定结构模式的数据、例如日志文件、XML文档、JSON文档、E _mail等。

数据的类型(按访问频率分):

冷数据:指访问频率较低、对业务和应用不太重要的数据,例如备份数据、日志数据等。

热数据:指访问频率高、对业务和应用关键的数据,例如用户、设备的状态信息、以及浏览和交易行为。

温数据:指访问频率适中、对业务和应用有一定重要性的数据。

数据的价值挖掘:

数据产生(传感器技术、摄像头技术、图像识别技术)-->数据传输(通信技术)-->数据存储(云计算技术、大数据技术、存储技术)-->数据计算(云计算技术、大数据技术、人工智能技术、芯片技术)  详见下图

4.大数据、数据分析、数据挖掘

大数据:是互联网的海量数据挖掘。数据挖掘更多是针对内部企业行业小众化的数据挖掘。数据分析就是特指做出针对性的分析和诊断;大数据需要分析的是趋势和发展,数据挖掘主要发现问题和诊断。

5.大数据的特征5V): 

规模性(Volume):广泛的数据来源、决定了大数据形式的庞大体量。

高速性(Velocity);从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程越来越快。

多样性(Variety):数据的形式是多种多样的,包含了结构化和非结构化数据。

价值型(Value):大数据的数据量很大,但是价值密度很低。数据中真正有价值的,只是其中的很少一部分。

真实性(Veracity):大量数据带来不完整性和不一致性,因此产生了准确性。

6.大数据和传统数据的对比

传统数据

大数据

数据规模

PB以下

PB以上(含)

增长速度

数据量稳定、增长缓慢

持续实时生产数据

多样化

主要为结构化数据

半结构化、非结构化、多维数据

数据源

集中地

分布式的

价值

统计和报表

数据挖掘、预测分析、

大数据、云计算、人工智能的关系

云计算关注资源的分配和利用,侧重于实现计算设备的资源虚拟化,从而实现更高的资源利用;而大数据是指海量数据的高效处理,主要处理庞大的数据;云计算给大数据提供了有力的工具,大数据为云计算提供了数据能力上的支撑;大数据和云计算为人工智能提供了强大的数据存储和计算能力,服务于人工智能所需要的海量数据。

第二部分:大数据的发展演进

一、大数据的发展(国际):1980年美国作家阿尔文.托夫勒在【第三次浪潮】书中,将大数据称为“第三次浪潮的华彩乐章”。

1997年美国宇航局研究员迈克尔-考克斯首次使用“大数据”这一术语来描述海量数据带来的挑战。数据之大,超出了存储器的承载能力,称之为“大数据”问题。

2002年9.11袭击后,美国政府曾计划整合现有政府的数据集,组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等记录来识别可疑人的大数据库,后来停止了这一项目。

2006年云计算出现、2007-2008年、社交网络激增、刺激了大数据技术的发展。

2010年肯尼斯库克尔发表大数据专题报告,《数据,无所不在的数据》。

2011年6月,麦肯锡发布报告,正式定义了大数据的概念,后逐渐受到了各行各业的关注。

2012年英国科学家维克托路迈尔的《大数据时代》一书出版。

2012年1月瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据、大影响》宣称,数据已经成为一种新的经济资产类别。

2014年4月世界经济论坛以《大数据的回报与风险》主题发布了《全球信息技术报告(第13版)》。

大数据的发展(国内):2011年12月、工信部发布的物联网十二五规划上,把信息处理技术作为4项关键技术创新工程之一被提出来,其中包括了海量数据存储、数据挖掘、图像视频智商分析,这些都是大数据的重要组成部分。

2012年7月、为挖掘大数据的价值,阿里巴巴在管理层设立“首席数据官”一职,负责全面推进“数据分享平台”战略,并推出大型的数据分享平台-“聚石塔”,为电商及电商服务商等提供数据云服务。2014年“大数据”首次出现在当年的《政府工作报告》中,《报告》中指出,要设立新型产业创业创新平台,在大数据等方面赶超先进,引领未来产业发展。

2014年、国务院通过《企业信息公示暂行条例(草案)》,要求在企业部门间建立互联共享信息平台,运用大数据等手段提升监管水平,“大数据”成为国内热议词汇。

2015年、大数据上升到国家战略层面,我国政府与2015年8月通过了《关于促进大数据发展的行动纲要》。

2015年10月26日,党的十八届五中全会召开、公报提出要实施“国家大数据战略”,这是大数据第一次写入党的全会会议,标志着大数据战略正式上升为国家战略,该次会议开启了我国大数据建设的新篇章。

二、大数据的发展阶段:

起步阶段:数据库被发明之后,使得数据管理的复杂程度大大降低,各行各业开始产生了数据,从而被记录在数据库中。这个阶段的数据、以结构化数据为主,数据的产生方式也是被动的。

转变阶段:伴随着互联网2.0时代的到来,互联网2.0的最重要的标志就是用户的原创内容;随着互联网和移动通信设备的普及、人们开始使用博客、脸书、微博、QQ空间等社交网络,从而主动产生了大量的数据。

加速阶段:是万物互联和数字化转型阶段。随着物联网的发展,各种各样的感知层节点(传感器、摄像头等)开始自动产生大量的数据,实现物理世界向数字化世界的映射。

三、大数据应用的三大阶段下表

NO.1(1960S开始)

NO.2(1990S开始)

NO.3(2015S开始)

数据源

业务系统数据库

数据仓库

数据湖+外部数据

数据与业务关系

随机、离散

常态化、体系化、外挂化

全域、敏捷、嵌入式

分析方法

图表统计

BI分析

BI+AI

对决策的影响

辅助决策

增强决策

自动决策

四、大数据面临的挑战:

4.1需求模糊:业务部门需求模糊,企业处于观望状态,担心投入回报。

4.2数据孤岛:政府部门或企业内部数据碎片化,无法相互打通,没有进行关联和整合,无法发挥数据价值。

4.3数据流失:企业保存数据的成本较高,导致大量的有价值历史数据被遗弃,数据资产流失。

4.4数据质量差:企业忽视了大数据的预处理阶段,导致数据处理很不规范,影响了数据的准确率和可用性。

4.5数据安全隐患:安全威胁日益增加、对系统和数据进行保护的难度也随之增加。

4.6隐私保护:隐私权益保护的法律法规越来越严格,企业需要进行合规审计,合理合法的进行数据收集和利用。

4.7人才缺乏:大数据相关人才的欠缺,对大数据技术和市场发展形成了一定的阻碍。

五、大数据的未来趋势

资产化:大数据价值不断提升,在企业和社会层面成为重要的战略资源、无形的资产。

智能化:大数据将更加智能化、可以自动进行数据处理和分析,提高数据处理效率和质量。

个性化:大数据将更加关注用户需求,实现个性化服务和定制化产品。

可视化:大数据更加注重数据可视化,通过图表、报表等方式将数据呈现给用户,以实现用户对数据的直观理解。

安全性:大数据将更加注重数据安全,采用更加严格的数据保护措施,确保数据的安全性和隐私性。

第三部分:大数据产业链

大数据产业链(如下图)

应用层

行业应用:包括:商业零售、工业制造、银行证券、教育医疗、政务治理

通用应用包括:广告营销、客户服务、产品研发、资源管理、市场调研等

技术层

大数据平台、数据中台

数据采集

数据存储

数据集成

数据处理

数据分析

数据可视化等

基础层

基础硬件包括:计算、存储、网络、基础软件、数据库、中间件、操作系统

数据源包括:企业数据、政府数据、行业联盟数据、第三方数据、数据交易

大数据的产业价值核心领域(如下图

1.大数据的应用领域:

领域

潜在价值与作用

制造业

产品故障诊断与预测、改进生产工艺、优化生产过程能耗

电商行业

掌握消费者需求、进行精准营销、提升销售业绩

金融业

进行风险预测和客户分析、提高风险控制和客户服务水平

交通领域

通过交通数据分析、分析人流高峰、合理的规划出行道路

教育行业

收集学生的学习成绩、优化教学过程和方法、实现个性化教育

通信行业

利用大数据对客户离网进行分析、制定客户离网关怀、挽留客户

能源行业

分析用户用电模式、合理实际电力需求、确保电网运行安全

物流行业

分析优化物流网络、提高物流运输效率、降低物流成本

生物医学

进行流行病预测、智慧医疗、健康管理、提升医疗系统效率

安全领域

构建安全保障体系、抵御网络攻击、加强系统防御能力

体育娱乐

寻找薄弱环节、提高竞技运动成绩

3.大数据的未来市场发展趋势规模:

2022年、我国大数据产业规模达到1.57万亿元、同比增长18%、成为推动数字经济发展的重要力量。

预计未来三年保持15%以上的增长速度、到2023年底产业规模超过1万亿元。其中:基础设施市场规模约为3千亿元、服务市场约为5千亿元。融合应用市场规模约为7千亿元。

第四部分:大数据的关键技术

1.大数据的技术演进:

-1960年代、能够统一管理和共享数据的数据库管理系统(DBMS)诞生。

-1990年代、为满足企业数据分析的诉求、数据仓库诞生。

-2000年、以Hadoop为代表的大数据技术体系诞生、大数据研究框架成型

-2010年代、在云技术的带动下、云上纯托管的存储系统逐步取代HDFS,开始出现数据湖。

-2020年代、开始逐步走向“云湖共生、“湖仓一体””。

     九、大数据的处理过程(详见下图

1.数据预处理与存储:大数据的预处理环节包括:

1.1数据清理:主要就是初步对数据进行、不一致检测、噪声识别、数据过滤修正等、进一步提高数据的准确性、真实性、可用性等。

1.2数据集成:将多个数据源的数据进行集成、从而形成集中、统一的数据库。

1.3数据归约:在不损害分析结果准确性的前提下、通过维归约、数量归约、数据抽样等技术、提高大数据存储的价值性。

1.4数据转换处理:通过转换实现数据统一、这一过程有利于提升大数据的一致性和可用性。大数据存储主要是利用分布式文件系统、数据仓库、关系数据库、云数据库等实现对结构化、半结构化、非结构化海量数据的存储和管理。

2.大数据的技术架构:

        安装、部署、配置和管理工具

分布式协作服务

实时分布式数据库

作业流调度系统

数据仓库

数据流处理

数据挖掘库

结构化数据

(数据库ET工具)

分布式计算框架

DAG计算框架

流失计算框架

内存计算框架

YARM:集群资源管理系统

日志收集工具

HDFS(分布式文件系统)

3.大数据的技术起源:

3.1大数据的技术栈:包括基础能力、数据采集、数据存储、数据计算及其他。在大数据的关键技术中其中有一项最为重要的平台即Hadoop平台。Hadoop是一个开发和运行处理大规模数据的软件平台。其优点就是:高可靠性、高扩展性、高效性、高容错性、低成本。

3.2大数据的关键技术中的批处理、流处理

批处理:收集并存储多项数据记录,然后在一次操作中进行集中处理。适用于不需要实时分析的场景。适用于MapReduce.

流处理:持续监测数据源、并在出现新数据事件时实时处理数据源。不同节点之间数据的传输是实时传递。适用于Storm、Spark、Streaming、Fink等数据湖的概念:数据湖是一类存储数据自然/原始格式的集中式存储库。数据湖通常是企业中全量数据的单一存储。允许以任意规模存储所有结构化、半结构化和非结构化数据。是一种在不断演进中、可扩展的大数据存储、处理、分析的基础设施。以数据为导向、实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。通过与各类外部异构数据的交互集成、支持各类企业级应用。以下是数据湖、数据仓库、湖仓一体在不同应用场景中的相互比较。

4.湖仓一体归纳表(见下图)

数据湖

数据仓库

湖仓一体

数据格式

开放格式

专有格式

开放格式

数据类型

 结构化数据

结构化数据

结构化数据

 半结构化数据

半结构化数据

半结构化数据

 非结构化数据

非结构化数据

数据访问

Open Api

SCL

Open Api

可靠性

低质量数据

高质量可靠数据

高质量可靠数据

治理与安全

行级、字段级细粒   度安全和治理

  行级、字段级细  粒度安全和治理

性能

扩展性

高扩展性、         低成本

高扩展性、成本       比例增加

高扩展性、            低成本

参考文献:

《hadoop大数据技术基础及应用》,大数据研习社;

《中国大数据分析平台行业研究报告,艾瑞咨询》;

《大数据白皮书(2022)》,信通院;

《2022中国大数据产业发展白皮书》,大数据产业生态联盟;

《全国一体化政务大数据体系建设指南》,炼石网络。