浅析数学与应用数学在大数据中的应用

(整期优先)网络出版时间:2024-04-16
/ 3

浅析数学与应用数学在大数据中的应用

季轶

  长沙师范学院数学科学学院  湖南 长沙  410100

摘要:我国的大数据处理是当今社会信息化进程中一个不可回避的问题,数学与应用数学同样重视对学生实际运用数学知识的培养。近年来,数学与应用数学对大数据进行广泛而深入的研究,为解决大数据问题提供新的思路。本文以大数据为研究对象,探索数学与应用数学在大数据分析中的应用。

关键词:数学与应用数学;大数据;数据挖掘

引言:

随着我国经济和社会的飞速发展,大量的信息在生产和生活中产生,对信息的利用也日益增多。大数据和网络技术密切相关,人们需要在应用中将其正确融合利用,通过对数据的收集,分类,分析和应用,从而创造出新的技术和产品,以及为管理工作提供支撑。目前,大数据受到越来越多的关注,相关的研究也在不断深化和扩展。

一、大数据概述

(一)大数据的概念

大数据是指相对于数据库和云计算等存储系统而言,在特定的时间段内,通过常规的软件对其进行检索、处理数据。随着信息化的快速发展,工业生产过程中产生海量的数据与信息,而连续的数据生产规模也在不断地扩张,从而造成数据灾难。在此基础上,为了促进大数据的快速发展,需要建立一套有别于传统框架的大数据传输、存储与分析方法。

(二)大数据的特征

1.数据量大

按照IRC对数据的定义,要对其进行分析,最少要达到100 TB以上。数据量的大幅增长有许多理由。首先,由于网络的普及,个人、公司及机构对网络的利用日益扩大,从而取得资料并分享资料是相当简单的。在此基础上,使用者能轻易地通过网络存取资料,使用者可以通过分享与不经意的点选,迅速获得海量的资料。单位化数据存储与加工都是以数字为单位的,所以数据容量是有限的,而且成长也是很慢的。当应用程式成长时,资料的量度就会愈来愈高,同时也需要大量的资料来描绘。在早期的互联网中,数据以文字、一维音频为主,具有测量结果不高、单个数据量小等特点。近年来,大量的二维数据,如图像、视频等被大量涌现,由于三维扫描、Kinect等动作捕获装置的广泛使用,使得采集到的数据与真实生活更加贴近。另外,海量的数据也显示出人类对数据和观念的根本改变。利用抽样技术在少量资料的条件下,对某一问题进行大致的描述,并能依据其采集与加工资料的能力,通过取样就能获得样本,从而利用现在的科技来进行资料的处理与分析。在一些特殊的实际问题中,抽样数据往往不能全面地反映事物的全貌,也有可能遗漏很多关键信息,甚至出现截然相反的结论。所以现在有一种倾向,就是直接对所有的数据进行处理时,不只看样品资料。利用全部的资料,可以得到更精确的资料,从而解释更清楚事情的本质,从而更好的处理大量资料。

2.数据类型多样化

虽然先前的资料规模较大,但是一般都是预设的结构性资料。结构性资料就是把事物进行抽象,使之易于人和计算机进行储存、加工和查询。对于结构化数据,事先对数据间的相应属性进行分析,建立一种结构来表达数据属性,在数据库中以表格的方式保存数据,使数据的格式保持一致,这样不管产生几次数据,只要有属性就能把数据保存到合适的地方,而且可以很容易地进行处理。查询一般不会在数据采集、处理以及查询方式上做很大的改变,只会限制在运算速度和储存空间上。随着网络、传感器等技术的飞速发展,海量的非结构化数据应运而生。非结构化数据无结构特性,不能将其表示在表格结构中,也不易记录其价值,同时还需进行数据结构的存储,从而给数据的存储与处理带来困难。当前,网络上流通的数据大多为无结构化的数据,在人们的生产、生活中,也在不停地产生大量的半结构性或非结构性数据。在此基础上,大规模的、半结构的、无结构的数据正在逐步占据主导地位。随着数据规模的不断增长,各种新的数据类型不断涌现,用单一模型来表征日益复杂多样的数据,已不能用传统的数据库表对其进行分类与表达。

3.数据处理速度快

随着各类传感器、互联网等信息技术的飞速发展与普及,使得数据的生成与发布日益便捷,而数据的生产方式也日益多样化。数据呈现爆炸式增长,新的数据层出不穷,随着数据量的迅速增加,使用者对数据的处理速度提出更高的要求。另外,很多应用对海量数据的实时处理提出更高的要求,如海量的即时交互电商应用。大数据是一种快速流动又快速消散的数据流。另外,数据流一般不会平稳,可能会在某一时刻突然爆发。资料呈现的特性十分显著,使用者对于资料的回应时间往往相当敏感。心理学试验证明,就使用者的经验而言,瞬间(3s)是可忍受的最高值。对于在大数据应用中的很多情形下,数据生成需要快至1s,否则就不能满足用户的实时处理需求。

4.数据价值密度低

传统的结构化数据是建立在具体应用的基础上的,每一种信息都包含要考虑的信息,而大数据可以抓住事情的全部细节,而不仅仅是抽象或者概括。因取样与抽取的简化,大数据可将全部资料呈现出来,能进行更多信息的分析,但同时也会造成许多没有意义的信息,甚至是错误信息。因此,在具体的应用中,数据价值的密度低。另外,各类视频监控系统在持续监测过程中,会产生大量的视频数据,但很多都是无用的,而在某些特殊的应用场合,比如,在一些案件中大数据仅需1-2秒钟就可以获得嫌疑人的体貌特征。但是,由于大数据中的稀疏性,使得其能够利用的数据量往往很少,如从大量无关的视频中获得有用的信息会变得非常困难。因此,为保证新应用的可靠性,往往要将全部数据保存下来,从而使得绝对数据的数量迅速增长,而有效数据的数量却大大降低。

二、大数据实现的核心技术分析

(一)基于存储的分布式文件系统

分布式文件系统是一种基于网络的数据传输方式,在网络化环境下,分布式操作系统具有海量信息、海量数据、复杂数据结构等特点,使得用户可以频繁地使用海量的数据,这也给未来操作系统下的文件系统管理带来了严峻的挑战。谷歌自主研发的数字文档系统GFS,能够高效地对多种类型的海量数据进行高效的存储与管理。其中,HDFS采用主从型结构,每一个HDFS群集都是通过name node和data nodes共同构成的,能够在普通的硬件环境下实现对海量数据的读写。name node节点是一种中心服务器,作用是对文件系统中的名字和空间进行统一的管理,data node可以对自己节点的数据进行统一储存管理。

(二)基于分布式内存的文件系统

随着网络与大数据的不断发展与应用,对于实时计算的要求日益增长,分布式存储计算也随之兴起。在此基础上,提出了一种基于多层结构的分布式自动稽核方法,并在此基础上提出了一种新的方法。固态硬盘与储存装置的不断发展,极大地提升了系统整体的记忆体与频宽,但是磁碟机的频宽成长却相当缓慢。由于只有将外置记忆体及资料传送装置取代原始硬碟,整体效能才能得到提升与提升。为了从根本上解决这一问题,AMP实验室利用分布式多存储时延的数据处理系统,自主研发了自主的操作系统Tachyon。该算法主要是针对当今社会对海量数据的“低延迟”要求而设计的。Tachyon会在内存中自动地管理高速缓存的文件,并且以比HDFS高出100多倍的带宽来实现最大的存储存取速率。由于Tachyon将分布式存储与上层计算连接起来,因此无需将文档存储到分布式存储文件系统中,可以有效地提升数据处理的质量,降低存储冗余与浪费的时间。

(三)基于预处理的分析挖掘系统

大数据分析是指在不能用常规手段直接获得的情况下,利用新型的大数据采集手段,能够快速、准确地获得信息的手段。总体上,大数据具有规模大、形态复杂等特点。但同时,大数据的处理速度也远远超过了传统数据处理软件。因而,该系统的问世,必将为当代信息技术的发展开辟一条新的道路。大数据的研究包括四个方面。其中,数据预处理是指对数据进行筛选、修改、测试、采集等过程,并在确保数据质量的前提下,完成后期的大数据分析。为了实现对海量数据的有效发布,需要对海量数据进行转换、整合和处理,大量的数据分析为开发工作提供了重要的理论依据。同时,利用可视化、预测性分析等手段,将数据的价值充分展现出来,从而极大地提升数据分析的效率。在预测性数据的分析中,人们能够根据历史资料,对未来的发展趋势作出合理的评估与衡量,作出科学的投资决策,有效地制订应对方案,从而实现预防与控制的目标。

三、数学与应用数学的发展现状

(一)纯数学专业

作为理工研究类的基础性学科,数学一直都得到了很多高校的重视。随着时代的发展,这门学科的研究与应用也会越来越丰富。从牛顿微积分开始,到现在,数学的研究方向都在不断地扩大,但随着学科范围的扩大,以及数学本身的复杂性,想要构建一个更高的层次,难度就更大了,我国在过去的数十年里取得了很大的进步,但是,人均经济增长的空间还很大。受经济条件等因素的制约,国内大部分的研究都是以实用为导向的,这就导致了对数学学科的冲击越来越大,而纯数学的应用则逐渐被边缘化。总体而言,我国现代学科在数学方面并没有太大的优势。但是,在大数据时代,数学能够为大数据的分析与研究提供充足的理论与方法支撑。

(二)数学与应用数学

数学与应用数学,是从数学中派生出来的一门科学,是复合科学中的一种重要分支,发展出了实际的理论与方法,引起了理工学科界的广泛重视。数学与应用数学,有别于传统的纯粹数学,既是对数学理论的研究,也是对与实际应用有关的数学问题的研究,进行交叉学科的研究,如科技或人文科学。数学与应用数学的研究方向依然是以计算机为主体,包含了传统的计算机科学与新兴的大数据科学(大数据与人工智能)。大数据与应用数学的紧密联系,在科技发展的过程中,需要数学与应用数学来为计算机技术提供基本的理论支撑,从而加强计算机技术在大数据分析中的应用。当代经济的发展则是从理论与经验两个方面展开,经济学者在进行有关的理论研究和建模工作时,往往离不开大量的资料,比如经济计量学,即把数学的理论知识和经济学的知识有机地结合起来,用来解决实际问题。由于经济计量学的重要性日益增强,其与经济的联系也日益紧密。

四、数学与应用数学在大数据中的应用

(一)医疗大数据的应用

当前,数学与应用数学在大数据研究中得到了广泛的应用,特别是医疗大数据。一般而言,医疗机构可藉由对国内所有个案的分析,对疾病爆发有一个完整的认识。在美国,有五千多万美国人利用数据分析,已经取得了比较精确的结果。另外,学界还为禽流感疫情画出了地图,并通过使用禽流感疫区,有效地遏制了疫情的进一步发展。通过对人体遗传数据的分析,医生们也能为个人的身材量身定做相应的药品。在医疗研究与发展方面,运用数理及运用数理的方法,来搜集医疗与医疗资讯,并加以专门的加工,以衡量人们的情感,寻找出更好的治疗方案。在新药研制过程中,药品研发部通过对大部分病人的用药需求进行分析,找出疗效更好的药品,从而大幅减少研发费用。

在对健康危害因子进行研究时,利用物联网技术对影响人类健康的危险因子进行研究。利用大数据对危险因子进行分析,根据区域、人群,筛选出适宜的危险因子,绘制出健康监控图谱。数学与应用数学还可被用来对大数据进行分析,从而提高人们的健康水平。例如,美国政府对阿兹海默症的最新研究表明,未来30年内,中国阿兹海默症病人数量将会达到一千五百万以上。大部分的健康护理专家都预计阿兹海默症的感染者在接下来的5年里还会持续增长,有关资料也对年长的妇女病人提出了一些防范措施。

(二)企业大数据的应用

在企业层次上,大数据的使用也越来越多。2017年,我国出台了“大数据战略”,大力推进“数字基建”,并在此基础上引入数学、应用数学等方法对大数据进行分析。利用数学与应用数学的方法,结合逻辑思维的原理,对数据进行整合开发与共享,保证数据的安全性,归纳出企业大数据的发展方向,促进公司的更好发展。

例如,在了解企业销售收入和市场占有率之间的比例时,可以建立一个数学模型进行数据分析与预测,从而帮助企业在生产过程中不断地为顾客提供满意的产品。与此同时,将数学与应用数学相结合,将大数据分析方法,还能够归纳出消费者的消费习惯与常用消费场所,掌握其消费特征,从而实现对销售产品的制造与广告投放的精准化,满足人们的现实需要。

(三)数据挖掘的应用

大数据时代,数学与应用数学的研究热点之一就是数据挖掘,任务就是从海量的数据中挖掘出隐含的或不可知的有价值的信息。目前,资料探勘已经在通讯、教育与研究、市场与发展、经济与金融等多个方面得到了广泛的应用。研究结果不仅能为科研人员的研究和开发提供技术支撑,还能为企业的经营决策提供数据支撑。数据挖掘是将数学知识运用到数据的处理过程中。由于原始数据的完备性、一致性等方面的不足,以及一些其它因素的影响,必须对其进行一定的处理,以改善其精度。在资料处理方面,常用的是数理分析法,包括描述法、相关法、回归法等。在此基础上,将相关性分析与回归分析相结合,使之能更好地体现多元变量间的相互影响,从而对未知量进行深入的研究。回归分析技术用于大数据的处理,主要是根据抽样数据对相关参数进行评价,然后通过构建数学模型对模型进行验证、判断和预测。此外,数据挖掘还将引入度量手段,降低测量数据的复杂度,构造新的单调度量来保持数据的完备性,并提高数据的精度。

数据挖掘活动往往呈现出交叉学科、实用性强、信息可采集性强的特点,同时数学方法在数据挖掘中起到关键影响。目前,数据挖掘的方法建立在数学原理之上,主要有相关性分析法、聚类分析法、决策树法和神经网络法。另外,在聚类分析的基础上,提出了一种基于区间法的灰色关联分析法,以及基于模糊目标函数的聚类算法,其中灰色关联分析法是一种适用于对小样本和小样本数据进行分析的方法。

结束语:

大数据的爆发,是人类在新时期对数据品质、对信息的要求越来越高的一种必然结果。海量数据的爆发式增长,给数据采集、分类、存储、分析与预测等带来了巨大的挑战,也给社会各界带来了前所未有的变革。在大数据管理系统的研究与开发中,要将核心技术重点放在突破上,解决基础性问题,并有效地扩展其实现途径。在新一代信息技术的发展进程中,数学与应用数学已成为大数据管理领域的一个重要组成部分,有着广泛的应用前景,相关技术人员对大数据的管理应该给予足够的重视。

参考文献:

[1]余亚辉,任铭,郭彦飞,等.数据科学与大数据技术专业数学基础知识模块架构研究[J].长春工程学院学报(社会科学版),2021,22(02):91-94.

[2]黄秀团.浅谈计算机的数据分析在应用数学中的作用[J].信息记录材料,2021,22(06):81-83.

[3]刘晓力.大数据技术在数学建模实践中的应用[J].电子技术,2022,51(10):298-299.

[4]李艳秋,于炎,李婧蕊.数据科学与大数据技术专业数学类课程教学改革探析[J].数学学习与研究,2023,(14):11-13.

[5]刘家名.数学与应用数学在大数据中的应用[J].中国高新科技,2021,(02):75-76..

[6]王师,李晓岩,杨静,等.职业本科专业“应用数学”课程建设研究——以大数据工程技术专业为例[J].工业和信息化教育,2022,(12):36-40.