大数据治理和档案数据挖掘分析

(整期优先)网络出版时间:2020-06-15
/ 2

大数据治理和档案数据挖掘分析

1苏嘉 2张彬 3范佳伟

1天津市东丽区委网信办 天津市 300300 2 中共天津市委党校 天津市 300191 3 中共天津市委党校 天津市 300191

 【摘要】随着信息技术的不断发展,越来越多的政府部门在业务档案管理中应用了信息技术,通过建立电子档案数据库,利用专业的数据分析软件,对其数据进行专业化的分析,实现档案的信息化管理,充分实现了档案信息及资源的共享,而大数据时代的到来,使得传统的数据分析技术面临着严峻的考验,而在大数据发展的宏观背景下,档案数据挖掘技术的发展步伐也日益加快。

  【关键词】大数据技术;档案数据挖掘;档案信息

1大数据技术的特征

  在网络环境下,档案数字化管理成了档案管理的全新发展方向。互联网上将档案信息进行有效的分类,比如在专业的网站、论坛以及相关的博客中获取到的一些大数据信息,逐渐地成为档案开发及利用的新型模式。针对这种模式,一些发达国家早进行了尝试,并且取得了显著的成效。而我国所应用的数字档案馆则是以用户的需求为导向的服务系统,在这种大数据平台分析的基础上,对档案信息、数据进行深度的挖掘,使得档案信息管理的各个要素形成内在的联系,充分实现了档案信息资源的共享,满足用户对于档案信息的需求,以此来提升档案数字化管理的效率。

  大数据信息的调整包含了如下几项:首先,大数据信息汇集的信息量巨大,这也为传统的数据信息系统提出了更加严格的要求,传统的数据分析软件已经无法有效地适应大数据信息的发展需求,其价值与数据量相比,呈现出了低密度的状态。其次,不同的数据信息来源不同,比如访客的访问记录、访客日志以及社交媒体等数据,同时,其数据的类型也各有不同,传统的数据结构类型分为结构化与非结构化,前者是面向数据库中的数据,而后者则包含了文本、文档、图片以及一些视频信息等。最后,大数据的形成要求系统要按照用户的需求提供实时的数据分析结果,而用户通过对这些数据的分析有效预测接下来会发生什么样的事情。

2与档案数据挖掘面临的挑战

 2.1数据量问题。小数据信息的处理一般是以MB为单位来进行的,而大数据信息的单位则以GB、TB甚至达到了PB,并处于不断的发展中。据相关调查显示,全球范围内最大的数据仓库数据量每年会增加约2倍以上。传统的数据系统在处理大规模数据时往往会采用随机采样的处理方式,用最少的数据实现大量信息的有效获取,而这种处理方式通常适用于在无法有效获取大量信息的前提下进行,其准确性会随着采样数据的变化而不断变化。数据的价值是藏匿在海量数据中的,通过随机采样的方法根本无法有效获取到更多具有价值的信息。与其相比,大数据信息系统在分析数据之前要对数据信息进行预处理工作,这对于大数据信息而言无疑是一个严峻的考验。针对大数据挖掘的建模而言,最有效的方法就是将目标矩阵分割成同样大小、不同区域的子矩阵,之后将这些子矩阵分布在多个服务器的节点上,并充分地改造数据挖掘的算法。将其分为两步进行,第一步,在每个计算节点上对这些子矩阵进行有效的运算,最终获得计算的结果。第二步,将这些子矩阵的计算结果集中在一起进行运算,从而计算得出整个矩阵的结果。

2.2特性维度问题。在大数据信息中,数据分析的样本要应用不同的属性来表示。同时,其数据的多样性可以向系统提供更多的数据维度,而随着其信息量的不断增加,其所建立的模型与应用的计算方法也在逐步地扩大,但是在大数据的空间中,因为数据量的不断增多,其所应用的常用算法已经无法满足于数据信息增加的速度了,甚至会超过现有的信息维度级别。比如最常用的web中的微博数据,其关键词高达数千万,而微博的处理数量也达到了千万甚至更多,而这些问题也是数据挖掘信息中普遍存在的问题。超高维度的数据自身具备一定的稀疏性,所以并不适用于传统的全特征空间的方式进行建模。

 2.3数据关系问题。通常情况下,大多数信息的挖掘都是在平面上来进行的。而实际上,现存的数据信息之间存在着多种关系,而这些复杂的数据关系构成了复杂的社会网络,而这种复杂网络的基础条件则是大数据的多样性。这也为数据系统的建模提出了更高的要求,要充分利用多种关系的构造来分类建模,并针对不同关系中的关联模式进行有效的提取,有效的处理分散在不同数据源中的信息,同时这也是知识迁移的重点之一。

2.4算法性能问题。相比于小数据的复杂算法,大数据的简单算法被更多的企业所广泛应用。比如谷歌翻译的应用,相比于计算机中自带的翻译软件,其应用显得简单许多,而这一切要归功于海量的web训练数据,这也在一定程度上反映出了大数据自身具备的优势。然而,因为大数据时代的特征,其自身富含的信息量庞大、信息的类型各有不同。所以在对其进行分析挖掘时,无法合理地掌握数据信息的分布特点,这种现象的存在会在一定程度上导致在设计衡量的指标及其方法的过程中造成一定的困难。由此可见,在选择数据信息的算法时,要充分考虑其自身的性能。

3数据挖掘技术在档案信息管理中的应用

档案数据挖掘过程中,会用到包括文本信息抽取、文本分类、文本聚类、文本数据处理等技术进行文本的数据挖掘工作。比如以档案文本数据为基础资源知识库,根据档案发布的时间信息,分析档案产生的节点趋势以及政府部门针对某一政策的关联度;对档案类目信息或文本信息进行分词,运用文本分类和文本聚类技术,结合档案数据的基本属性(时间、所属部门等),对档案进行归类(如按照关键词、档案发布部门、主题等);采用主题识别技术对档案数据进行抽取,以档案主题为中心,结合档案类别归属,找出与之关联的档案。基于上述资源,结合多策略的内容抽取,进行文档数据内容的对比,分析相关政策的影响力、执行力以及变化趋势,从而给政府部门提供相应的决策资源。同时也可以通过知识管理技术,主要包括信息积累、知识挖掘、知识运用等,结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答序列,并将这些信息进行提取,形成解决某一问题域的数据集,挖掘出一定的专门知识,作为决策的依据,进一步提升档案信息资源的再利用与档案编研工作者的工作效率。

4结论

  综上所述,大数据技术的价值已经得到了社会各界的广泛关注,在大数据的宏观背景下,档案挖掘技术也拥有更加广阔的前景,人们利用大数据自身的优势,从中挖掘更有价值的信息,为深入分析所挖掘的档案信息奠定良好的物质基础,并有效地改善了传统档案管理模式的不足性。通过对大数据技术与档案数据挖掘的深入分析,为我国计算机技术的发展奠定良好的物质基础。本文首先阐述了大数据技术的特征,其次深入的分析了大数据技术与档案数据挖掘面临的挑战,包括了数据量问题、特性维度问题、数据关系问题以及算法性能问题,之后概括了档案数据挖掘的关键技术,囊括了数据集成、数据存储以及数据分析三个组成部分。

  【参考文献】

  [1]张文元,张倩.大数据技术与档案数据挖掘[J].档案管理,2016,63(2):33-35.

  [2]侯磊,王滢,王理.基于大数据的计算机数据挖掘技术在档案管理系统中的研究应用[J].数字通信世界,2017,66(8):96.

  [3]李元锋.大数据技术与档案数据挖掘[J].卷宗,2017,36(36):97.