大数据之发掘型分析(知识普及篇)

剪纸        2019-05-15   来源:花姐谈往事


大数据(Big Data),并不指数据大,其还有四大特点,4V,分别是Volume(海量)、Variety(多样)、Velocity(高速)、Value(价值)。在信息爆炸的时代,数据其实是企业的宝贵资产,像资金、实物、机器、设备一样。对于审计来说,是否能从海量的数据中取得审计线索,将决定审计今后的发展。


发掘型分析是处理大数据最好的方法之一。发掘型分析就是从大数据中寻找其隐含的数据规律和模式,预测将来趋势和行为的一种数据分析模式。数据挖掘技术是实现发掘型分析的有效手段。


什么是数据挖掘?数据挖掘是从存放在数据库中的大量数据中获取有价值的、可被理解的信息、模型的过程。数据挖掘利用了许多领域的理论和技术,其中较为基础的有统计学的抽样、估计和假设检验理论,建模技术和理论,还有数据库系统储存、索引和查询技术,人工智能、模式识别和机器学习领域的搜索算法,等等。


一、数据挖掘分类

1.按数据库类型分类

从关系数据库中发现知识的过程,称为关系数据开采;从面向对象数据库中发现知识的过程,称为面向对象数据开采。

2.按挖掘的知识类型分类

可分为关联规则、特征规则、分类规则、偏差规则、聚集规则、判别式规则等。

3.按采用的技术类型分类

可分为数据驱动开采、查询驱动开采、交互式数据开采等。

4.按挖掘的深度分类

在浅层次上,利用现有数据库管理系统的查询/检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,从数据库中发现前所未有的、隐含的知识。


二、数据挖掘方法

1.分类分析

分类的主要功能是根据数据的属性将数据分派到不同的组中。通常分类需要首先从数据中选出已经分好类的数据集,然后再该数据集上运用数据挖掘分类的技术,建立分类模型,发现不同类别数据的特点。

2.聚簇分析

分类分析对数据是先分类,然后发现其特性。与其相反,聚簇事先不把数据分组,而是根据一些聚簇规则把数据按照相似性归成若干类别,即“物以类聚”。

3.关联分析

关联的目的是发现隐藏在数据间的相互关系,通过挖掘发现一组数据项与另一组数据项的密切度或关系。密切度或关系用最小置信度描述,置信度级别度量关联规则的强度。

4.序列分析

关联分析发现数据项同时出现的规律,序列分析发现数据项出现的时间上或序列上的规律,分析数据间的前因后果。与关联分析相同,在进行序列分析时,也需要确定最小支持度和最小可信度,否则在数据库中存在无穷多的序列规则。


相关阅读