传统的数据统计分析方法是利用数据库系统已有的数据进行简单的统计归类分析,可以方便快捷对数据进行录入、查询、修改、更新、统计等功能。但是传统数据统计分析方法无法及时准确地发现数据中存在的关系和规则,无法快速提取企业决策者需要的精准分析数据,致使企业决策者很难根据现有的统计数据预测未来的发展趋势。很容易丢失商机,造成企业的被动,为企业发展壮大带来巨大的阻力。因此急需一种新的技术来实现企业的这些需求。本文重点分析的数据挖掘技术可以替代对海量数据无法胜任的传统数据统计分析方法,它将传统的数据分析方法与处理大量数据的复杂算法相结合。数据挖掘为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了强大准确的处理能力,在海量数据处理方面得到广泛应用并取得非常好的经济及社会效益。
0 引言
新世纪以来,随着互联网及信息技术的飞速发展和应用,使我国的信息化得到前所未有的爆炸式增长,各个行业相继完成信息化改造,极大地提升了人们的生活水平与生产效率。同时,也使各行业进入到信息化发展的轨道上,进一步提升了企业生产效益。正是由于经济的飞速发展,各行业发展都已积累了海量的数据信息。但是传统的数据分析方法和工具仅仅能实现简单的录入、查询、更改、统计、输出等非常低等的功能,无法及时快速地发现数据跟数据之间存在的关系与规则,无法根据已有的海量数据有效预测未来的发展趋势,不能及时为企业决策提供有力的数据支持。
数据挖掘技术的出现技术填补了大量企业的这一需求,数据挖掘技术可以高效地挖掘数据背后隐藏的关系跟规则,非常方便地把这些海量信息予以统计、分析及利用成为当前各行业需要解决的首个问题。为企业决策提供及时准确的统计学数据支持,为企业发展壮大提供很好的数据分析工具。而海量数据挖掘技术的出现,保证了海量数据信息的合理利用,同时加快了我国信息化技术的发展。
1 数据挖掘技术定义
数据挖掘技术起源于情报分析,其过程是一个从大量的、不完整的、有噪声的、模糊的随机数据被从隐含在大量数据中提取的过程,数据挖掘的情报资料是人们事先不知道的,但可能是有用的信息和知识。在大多数情况下,人们利用计算机等信息工具的时候只知道,存储数据,数据被存储的越来越多,但不知道这些海量数据中隐藏着很多重要的规律、规则等信息,数据挖掘技术就是一种可以从大量的数据中挖掘出有用重要信息的一种数据分析工具。如图1所示。
2 数据挖掘常用的方法
数据统计分析中的数据挖掘技术主要有以下方法:分类法、回归分析法、聚类法、关联规则法、特征法、变化和偏差分析法、Web页挖掘等相关方法,这些方法从不同的角度对数据进行挖掘分析,得出需要的信息数据。
3 统计分析和数据挖掘的主要区别
从实践应用的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在实际的应用中,数据分析师分析问题时,首先要考虑的是思路,其次才会对与思路匹配的分析挖掘技术惊醒筛选,而不是优先考虑到底是用统计分析方法还是利用数据挖掘技术来解决这个问题。
统计分析和数据挖掘的主要的区别在以下几个方面:
统计分析在预测中应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底哪些变量在起作用,又是如何起作用的。最经典的例子就是“神经网络”挖掘技术,它里面的隐藏层就是一个黑箱,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的,在实践应用中,这种情况常会让习惯统计分析公式的分析师感到困惑,这也确实影响了模型在实践应用中的课理解性和可接受度。
统计分析的基础之一就是概率论,在对数据进行统计时,分析人员常常需要对数据分布和变量之间的关系进行假设,确定用什么概率函数来描述变量之间的关系,以及如何检验参数的统计显著性;但是数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系,因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。
在实践应用中,统计分析常常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设的正误。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。
两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。
4 数据挖掘的一般流程
海量数据挖掘技术指的是把海量数据信息有针对性地进行提炼、分类和整理,从而将隐含在最深层次的信息挖掘出,为各行业发展提供可靠的数据信息支持。换言之,海量数据挖掘技术利用当前最先进的数据分析工具从海量数据信息内部挖掘数据信息以及模型间的关系的一种技术统称,更加深入的认识与了解数据模型,并对各自模型件关系的对应关系予以深入分析,从而更好地指导各行业的生产与发展,同时为其提供更多决策性的技术支持。
事实上,数据挖掘过程不能够自动生成,必须通过人工建模来实现,因此,人需要完成大部分的工作。其中,主要包含数据采集、数据预处理、数据选择、建立挖掘模型及评估模型等。
首先,通常海量数据挖掘技术应用在各行业的生产和发展决策方面,也就是说数据挖掘工作将面临着巨大的数据信息,并且此类数据信息多数为模糊的、无规律的;其次,建立高效、易理解的数据模型有助于实现海量数据挖掘;再次,数据挖掘模型的构建主要目的是帮助用户解决实际存在的问题,在经过对海量数据信息进行挖掘之后,从中找出利用价值高的信息,再对此类信息予以统计、整理和分析,最终用于指导各行业的生产与发展;最后,开展数据挖掘工作主要是为从海量数据信息里找出有价值的数据信息,这并不是单纯的数学性研究,其根本目的是从各行业的海量数据信息中找出有价值的数据信息,它具有相应的约束条件,且面向的是针对性较强的数据挖掘模型。
数据挖掘的一般流程如图2所示。
5 数据挖掘技术实现
现如今,尽管海量数据挖掘属于一种新技术,但由于该技术发展速度较快,因此,已被广泛应用到计算机发展领域当中。近年来,由于数据挖掘理论的逐步趋于完善化,并且在实践中取得了较好成效。其中,最常用的海量数据挖掘技术主要包含以下几种:决策树、神经网络以及统计学模糊。
①决策树算法通常应用到分析分类问题当中,同时它也是分类与预测的一主要技术。其中,类别属于因变量,而决策树可从众多预测变量当中,再相关理论的指导下,预测变量的发展趋势及变化关系,同时可对其进行双向分析,即包含正向分析和反推分析,根据最终的结果去寻找问题的原因。
②神经网络的建立。事实上,人工神经网络法指的是模拟人脑神经元结构的一种算法。其中,改善神经网络算法的关键在于知识的表达与获取。神经网络可实现并行处理,这是因为神经网络应用的是自适应函数估计器,因此,它的学习能力是极强的,在短时间内能学会新知识,同时它的纠错能力与适应性也是非常可观的。
③统计学模糊学习。该方法属于一种预测法,常被应用到谈及机器学习规律当中,而且只可应用到小样本情形中。另外,该方法是对观测数据进行深入的研究,通过对原理的分析,找出其中不予通用的规律。再结合已找出的规律进行更深层次的分析与探究,再结合实践中存在的现象予以预测,这样可提前预测出数据的发展趋势。
6 数据挖掘的应用
目前数据挖掘的应用领域主要包括以下这些方面:
金融、医疗保健、市场业、零售业、制造业、司法、工程和科学、保险业、网络舆情监控系统、企业竞争情报系统、全文检索、企业搜索、数据分析、数据库,可以用在各个需要数据分析的行业。
6.1 生物科技
在生物科技领域,如人的大脑与机器这一层面上,利用数据挖掘技术可加速发展生化义肢这一产品,很多这方面的专家学者普遍认为利用数据挖掘技术快速发展生化义肢这方面是大有潜力可供挖掘的。
6.2 信息科技
数位权利管理愈来愈受重视,以便保护知识财产,由全录公司Palo Alto研究中心创出的Content Guard公司,利用加密技术保护知识财产。
6.3 商务智能
数据挖掘技术可以用来支持广泛的商务智能应用,如顾客分析、定向营销、工作流管理、商店分布和欺诈检测等。数据挖掘还能帮助零售商回答一些重要的商务问题,如“谁是最有价值的顾客?”“什么产品可以交叉销售或提升销售?”“公司明年的收入前景如何?”这些问题催生了一种新的数据分析技术——关联分析。如图3所示。
6.4 资料发掘与生物测定学
数据挖掘是利用数学演算法,在庞大的资料库中寻找方式,例如目前应用在掌纹、脸孔等图像辨识,或者是语言辨识处理等方面。
6.5 塑料芯片
塑料芯片是最新的前沿科学,塑料以其价格便宜、容易制造等特点被很多科研机构以及大学所青睐。很多大学科学家及机构在利用数据挖掘技术致力于研究塑料代替硅半导体,如IBM公司、朗讯科技、麻省理工大学、剑桥大学、Penn State大学都在大量研究与开发塑料或有机物质芯片。
6.6 微光学技术
专家利用可反射光线的水晶、玻璃等物质,让光纤传输资料的速度,不会因为通过路由器、交换器时而降低速度。
6.7 司法
在司法领域,数据挖掘技术分析的对象一般分为两大类:一类是基于监控对象的系统,它能够帮助分析专家跟踪某个犯罪嫌疑人;另一类是基于行为模式的系统,它可以在多种活动方式中搜寻可疑的可能涉及犯罪的行为,或者可能是犯罪分子才会产生的行为。基于监控对象的数据挖掘技术又称作关联分析法,是司法机构重点开发的技术。这种方法能利用相关数据,在表面上没有关系的人或事件之间建立关联。比如,如果某人是犯罪嫌疑人,那么就可以使用关联软件发现嫌疑人可能正在影响的其他人,从相关人那里获取破案线索。
6.8 微应用流体学
科学家正试图利用物理原则做实验,只利用极微量的水,加快原本需要费时费金钱的实验。加州理工学院的应用物理学家Stephen Quake,以微应用流体学发展了一套DNA分析装置,比传统的分析装置快。Technology Review的编辑指出,微应用流体学将为生物科技提供巨大的帮助,就像当初电晶体提高了电子产品。
7 案例分析
基于统计分析的数据挖掘在工程造价管理中的实例应用分析,在工程造价管理系统中,可通过选择工程单方造价指标、造价核减率、竣工结算价、工程结构形式、招标方式、竣工结算审核单位、竣工结算日期等因素等进行数据筛选,通过后台数据库统计分析后选出符合目标值的数据类型。
比如,选取出2010年1-7月某市市区竣工结算审定价超过100万元的工程计三十二项。其中,六层以下砖混结构住宅楼七项,六层以下框架混凝土结构住宅楼六项,十八层框剪住宅楼两项,框架综合楼五项,框架厂房三项,内装饰工程五项,外装饰工程两项,普通沥青路两项。
经过对建设成本的测算可以清楚,六层及以下的砖混结构住宅楼平均单方造价为801.65元/m2,六层以下框架住宅楼平均单方造价为941.39元/m2,十八层框剪住宅楼平均单方造价为1080.37元/m2,框架综合楼平均单方造价为1326.36元/m2,框架厂房平均单方造价为852.70元/m2,内装平均单方造价为24.58元/m2,外装平均单方造价为824.94元/m2,普通沥青路平均单方造价为354.55元/m2。
此市市区2010年1-7月竣工工程单方造价指标如上所示的典型工程造价指标信息,是此市定期发布的,具有代表性、以审定的工程结算为主的住宅(含经济适用房或廉租房)、公共建筑、市政道路等工程造价实例信息,它为社会和造价管理机构提供可参考的、较详细的实际工程造价经济指标和消耗量指标信息。
总的来说,数据分析处理,可以简单快捷地从繁重冗杂的工程造价数据中找出共性或者异性的数据。有效加强了工程造价的全过程动态管理,强化了工程造价的约束机制,为维护有关各方的经济利益,规范价格行为,促进微观效益和宏观效益的统一提供广阔的平台。
8 结束语
数据挖掘技术的广泛应用彻底解决了海量数据快速处理问题,然而人们对数据挖掘技术的需求水平也越来越高。它可以预测未来的发展趋势,所以今后研究焦点可能会集中到处理非数字数据;寻求数据挖掘过程中的可视化方法,便于在知识发现过程中的人机交互,使计算机真正实现智能化。这可能需要一段时间,需要计算机工作者的不断的研究探索,不久的将来我们将看到数据挖掘据技术很大的进展。
作者:李航 来源:价值工程 2016年18期
中国论文网(www.lunwen.net.cn)免费学术期刊论文发表,目录,论文查重入口,本科毕业论文怎么写,职称论文范文,论文摘要,论文文献资料,毕业论文格式,论文检测降重服务。