数据挖掘通常包括数据搜集、数据分析处理、规律知识展示以及知识运用等几项因素.然而在现实社会中绝大多数的数据均受到了一定程度的污染,导致了基本所以进行挖掘及处理的数据都是一些受污染的损坏数据池就是说,没有健康的原始数据做依托,根本无法得出科学可靠的规律知识.在这些大量且繁杂的数据中部分数据属于冗余数据部分属于无关数据还有部分属于损坏数据,它们直接影响了规律知识的研发因此应当充分研究并利用数据挖掘技术从而确保数据的健康可用性肩利于数据分析处理与规律知识研发等后期工作的顺利开展。
1数据挖掘的定义及其特征
数据挖掘指的是从数据库里挖掘出可用的、新颖的、有价值的并且模式规范的数据的一个实现过程。数据挖掘即依据数据库中数据的高效存储功能,利用机器技术的新型设计理念将具有潜在利用价值的数据知识挖掘出来.因此,数据挖掘技术属于数据统计技术、机器技术与数据库处理技术三者结合运用的成果,其多应用于工程上进行规律知识的研发。
数据挖掘同时也可以表述为一种用于大量繁杂数据处理的方法相对与人脑而言启能够更快速地获取有用的数据信息。因此六们习惯性地赋予了数据挖掘另一个专业术语,即知识发现。
数据挖掘具有以下主要特征首先能够对数量庞大且纷繁复杂的数据进行有效的处理淇次能够实现对数据信息的自动搜索再次能够通过数据统计分析总结归纳其规律知识并做出一定的预测最后经过挖掘的数据能够快速及时的展示数据的规律知识。
2数据挖掘过程的基本步骤
通常情况下数据挖掘过程包括明确问题、数据准备、算法选定、模式评估以及知识表示五个基本步骤,具体如下:
2.1明确问题
整个数据挖掘过程的目的是从大量繁杂的数据中获取有价值的可用数据信心,所以在进行数据挖掘之前明确所要获取的数据知识是整个挖掘过程中极为关键的一步.在明确问题的过程中除了要根据实际情况明确相关要求外,还需要明确应当采用哪些切实可行的数据挖掘技术方法。
2.2数据准备
数据准备的具体内容包括数据筛选、数据处理以及数据转换三个方面。数据筛选时为了确定进行数据挖掘的具体对象,即结合实际工作需要从数据库中选取一定的数据.数据处理主要是对数据进行形式转换、噪音消除、缺省值推导以及重复数据合并等处理。数据转换则是为了尽可能的缩减数据维数为后期的数据统计分析提供便利。
2.3算法选定
算法选定指的是数据挖掘算法的选择与确定.在根据明确问题的具体数据挖掘任务及目标(如数据聚类、关联规则及数据模式确定等)之后便要选定恰当的数据挖掘算法.在算法选定过程中,应当根据不同数据的数据特征以及实际工作的运行系统的具体要求进行选择。
2.4模式评估
在数据的挖掘结果中,存在着部分没有利用价值或者与违背实际规律的结果因此对挖掘结果进行模式评估是十分必要的一般情况下河以通过结合相关工作经验或者利用实际数据信息对挖掘模型的准确性进行评估,从而不断地调整并完善数据挖掘模型。
2.5知识表示
知识表示也就是决策者对数据挖掘结果的分析决策,即决策者依据挖掘结果并结合具体工作情况对相关策略不断地进行调试的过程。
上述步骤并非可以一步到位,或许需要不断反复进行某个或某些步骤才能得到最佳效果。
3数据挖掘的技术方法
数据挖掘的技术方法多种多样,比如神经网络、统计分析法、决策树归纳法、遗传算法、粗糙集理论、模糊集理论、可视化、分类法、规则归纳法、证据理论、聚类法、数据仓库等等.本文就以下几种主要的、常用的数据挖掘技术方法进行概述:
3.1决策树归纳法
决策树归纳法就是通过依据信息增益来获取数据库中信息字段的大小来设立决策树的节点,再依据字段的取值范围来确定决策树的各个分支.通过一层一层地不断建立决策树节点与分支便形成了决策树。决策树归纳法常用于对数据进行分类及预测。
3.2神经网络
神经网络计算模型的建立源自于仿造人体的神经网络结构以及其他人体工作机能.神经网络是以学习模式为脚本并以此来控制神经元链接的权值大小(即强度).神经网络计算模型具有通过利用众多神经元说链接形成的神经网络进行大规模的逐步计算的重要特征。
3.3统计分析法
统计分析法在挖掘数据的关联信息上起到重要作用.通过统计及分析数据关系表中的各项数据特性,获取数据信心间的内在联系.通常情况下数据关系表的数据特性间的关系有相关关系与函数关系.常用的统计分析方法包括回归分析、相关性分析以及规律分析等等。
3.4模糊集理论
模糊集理论主要应与处理或者展示数据的不确定模型。此外膜糊集理论除了能够处理或展示不完整数据、不精准数据或者噪音数据以外还能够研发数据的不确定模型并确保其灵活性与平滑性。
3.5遗传算法
遗传算法是在自然选择学说和基因遗传学说的基础上建立起来的并以达尔文进化论理论为模拟蓝本在计算机操作算法的一门学科吼具体来说是通过其中的一种算法把任何一种种群放到这种算法操作中产生新的个体再让这一新个体选择到更好的区域并在这个区域不断虚拟进化,最后让这些能适用的新环境的新个体集合成新的群体,同时这些新个体又被赋予了一个新的适合值,这就是遗传算法。遗传算法的主要功能是用在分类和组合上。
3.6粗糙集理论
粗糙集理论在上世纪的八十年代中首先被提出,相对于其他计算方法启是一种软计算方法能够处理不完全或者不确定的信息对不同的属性值进行离散分析再对这些属性划分类别再集合等价最后是决策最终获取规则。实现数据挖掘技术的成功处理。
4数据挖掘的应用
在国内数据挖掘技术的应用并不算广泛,仅在上海宝钢等一些大型企业有所应用,并且仅仅把数据挖掘技术当成是一种辅助的工具对生产进行辅助决策河是却能提高生产的效率节约成本.在全球上数据挖掘技术的应用很广泛具体如下:
4.1科学研究方面
数据挖掘技术能够应用到天文学科学领域、生物科学研究领域、物理科学研究领域等领域中,尤其是在微观方面能够用各种数据分析遥远的星体的距离预测地球以外中星体状况能够通过先进仪器运用数据挖掘分析生物中的基因发现各种基因的异同然后研发出新的生物分子配置推动生物工程的发展.尤其是近些年来科学研究领域中对微观科学研究越来越重视数据挖掘更是得到飞速发展。
4.2商业经营方面
当今商业领域的竞争尤其激烈除了有一流的人才厂流的管理和一流的设备以外,对数据的收集也是非常的关键.如在零售业中商品的销售量都不一样单靠人工操作,也只能粗浅分析某一商品的销量的多少,并不能分析某一类商品的性质和类别购买的群体等.而各种数据不断增加,人工效率不高叽运用数据挖掘知识技术能够让经营者在最短的时间内做出最有利的判断制定各种商业经营策略预测各种销售情况.很多大型的外国公司都很好利用了数据挖掘技术加运用Inetlligent Miner系统挖掘顾客的购物行为。
4.3金融投资方面
股市有风险投资需谨慎单凭个人的经验以及所学到的一些金融知识我们只能从宏观上把握整体的金融走势,然而若要从微观去把握和分析某一种金融项目进行投资,则需要运用各种数据挖掘,通过这些数据才能处理人无法判断和分析的内容最终才能做出最合适的选择.例如我们能从股市中的各种微观数据判断整个大盘的走势,而不仅仅是纯粹了解国家的宏观政策。
4.4医疗设备方面
当代的医疗技术发展很快,这得益于一些先进的设备的使用.通过这些先进的设备能够分析各种药物的分子和原子结构结合病情案例进行分析整合在不同的分子结构和基因结构快速地转换和检查得出治疗的最佳方案。同时还能够用不同的数据挖掘配出各种新药治疗其他的病症。
4.5保险评估方面
保险业本身是给顾客办理保险的,但保险本身就是个行业保险行业也是以盈利为目的因而对于一些高风险的生意同样需要检测评估若是风险大的保险领域则需要挖掘高风险的数据对这些数据评估、检测、然后做出判断最后知道保险公司的进一步经营.在当今内容多烦杂乱竞争异常激烈的保险业务能够建立数据挖掘数据系统,能够促进保险业务的发展。
4.6通信网络方面
网络通信中有很多网络警告语,有的警告语是可以理解的肩的警告语是可以忽视的但是有的警告语必须及时处理,这些急需处理的警告语一般都是根据人的经验去处理这样的处理大大降低了工作效率增加了很多成本。数据挖掘恰恰能弥补这个效率不高的短板,它通过分析各种警告数据再获取各种警告数据之间的逻辑关系和数据关系,从而做出正确的判断。通过数据挖掘能有效地处理通信网络的故障还能检测可能发生故障的网络。
5结语
对于数据挖掘规在全球都处于一个起步的研究阶段,无论是科学理论、科学方法还是各种软件技术都不是很成熟但是由于其能融合各种数据分析、工程知识、各种统计数据、交互环境等各种学科的特点对人类有很大的应用价值。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:浅析数据挖掘的技术方法及应用
本文网址:http://www.toberp.com/html/consultation/10820616311.html