1.问题的提出
每种设备在试验过程都会产生并积累大量的原始数据、过程数据、结果数据、分析数据、报告数据等。另外对于复杂的设备试验通常具有结构复杂、测量参数多、测量设备种类繁杂、试验资源分散、试验流程复杂、时间跨度大及试验数据共享困难等特点,因此其数据管理、分析与利用就较困难。根据试验设备的类型不同,其试验数据的文件类型和数据格式也不尽相同,例如数据格式有数字、模拟、音频和视频等,文件类型包括文本文件、格式文件、压缩文件、非压缩文件等,试验人员往往以手动的形式对数据进行分类、筛选和整理,由于这种手工操作可能引起数据的丢失或对进行数据筛选过程中出现错误,造成了宝贵的试验数据的丢失。试验数据的存储目前多数采用磁盘存储,或建立数据管理系统将数据存储到数据库中,如何有效的利用这些数据,从纷杂的数据中提取出有用的信息,数据挖掘技术能解决这些问题。
2 数据挖掘技术
数据挖掘技术是多学科交叉的新兴技术,随着数据的大量积累以及市场竞争对信息与知识的迫切需求,数据挖掘技术迅速发展,逐渐成为人们关注的焦点。目前主流的数据挖掘方法有CRISPDM、SEMMA和IBM等,常用的数据挖掘工具有SQL Server 2005 Data Mining、SPSS/Clementine等。
数据挖掘技术实现数据采集、数据清洗、规则归纳、模式识别、数据/结果分析及评估、可视化输出全过程,可分成业务理解、数据理解、数据准备、建模和模型评估几个步骤。数据挖掘流程如图1所示。整个数据挖掘过程可形成闭环结构,在数据挖掘过程也是一个不断迭代的过程,直至满足业务需求为止。
图1.数据挖掘流程
业务理解是初始阶段,主要集中在对任务目标的理解,以及从、业务角度对客户需求的理解,并将这些理解转化为一种数据挖掘的定义和为了达到目标的初步方案。
数据理解阶段包括收集数据,熟悉数据和检测数据的质量,对数据有初步的理解,探测数据中比较有用的数据子集,形成对潜在信息的各种假设。
数据准备阶段包括从原始复杂粗糙的数据中构建最终数据集的所有工作,包括数据制表、记录、数据变量的选择和转换,以及为适应建模工具而进行的数据清理等,该阶段可能进行多次。建模是指通过建模校准参数,建模方法有多种且建模方法对数据格式有具体的要求。
模型评估是对构建的多个模型进行评估,确定是否达到了任务的目标,建模过程中是否充分的注意和考虑了重要的问题。这一阶段结束后,数据挖掘结果基本满足任务要求。
模型发布是将数据信息以一种用户能够使用的方式组织和呈现。根据需求的不同,模型发布可以为一份报告或复杂的统计分析数据等。数据挖掘过程中一个重要的组成部分是算法,目前数据挖掘的算法相对比较成熟,所不同的是算法的实现和对性能的优化,根据实际问题选择优化的算法是非常重要的。常用的算法有:决策树算法、神经网络算法、基因算法、贝叶斯网络方法、支持向量机等。
3 试验数据挖掘分析
试验数据挖掘包括数据准备、数据知识和信息挖掘两个阶段。
3.1 数据准备
首先选择数据。收集原始的试验数据,将大量的试验数据按照类型分类、汇总,并将数据存储在数据库或数据仓库中,并从中选择出适用于数据挖掘应用的数据。
其次预处理数据。研究试验原始数据的质量,去掉不合适的数据或数据类型,为进一步进行的数据分析、数据挖掘作准备。最后数据的转换。将准备好的试验数据按照数据挖掘模型进行转换,使其转换成一个数据分析模型。
3.2 试验数据的知识和信息的挖掘
作为数据挖掘技术的核心,知识与信息的挖掘是非常重要的,主要由以下几部分构成:
(1)确定试验数据挖掘的任务类型,确定系统要实现的功能及任务。
(2)选择合适的数据挖掘工具、数据挖掘算法及技术。建立一个适合挖掘算法的分析模型,选择数据挖掘工具和数据挖掘算法,搭建数据挖掘平台,本系统使用SPSS工具。
(3)挖掘数据,用选定的算法或算法组合在平台中进行反复的迭代和搜索,从数据集合中抽取出隐藏的、有用的信息,并以图、表等方式进行表示出来,本系统使用决策树算法实现数据的挖掘。
3.3 采用决策树算法对试验数据挖掘
决策树算法是一种常用的数据挖掘算法,该方法是从机器学习领域中逐渐发展起来的一种分类函数逼近方法。一个决策树由一个根结点、一系列内部结点及终结点所组成,每一结点只有一个父结点,但可有两个或多个子结点,形成一个分类的树形结构,在树结构的每一分叉结点处,进行不同的选择实现进一步的细分类。决策树是仅以实例为基础进行归纳和运算,不依赖经验知识,也不用对数据分布进行假设,决策树学习的基本算法是贪心算法,一般可采用自顶向下的递归方式构造决策树,其结构简单并可生成易于解译的分类判别准则。使用决策树进行试验数据挖掘的步骤如下:首先选择试验数据样本的一个子集以形成决策树;之后以选定的试验数据样本为对象逐级推理出用树型结构表示的分类决策集合,如果此树没有为所有的数据分析结构给出一个正确的有效的数据答案,将例外情况加入到树中,不断重复这一过程直到发现正确的决定集。最终形成一棵树,每一片叶子代表一个类名,每个节点描述一个属性,节点的每一个分支对应于该属性的每一个数据值,最终得到试验数据的分析结果。
4 结语
随着试验的种类的不断增加,试验数据成快速增长的趋势,对数据的管理及有效利用问题是一个迫切需要解决的问题,采用数据挖掘算法和相应的工具能较好地解决数据有效利用问题,未来数据挖掘技术在数据管理和数据信息的利用方面会发挥越来越大的作用。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:基于数据挖掘的试验数据利用研究
本文网址:http://www.toberp.com/html/consultation/10820616437.html