商务智能(business intelligence,BI)是1989年由Gartner Group的Howard Dresner提出,但目前对商务智能还没有统一的定义。一般地,商务智能被认为是将存储于各种商业信息系统中的数据通过智能手段转换成有用信息以帮助企业提高决策能力解决商业问题的概念、方法和技术的集合。商务智能引起了国内外企业界和软件开发界的广泛关注,并成为当前一个热点研究问题。作为商务智能的重要组成部分之一的数据挖掘(dataining,DM)的研究提高到了一个新的高度,在分布式商务智能环境下,采取合适的数据挖掘系统模型和数据挖掘算法尤为重要。
Agent技术是人工智能的新兴研究课题,是有效解决复杂分布式问题的计算模式之一。基于Agent技术的应用系统不仅具有一般分布式系统所具有易于扩张、灵活性强等特点,而且系统具有很强的智能性和组织能力。本文在分析商务智能分布式环境基础上,介绍了面向商务智能的分布式数据挖掘系统应具有的基本特点,提出了一种面向商务智能应用基于Agent技术的分布式数据挖掘系统,并讨论了系统各组成部分功能特点。
1 商务智能的分布式环境
商务智能的发展,先后经历了事务处理系统、高级管理员信息系统、管理信息系统、决策支持系统和专家系统等阶段,最终演变成今天的商务智能。商务智能系统,与这些信息系统相比,主要区别之一是用户不再仅仅局限于企业的领导和决策分析人员,而是扩展到企业组织内外各类人员,即商务智能系统是面向多层次各类用户的应用需要。这些用户往往分布在不同部门或地区,从而使商务智能系统面向分布式应用环境。
同时,商务智能面向分布式数据环境。商务智能有效地集成企业内外部各种商业数据,并转换成易于理解的商业知识,帮助企业内外部用户进行科学决策,更好地实现商业目的。企业内部数据是指通过企业各种业务信息系统收集到的数据。这些数据可能分布在不同的硬件、数据库、网络环境中,为不同的业务部门服务。外部数据主要是市场信息和外部竞争对手信息,这些数据可以通过网络或市场调研等手段获得。因此,商务智能将肯定面向分布式的应用环境和数据环境。
2 面向商务智能应用的数据挖掘系统特点
为了充分利用企业内外流动的大量商业数据,企业商业智能系统必须采用数据挖掘技术实现商务知识的发现。数据挖掘是从大量数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有价值的知识和规则。传统的商务智能数据挖掘是采用一种集中式思想,即要求将这些分布存储的数据收集到一个集中的地方,然后才进行知识发现、管理和决策,这样的商务智能要求企业有高速的数据通信网络。商务智能往往需要用户交互以获取参数信息,这无疑增加了集中式商务智能系统的负荷。同时,这种方式也破坏了数据的私有性和安全性。因此,数据的分布式存储、数据的私有性和安全性、用户频繁的信息交互和商务智能的及时性要求等迫切需要深入研究分布式环境下的分布式数据挖掘技术。
分布式数据挖掘(distributed data mining,DDM)主要涉及到分布式数据挖掘系统模型和分布式数据挖掘算法。一个分布式数据挖掘系统是一个复杂的实体,整个系统必须提供有效的访问分布式数据和计算资源、监控整个挖掘过程和以一定格式将挖掘结果呈现给用户的功能。而且,一个成功的DDM系统应该具有灵活的结构,提供一个简单的更新其组件的方式以适应变化的环境。由此可见,面向商务智能的分布式数据挖掘系统模型应该具有以下特点:①采用模块化设计,保证系统中不同模块可以根据需要进行灵活地增减和配置以及分布式数据挖掘系统的持续可用;②实现分布式移动数据挖掘,满足商务智能系统中多层次用户的多种数据挖掘需要,保证商业数据安全;③采用商务本体知识模型和通用数据描述格式实现各个站点上的分布式数据挖掘以及数据挖掘系统与其他系统的信息交互;④集成多种安全保障技术,满足业务系统安全以及分布式数据挖掘系统自身安全需要。
3 基于Agent技术的分布式数据挖掘系统
为了满足分布式数据挖掘的需要,三层客户/服务器结构被应用到系统设计中,如Kensington系统和Intelliminer系统。然而,这些系统采用的体系结构本质上仍没有改变集中式数据挖掘系统的模式,系统缺乏开放性、自主性和智能性。为了提高系统的智能性和开放性,融合不同的数据挖掘技术,许多学者将数据挖掘过程进行功能抽象,并分别由不同的Agent来完成。对于大量分散数据的数据挖掘,更多系统采用基于Agent的分布式结构模型,其中典型的应用系统如JAM系统和BODHI系统。本文充分利用移动Agent的移动性并以Agent为主要组件构造满足商务智能需要的分布式数据挖掘系统。同时,系统中Agent按照FIPA标准设计,这样只要增加消息转换和服务描述注册转换器等部件就可以实现Agent与web services的集成,从而使得系统支持web功能。因此,整个系统具有更大的灵活性、智能性和开放性。
3.1 分布式数据挖掘系统整体结构
如图1所示,整个商务智能系统可以整合为4个部分:用户群、用户接口、数据挖掘系统和企业数据库系统。用户通过用户接口提交数据挖掘请求,数据挖掘系统规划数据挖掘任务并创建装配数据挖掘Agent。依据要求,数据挖掘Agent迁移到企业业务数据库系统中进行数据挖掘,并提交结果给协调Agent进行综合且按照用户要求返回结果。
1)用户接口 是用户与数据挖掘系统互操作的渠道,完成用户参数的输入和数据挖掘结果的显示。例如,用户可以选择挖掘模型(挖掘算法)、数据源、挖掘的预设流程等;用户可以完成系统中Agent的知识和规则的更新,弥补系统知识的不足;用户还可以选择最终的挖掘结果的可视化形式等。
2)数据挖掘系统 是基于Agent的分布式数挖掘系统的工作流程大致为:①用户Agent将用户通过用户接口提交的数据挖掘任务转变成协调Agent可接受的挖掘任务;②协调Agent综合环境信息规划数据挖掘任务,创建多个装载合适挖掘模型的移动数据挖掘Agent,并将这些移动Agent打包和序列化为数据流进行数据的网络移动。
图1 基于Agent技术的分布式数据挖掘系统结构
3)企业数据库系统主要由移动Agent服务器、业务子系统和数据库等3部分组成。这里,移动Agent服务器作为windows服务而在系统启动时自动启动。
3.2 数据挖掘系统
如图1所示,数据挖掘系统由协调Agent、数据挖掘Agent、数据挖掘Agent管理器、用户Agent、挖掘算法Agent和数据站点管理Agent组成。其中,数据挖掘Agent是移动Agent,其他功能Agent
为静态Agent。这些Agem协调一致地工作,共同完成数据挖掘任务。
1)用户Agent代表用户向数据挖掘系统提出数据挖掘请求。只需要用户提出相应的要求或者做一系列的选择,用户Agent就可以将用户要求转化为协调Agent能够识别的命令并提交给协调Agent进行任务的计划分配;用户Agent还负责处理通过用户接口输入的系统更新信息等,如数据挖掘特定算法参数、Agent知识和规则等。该Agent除了处理用户输入的信息外,还需要能够保存数据挖掘结果等输出信息以待用户查询或直接提交这些信息给用户拥有的用户接口。
2)协调Agent主要完成下列3项任务:①任务规划优化,主要完成数据挖掘任务的规划,并选择最优的规划方案。与数据挖掘算法Agent、数据挖掘Agent管理器和数据站点管理Agent交互,得到数据挖掘算法效率功能特点、系统中挖掘Agent的功能状态等信息来确定相应的数据挖掘方案以尽可能满足用户需要。该Agent还具有实时规划能力以满足因某个移动Agent失效而进行任务的重新规划。②依据规划结果,协调Agent创建并命名多个并行协同工作的装载有挖掘模型的移动数据挖掘Agent,并将这些移动Agent的基本信息注册到挖掘Agent管理器中。③数据挖掘整个过程的协作协调,主要协调数据挖掘过程的各个Agent以及维护系统当前的运行状态信息等。同时,协调Agent也是系统中Agent信息交换中心,负责维护Agent之间信息的交互传递等。
3)数据挖掘Agent是移动Agent,由协调Agent创建,并移动到相应的数据库系统主机上进行数据挖掘,并将自身的,其他功能Agent
为静态Agent。这些Agem协调一致地工作,共同完成数据挖掘任务。
1)用户Agent代表用户向数据挖掘系统提出数据挖掘请求。只需要用户提出相应的要求或者做一系列的选择,用户Agent就可以将用户要求转化为协调 Agent能够识别的命令并提交给协调Agent进行任务的计划分配;用户Agent还负责处理通过用户接口输入的系统更新信息等,如数据挖掘特定算法参 数、Agent知识和规则等。该Agent除了处理用户输入的信息外,还需要能够保存数据挖掘结果等输出信息以待用户查询或直接提交这些信息给用户拥有的 用户接口。
2)协调Agent主要完成下列3项任务:①任务规划优化,主要完成数据挖掘任务的规划,并选择最优的规划方案。与数据挖掘算法Agent、数据挖掘 Agent管理器和数据站点管理Agent交互,得到数据挖掘算法效率功能特点、系统中挖掘Agent的功能状态等信息来确定相应的数据挖掘方案以尽可能 满足用户需要。该Agent还具有实时规划能力以满足因某个移动Agent失效而进行任务的重新规划。②依据规划结果,协调Agent创建并命名多个并行 协同工作的装载有挖掘模型的移动数据挖掘Agent,并将这些移动Agent的基本信息注册到挖掘Agent管理器中。③数据挖掘整个过程的协作协调,主 要协调数据挖掘过程的各个Agent以及维护系统当前的运行状态信息等。同时,协调Agent也是系统中Agent信息交换中心,负责维护Agent之间 信息的交互传递等。
3)数据挖掘Agent是移动Agent,由协调Agent创建,并移动到相应的数据库系统主机上进行数据挖掘,并将自身的位置信息和状态信息传递给挖掘 Agent管理器,将数据挖掘结果反馈给协调器以进行数据结果的融合。数据挖掘Agent运用自身携带的算法模型或请求协调Agent得到的算法等完成具 体的数据挖掘任务。
4)数据挖掘Agent管理器主要负责管理所有数据挖掘Agent的相关信息,这样各种Agent通过与管理Agent交互便可以动态获取其他Agent 的属性信息(位置、功能等),从而与其他Agent进行交互,以获取所需要的信息。是实现系统分布式透明性的关键,主要用于收集、管理、统计、查询各种 Agent信息资源,按其功能分类或建立Agent联盟。同时,也担当可信任的安全认证中心,保证各Agent之间的安全通信机制。
5)数据挖掘算法Agent主要负责维护数据挖掘算法。用户可以注册数据挖掘算法。当算法注册到系统中,算法Agent登记算法的元知识信息及其特点(比 如,名字、版本、输入参数、操作环境描述和输出格式等)。同时,算法Agent将这些信息反馈给协调Agent以便协调Agent根据数据挖掘任务选择最 佳的算法。
6)数据站点管理Agent 主要负责企业数据库系统Agent服务器的基本信息,如Agent服务器的启动、停止状态信息、位置信息以及数据源信息等。Agent服务器及时将其启 动、停止信息注册到数据站点管理器以便协调器合理规划任务。为了维护Agent服务器和防止Agent服务器出现故障,往往在企业提供同步工作的 Agent服务器。
数据挖掘系统由6类功能各异协同工作的Agent组成,当接受到用户提交的具体数据挖掘任务后,系统自动有条不紊地工作。在整个系统中,数据挖掘Agent及执其执行环境——移动Agent服务器是数据挖掘任务执行的关键部件。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:面向商务智能应用的分布式数据挖掘系统设计
本文网址:http://www.toberp.com/html/consultation/1082067382.html