引文分析是中文社会科学引文索引(CSSCI)的重要组成部分。与数据录入这种事务型处理系统不同,引文分析系统是一个典型的分析型处理系统。传统的关系数据库系统理论和方法在处理这一类型的应用时,显得并不适宜。必须把分析数据从录入系统中提取出来,按照分析处理的需要进行重新组织,建立单独的分析处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。为此,作者在进行CSSCI分析系统设计时,引入了数据仓库和联机分析处理的概念和技术。实践表明,这一新技术应用在引文分析系统当中是十分适合和高效的。
1 系统体系框架
CSSCI通过人工标引、录入的方式每年采集500余种中国人文、社科学术期刊所发表论文的发文和引文信息,建设引文索引数据库,提供引文文献检索和分析评价服务。根据系统功能,可以划分三个子系统:数据录入系统、引文检索系统和引文分析系统(限于主题,本文不讨论引文检索系统)。
数据录入系统和引文分析系统的构造必须分离开来,不能混在同一个数据环境中。这是因为:首先,数据录入系统和引文分析系统的性质和特点有很大不同:数据录入系统是一个典型的事务型处理系统,要求进行频繁的增删改等数据存取操作,每次操作的数据量小、处理时间短,数据完整性和参照完整性约束要求高,可以按照传统数据库系统理论和方法进行构造;引文分析系统与数据录入系统不同,它的数据很少或者不会更新,每次检索涉及到大量的数据访问,对于响应时间要求不高。其次,许多综合度较高的分析无法从数据录入系统的数据模式中直接得到相关的数据,必须进行专门的数据抽取,计算出大量的中间数据。如果没有经过系统的规划,大量杂乱无章的抽取数据势必形成“蜘蛛网”型结构,造成数据可信度差、系统效率降低以及数据实际无法转换为信息等种种问题。再次,录入系统和分析系统两者的系统性能优化目标存在着矛盾。例如,分析型处理基于性能的考虑需要建立大量的索引,而这对于录入系统来说却会降低系统的效率。最后,分析型需求是无法事先确定的,如果没有针对性的系统的数据组织,则最坏情况下每一种分析都必须编写专门的程序,获取分析数据的工作将变得复杂化,这使得分析工作实际掌握在程序员而非分析人员的手中。
数据仓库理论的出发点就在于认识到存在着两种不同的信息处理系统:事务型处理系统和分析型处理系统,两者之间存在着巨大的差异使得事务型处理和分析型处理的分离成为必然,从而提出一整套关于建设体系化的数据环境的理论和方法。数据仓库的提出,原意是针对企业决策支持系统(DSS),然而这并不妨碍它在引文分析系统建设中的应用。首先,引文分析是一种典型的分析型处理,数据仓库中的多维分析模式在这里也很适用。其次,引文分析所处理的数据特点与数据仓库的数据特点一致,都是历史积累性的、综合的和非更新性的。最后,数据仓库理论的引入,使得CSSCI引文分析系统的框架变得明朗,更具有系统性。当然,数据仓库在引文分析中的应用与一般企业DSS应用也存在着不同点。比如,由于源数据构成比较单一,引文分析数据仓库的数据集成任务就显得不是很重要。
按照数据仓库理论将事务型环境与分析型环境分开构造的思路,设计CSSCI引文分析系统体系框架如下:在录入系统和分析系统之间,通过数据转换程序将源数据取出并转换为目标模式,然后装入数据仓库;通过OLAP服务从多维数据库析取多维分析数据;分析人员使用OLAP工具透过OLAP服务访问多维数据库进行引文分析(见图1)。
图1 CSSCI系统体系框架
作者将在下文中分别讨论体系中的各重要环节。
2 源数据:面向应用的数据组织
CSSCI系统的源数据来源比较单一,绝大部分来自于数据录入系统的手工录入,也有一小部分来自外部数据,如计算期刊影响因子时,需要采集非收录刊的发文数据。数据录入系统面临频繁的增删改等数据操作,同时要满足数据完整性和商业规则等约束条件,是一个典型的事务型处理系统。我们将数据组织为五个主要的表:收录期刊、期刊载文、来源文献、来源作者和被引文献。收录期刊表记录CSSCI收录的500种左右期刊的代码和名称;期刊载文表记录每本期刊的记录、标示号、期刊代码、卷期和载文量等信息;来源文献表记录每本期刊所发表论文的信息,包括记录标示号、篇名和关键词等标引信息;来源作者表记录来源文献的作者信息,包括姓名和机构等;被引文献表则记录了来源文献所引用的参考文献的信息(具体结构请参见图2)。这五个表分别与实际录入工作流程中的每种期刊、每本期刊、论文、作者和参考文献一一对应,整个数据模式是高度规范化的,既便于数据的增删改操作,又有利于整个工作流程的管理。
图2 CSSCI录入系统数据模型的实体-关系图
3 面向主题的数据组织
录入系统的数据是面向应用(具体来说就是数据录入工作)进行组织的,其抽象程度还不够高。而分析型系统的数据应该是面向主题进行组织的。所谓主题,就是分析领域中所涉及的分析对象的逻辑抽象。面向主题的数据组织,“就是在较高层次上对分析对象的数据的一个完整、一致的描述、能完整、统一地刻画各个分析对象所设计的各项数据,以及数据之间的联系”,根据这一原则,确定每个主题所应包含的数据内容。主题的确定,与分析人员所关心的问题密切相关,而分析人员的兴趣无法完全预测,只能通过反复的主题抽取过程逐步求精。每个主题由一组关系表实现,所有这些表通过一个公共码键关联起来。
引文分析领域的分析对象大致有以下几种:期刊、论文、作者、机构、地区等。所有关于期刊的信息组织在一起,形成了完备的主题域。其具有独立性和完备性,是在较高层次上对数据的抽象,因而适合于在此数据环境上方便地开发分析型应用。
4 数据转换
数据转换是数据仓库实施中重要的一环,目的是将数据从操作型环境传递到数据仓库中。在传统的DSS应用中,数据转换工作相当复杂。第一,由于数据仓库的建设是在企业已有的各类MIS之上进行,而这些MIS往往是独立开发的,各系统之间存在着数据缺乏集成、运行平台不统一等问题,所以在数据从操作型环境向数据仓库中转移的过程中要经过大量的数据清洗、选择、汇总、集成、转换等处理。第二,企业决策分析的及时性要求,使得数据转换工作相当频繁,转换的效率问题成为难点。
本引文分析系统与企业DSS不同,它的源数据环境相对简单,主要是数据录入系统和少量的外部数据。并且由于在数据录入系统的开发中就考虑到了后期数据仓库建设的需要,使得数据集成的任务大大减少。引文分析的及时性要求相对不高,数据转换效率问题的重要性并不突出。
本系统的数据转换问题主要集中在数据的清洗和元数据的管理。引文数据的错误主要集中在:一、录入错误,二、源刊的印刷错误;三、作者原文的错误。第一类错误可通过人工校对工作加以排除,后两类错误则必须在大量的数据积累后,进行自动和人工的比对加以排除,有些可能永远无法得到纠正。元数据在数据转换中的作用非常重要,它描述了操作型环境中的数据、数据仓库中的数据以及数据转换过程中的处理,是数据转换处理的依据。我们在数据转换程序的开发中,采用了面向元数据的方式,使程序更加灵活和易于管理。
5 OLAP服务与工具
联机分析处理(OLAP)是一门与数据仓库密切相关的新兴的软件技术,它专门设计用于支持复杂的分析操作。它的多维数据分析模式“是针对特定问题的联机数据访问和分析,通过对信息(这些信息已经从原始的数据进行了转换,以反映用户所能理解的企业的真实的‘维’)的很多种可能的观察形式进行快速、稳定一致和交互性的存取”,允许分析人员对数据进行深入的观察。多维数据分析模式把数据分析工作看作是对一个数据立方体的旋转、切片、切块等一系列操作过程。数据立方体由变量和维组成。变量是数据的实际意义,也就是人们所关心的数值度量指标;维是人们观察数据的某个特定角度。多个维与变量组成一个多维的数据结构,就是数据立方体,而立方体的设计则成为多维数据分析的关键问题。OLAP技术的性质和特点使得它可以成为引文分析的有力工具。在本系统中引入OLAP技术和工具后,减少了分析程序的数量,统一了应用逻辑,改善了用户界面。
OLAP产品是建立在客户/服务器体系结构上的。OLAP服务器完成数据仓库数据到多维数据库的转换、多维数据的存贮和数据计算引擎等功能。OLAP工具则具有多维数据存取和多维视图表现的能力。分析人员通过OLAP工具与OLAP服务器进行交互,进行多维数据分析。在#$%&服务器端的数据组织方法有两种方式:一种是建立专用的多维数据库系统(MOLAP);另一种是仍然利用现有的关系数据库技术来模拟多维数据(ROLAP)。MOLAP使用二维矩阵的形式组织数据,而OLAP使用星型模式(Star Schema)或雪花模式(SnowFlake Schema)来组织数据。星型模式将多维数据结构划分为两类表,一类是事实表,用来存储事实的度量值以及各个维的码值;另一类是维表,对每一个维来说,至少有一个表用来保存该维的元数据,即维的描述信息,包括维的层次及成员类别等。事实表通过每一个维的值和维表联系在一起,构成星型模式。图3所示的是本系统中机构发文贡献数据立方体所对应的星型存储模式。
图3 发文贡献星型模式
现在市场中有许多OLAP服务和工具软件,INFORMIX、Oracle、Svbase、Microsoft以及IBM等数据库管理系统供应商都有自己的OLAP解决方案。产品的选择主要应该考虑性能价格比、二次开发能力以及与现有系统的配合度。由于本系统使用了SQL Server作为数据库管理系统,基于易用性和经济性的考虑,我们采用了微软公司的SQL Server 7.0 OLAP解决方案。它主要包括以下组成部分:OLAP服务器、数据透视表服务、数据转换服务、多维数据库、Excei 2000等。它的一大优点就是与操作系统以及其他的工具结合较好,很多部件直接集成在Windows系统中,节省了用户的投资。同时还提供了多维扩展(MDX)语言作为SQL语言的扩展,用于分析工具的二次开发。
6 引文联机分析实例
为了具体说明本引文分析系统的实施和效果,现以1998年度CSSCI系统数据为基础,介绍本系统中OLAP的应用(文中的数据表均来自于系统自动生成的Excel表格)。以分析机构对发表论文的贡献系数为例:一篇论文可能有多个作者,每个作者的所在机构由于作者排名不同对这篇论文做出了大小不一的贡献。按照论文中作者排名顺序,给机构赋予一定的贡献系数,这个系数就反映了此机构对该论文的贡献程度。把贡献系数当作变量,机构、机构类别、论文学科、论文类型和发表期刊当作维,就构成了一个分析机构发文贡献的数据立方体。通过对这个立方体的旋转、切片、切块等操作,我们可以得到各种有意义的分析数据。
7 结 语
中文社会科学引文索引系统的建设,其核心就是引文数据仓库的建设。在引文分析系统的设计和实施过程中,我们借鉴了数据仓库和联机分析处理的理论和技术,取得了很好的效果。一方面,数据仓库关于构建体系化数据环境的理论对于CSSCI系统历史积累数据的有效组织存储提供了指导,另一方面,多维数据分析模型技术减轻了开发人员的编程工作量,同时也使得人机界面更加友好,能够满足不同用户的各种分析需求。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:基于数据仓库的引文分析系统研究
本文网址:http://www.toberp.com/html/consultation/1082055250.html