2009-08-13
商务智能中元数据管理模型研究: 1 引 言 随着计算机应用的日趋普及,数据量则随时间成倍地增加,大部分企业将面临由于数据库变得越来越庞大而由此带来的对数据管理的困难。自20 世纪90 年代以来,国内外掀起了一股商务智能的热潮,商务智能作为一种决策支持的手段已被很多企业所接受。一般说来,数据仓库系统所依托的信息系统都是多样的、异质的;这些不兼容的数据源、数据库与应用构成的复杂数据集合是企业或用户花费大量精力和财力积累起来的、不可替代的系统,特别是其中的数据。商务智能就是要对企业的这些信息进行整合、分析,以达到辅助决策之目的。而这些数据、系统的多样性,格式的不确定性,无疑增加了商务智能系统构建的难度。 目前,大部分软件产品的元数据都有着不同的模型和各有特色的输出元数据的接口。这些数据库仓库应用的特点造成了目前集成不同软件产品时,工具和应用平台的巨大困难。工业界和学术界的很多努力都放在了不同元模型之间Bridges 的构建上。这种努力对一些应用来说是适合的,但显然这种办法是耗时耗力的,而且没有从根本上解决该问题,因为这种努力的结果不能将数据重用到其他类似功能的集成应用中去。 CWM(Common Warehouse Metamodel)标准致力于解决商务智能领域的元数据管理问题、数据在不同软件系统之间的交换平台,而本文则针对商务智能中元数据的存储和管理。 商务智能中元数据管理模型研究: 2 相关背景 2.1 BI(Business Intelligence) 数据仓库的兴起促进了OLAP 技术和基于数据仓库的数据挖掘技术的发展,这些进步表现在各种基于这些技术的产品的蓬勃出现,而产品的出现又反过来促进了数据仓库的更进一步发展,由此出现了一个新兴的领域——BI。可以说,BI 已经成为企业MIS 之后更高层次、更具战略意义的应用。 BI 是指将企业的各种数据及时地转换为企业管理者感兴趣的信息(或者知识),并以各种方式展示出分析的过程。一般来说,商务智能及数据仓库系统主要包括三个部分:ETL(Extracting、Transferring and Loading),DW(Data Warehouse)和OLAP(Online Analysis Processing)。它们之间的具体关系如图1 所示。 商务智能的过程是:首先,通过ETL 将各种数据载入数据仓库或数据集市中,企业管理者一般只对通过对数据仓库中的数据进行处理形成的可视化报告和分析感兴趣,而这些报告很多都是通过数据挖掘或OLAP 技术获得的。 图1 商务智能元数据图 2.2 CWM 简介 CWM 是OMG 组织最近为解决数据仓库和商务分析环境下的元数据交换而采用的一个标准,IBM、Oracle、NCR、Sun 和HP等公司都表示支持该标准。CWM 提出了业界普遍感到困扰的统一描述元数据的语言问题;提供了基于XML 的元数据的交换模型。该标准正在成为商务智能领域内关注的焦点,并将可能被大量集成到下一代数据仓库和事物分析软件系统中去。 CWM 规范之前,有很多和元数据标准化相关的工作一直在进行,下面简要介绍和CWM 相关的一些技术基础。总的说来,CWM 主要是基于以下三个技术标准:UML、XMI、MOF。 MOF(Meta Object Facility):是OMG 采用的关于定义元数据和把元数据表示成CORBA 的技术标准,MOF 的目标是支持各种元数据的构建且支持新的元数据加入。 UML(Unified Modeling Language):是对现实系统建模的强大的图形化语言。 XMI (XML Metadata Interchange):是一个定义软件系统中元数据交换标准的语言。 商务智能中元数据管理模型研究: 3 商务智能中元数据管理模型 3.1 商务智能和CWM 元数据是一些用来描述数据的数据或关于数据的信息,一般是由一些信息结构的描述所组成。这些被描述的信息可以是计算机系统所代表的信息,如文件、数据库、运行程序实例等等。商务智能各部分元数据的关系如图1 所示。我们看到,BI三部分中的每一部分都和元数据密切相关。在CWM 中,这些元数据被不同的包所描述。Transformation 包就是和ETL 元数据描述密切相关的,下面以Transformation 包举例说明相关语义,见图2。 图2 Transformation Package 语义 商务智能的一个关键方面就是将数据从数据源抽取、转换、载入数据仓库或数据集市以供分析之用。转换操作兼具这三种操作之特征。因为,数据无论是为存储、检索之故,或别的如表示的原因,从源的一种形式转换到目的的别的形式,总是伴随着转换的过程。图2 给出了CWM 中Transformation的主要语义特征。 CWM 中,转换被定义成不同的语义层次,依次为Transformation,Transformation Task,Transformation Activity。一个简单转换就被定义成从源数据集到目的数据集的变换。一个或多个简单转换组成一个转换逻辑单元,形成功能级别的转换任务;而每个转换任务对应转换活动中的一个转换步骤,转换步骤是用来控制转换任务的逻辑顺序。各种转换间逻辑上的依赖关系在CWM 通过较完整的语义来定义,这些定义最终可以转换为关系数据库表的形式存储——元数据存储。 3.2 CWM 中元数据管理模型 随着计算机硬件和软件的快速发展,当今计算机和应用系统正变得越来越复杂,在数据仓库和商务智能领域,这些固有的复杂性加上这些领域要牵涉到各种计算机的参与更使问题的复杂度增加。除了交换元数据,这些计算机不仅要处理阻碍交换的问题,还要处理出现的别的不兼容、异质问题。 一般对于较低复杂度的交换问题,现在的计算机系统已经能够较好的解决。但如果是在异质度很高(如不同硬件,操作系统,数据库管理系统等等)的源和目的系统之间交换数据,问题的复杂度急剧增加。CWM 面临这样的异质环境,提供与供应商无关的元数据交换。商务智能应用环境高异质度的可能使得CWM 必须能够较广泛地来描述数据仓库的源和目的的元数据。即便CWM 不用考虑所有的元数据的复杂性,至少应考虑足够多的可能性以使元数据交换能够进行。因此,CWM 需使用较多的模型来描述很多相关系统的数据和元数据。 考虑到描述对象的多样性,CWM 本身应该是一个较复杂的系统。事实上,第一个被OMG 组织采用的CWM 版本拥有200多个类,将来的版本可能还要扩展。我们知道,UML 早期的版本同样有这样的问题,即类太多,完全实现困难;后来,经过改进,UML 可以在产品里被部分实现,这可能是UML 能被很多产品应用的一个原因之一。CWM 不光要完整解决元数据交换的问题,而且要使得标准能够被较容易的实现。 图3 CWM 模型 图3 表示了CWM 的层次结构,每一层中的包在CWM 架构中大致有着相似的作用。为了理解某个包,只需要去理解它所依赖的包及其本身,别的包可以忽略。CWM 设计者使得大部分的包所依赖的包最少,这样使各包之间尽量独立的设计,给不同的应用场景来实现CWM 标准带来了方便。各层的作用如下: 对象(Object)层 它实际上是UML 标准的一部分。CWM从UML 标准中选取了一些关键的对象,从而构造高层的对象。 基础(Foundation)层 它包含了很多基本的元模型包,他们所表示的概念和结构能够被上层的CWM 包所使用。 资源(Resource)层 该层表示各种数据源,如对象型数据源、关系型数据源、记录型数据源、多维数据源、XML 数据源。 分析(Analysis)层 该层主要是说明如何对数据源中的数据进行分析处理,包括数据转换(Transformation)、在线分析处理(OLAP)、数据挖掘、信息可视化等多个方面。 管理层 该层的主要目标是管理分析层所定义的数据转换过程。数据仓库处理与调度有关,数据仓库操作与日志有关。 商务智能中元数据管理模型研究: 4 CWM 元数据存储和管理 4.1 元数据存储 CWM 的一个特色是对元数据的管理,首先CWM 对元数据的管理是按照其模型标准来实施的。CWM 所涉及的Package(包括其中对类、关联和约束的定义)通过OMG 提供的标准IDL(交互式数据语言),转换为RDBMS 中的SQL 或存储过程来实现。下面分别举类、存储过程和关联的例子,来说明它们如何在RDBMS 中实现(数据库采用Microsoft SQLserver 2000,当然其他数据库,可以对应转换)。 4.2 元数据访问和管理 CWM 中的Package(包括其中对类、关联和约束的定义)通过统一的接口提供给应用来存储元数据。这样,我们系统存储的元数据依据CWM 的标准建立,具有该标准下统一的模型定义。因此,在同一类应用中,这些元数据可以被方便访问。在确定的语义和有穷的对象个数前提下,元数据能够和别的系统交换并能为别的系统所共享。根据CWM 规范,这些元数据能够以XMI 形式的文件方式存储。根据XMI 规范,这些文件能够被方便交换。 在对CWM 标准的研究过程中,我们发现,CWM 中忽略了很多关于访问控制的元数据定义。我们知道,这种控制在数据仓库系统中,是不可或缺的。这是CWM 标准需要完善的地方。 商务智能中元数据管理模型研究: 5 结论以及未来研究工作 本文详细论述了商务智能背景下的元数据管理,同时对业界元数据管理领域颇为推崇的CWM 进行了深入的研究,不仅介绍了CWM 的基本体系结构,而且剖析了具体包以及如何进行元数据存储和管理。值得指出的是,CWM 标准本身也是在不断的完善中。本文的贡献主要如下:结合商务智能应用场景对CWM 进行分析,探讨了用RDBMS 表的形式实现类、存储过程等的存储和管理,同时,指出了CWM 在访问控制方面的不足。 在以后的工作中,我们将更加深入细致地分析利用CWM元数据管理标准,从而为遵照该标准进行ETL,OLAP 及DataMing相关方面的软件产品的开发提供理论基础。这样,可以克服目前数据仓库系统元数据不能被别的应用利用的缺点,实现各种元数据的可交换,从而节省商务智能构建的费用,为企业从单纯的面向数据管理的MIS 系统向更高的具有决策作用的BI 系统过渡提供元数据管理解决方案。
|
信息化软件应用目录 OA 办公自动化系统
CRM 客户关系管理系统
PM 项目管理系统
SCM 供应链管理系统
CC 协同商务系统
BPM 业务流程管理
BI 商务智能
CMS 内容管理系统
KM/KBS 知识管理系统
电子商务系统
HRM 人力资源管理系统
ERP 企业资源计划
EAM 企业资产管理系统
|