1引 言
元数据提取是整个商业智能(BI)系统元数据管理中最重要的环节,是元数据存储、访问、浏览及其他处理过程的基础。由于元数据分散在BI系统的各个子系统中,有不同的元数据存储和访问方式,因此必须能够根据各子系统所提供的元数据访问方式正确提取出管理所需的元数据。
2 元数据的来源与分类
2.1 元数据的来源
元数 据 贯 穿商业智能系统数据“流动”的全过程,主要包括:数据源元数据、数据采集元数据、数据仓库存储元数据、数据集市元数据、应用服务层元数据、门户管理元数据。
2.2 元数据分类
(1) 业务元数据
业务元数据划分为业务规则、业务描述、业务指标和业务术语四个部分,其中业务规则与业务术语、业务描述共同完成对业务相关信息的事实表述,业务规则是一种描述信息,定义/约束了部分业务逻辑,可以用于对业务逻辑结构进行验证,用于控制或者影响业务逻辑的行为。
(2 )技术元数据
技术元数据包含关于BI系统数据技术层面的信息,描述了数据源接口、ETL、数据仓库和数据集市、0-LAP等子系统的数据特征。
(3) 管理元数据
管理元数据主要是指BI系统日常建设过程中,涉及开发、运维管理各方面的基本信息,本方案明确要求对管理元数据进行存储,在此基础上对系统需求开发和日常运维管理流程提供IT化支撑,从管理流程角度对班数据质量提供保证。
3 元数据提取
3.1 提取目的
元数据提取的目的是把各子系统的元数据提取出来,为元数据的装人提供数据准备;提取方式:元数据的提取可以分为自动提取、手工提取两种方式。目前,大部分主流厂商的产品(如IBMDB2,NC RTeradata等)都支持CWM模型。也就是说,可以利用它们提供的接口直接把系统内的元数据按照CWM规定的格式标准直接提取出来。但是,也存在一些产品目前尚不支持CWM模型,尤其是一些前端的数据分析产品,因此无法实现元数的自动提取,只能采用手工的方式来实现。提取结果:元数据提取的结果是符合CWM模型的XML文件,该文件符合XMI格式,并保持元数据本身以及它们之间的语义关系。
3.2元数据提取技术
目前 B I系 统所使用的产品中还有一部分没有支持CW M规范,因此BIMMS应当能够对兼容CWM规范和不兼 容CWM的BI子系统都提供相应的提取方法。以下从不同元数据提取技术的角度,对兼容及不兼容CW M规范的系统分别给出了元数据的提取方法。
3.2 .1兼 容 CWM规范的系统元数据提取方法
兼容 C W M规范的子系统通常提供CORBAI DL,JMI ( Jav。元数据接口)及XMI等三种元数据访问方式, BIMMS可以使用这三种方式来提取元数据。
(1) CO RB AI DL:是一种基于中间件思想的接口定义语 言,使得不同编程语言及机器环境下的对象可以相互通 信。它根据CWM规范定义了元模型对象支持的方法和 属性,对象实现只要符合这个定义即可相互访问。CORBAI DL支持JAVA,C等流行的编程语言,使得其他系 统能够方便、无二义性地访问存储的元数据内容。
(2) JMI :提 供了将MOF映射到Java语言的正式映射规则。JMI能够生成纯Jav。接口,使外部系统可以使他系 统能够方便、无二义性地访问存储的元数据内容。
(3) X M I:B I系 统 所使用的产品中,绝大部分支持CW M规范的系统都提供了XMI格式的元数据导人导出方式。
3.2 .2不兼容CWM规范的系统元数据提取方法
对于不 兼 容CWM规范的BI子系统,通常需要采用手 工的方式将元数据从源系统中取出,整理成符合CW M规范的格式,并输人元数据库中。不兼容CWM规范的 子系统元数据提取方式主要包括产品特定元数据访问 接口和元数据手工提取这两种方式。
(1) 产品特定元数据访问接口
BI 系统 所 使 用 的一些产品不支持CWM规范。对于这部 分子系统需要通过其本身提供的API或其他元数据访 问方式来获取元数据。例如DB2O LAPS erver所提供的 C语言API,可以提供对OLAP元轮廓中维和立方体元 数据的访问。BIMMS通过这些API来访问系统的元数据,将这些元数据转换成符合CWM规范的元数据,格式并导人BI系统元数据库中。
(2) 元 数 据的手工提取
对于不提供元数据访问接口的子系统则需要手工提取元数据并将其录人BIMMS。需要手工提取的元数据通常包括一些用户自定义元数据,以及指标元数据和报表元数据等。BIMMS应当能够提供灵活定制的模版使得手工录人的元数据能够自动转换为符合XMI规范的XML文件并导人BI系统元数据库中。
4子系统元数据提取方式
本小节从BI系统不同子系统的角度,对生产系统、ETL系统、数据仓库系统、OLAP系统、前端工具及其它系统分别给出了元数据的提取方式。
4.1生产系统
生产系统元数据是BIMMS所管理的主要内容之一,主要包括数据的来源、特征等基本信息,涵盖了多个业务系统。
4.2 E TL 系统
ET L系 统 元数据主要包括抽取的数据源和保存目标信息,每次转换前后数据结构、转换规则,ETL单元定义及流程控制等。有部分ETL工具对CWM规范提供了很好的支持。ETL系统的元数据提取可以采用以下几种方式:
(1) XM I :目前兼容CWM规范的大部分ETL系统都提供了XMI格式的元数据导出方法。比如IBM DB2Warehouse Manager,Oracle Warehouse Builder,SAS ETLStudio等。对于这些系统可以使用XMI文件来进行元数据导出。
(2) JM I: 提供JMl接口的ETL系统可以用JMI接口来作为元数据导出方式。
(3) 产品特定元数据访问接口:不兼容CWM规范的ETL系统大部分都提供了API接口来支持元数据访问和导出。比如DataStage,CognosDecision Stream等。对于这些系统需要使用产品特定元数据访问接口来进行元数据导出。
(4) 手工对于用户自定义的ETL程序,需要元数据管理人员进行手工整理,并使用BIMMS提供的模版来帮助导人元数据库中。
4.3 其 他
其他系统主要包括数据仓库和数据集市、OLAP系统、前端展示工具,还有指标管理系统及业务报表系统的元数据。数据仓库和数据集市、OLAP系统、前端展示工具的情况与ETL系统相似。目前指标管理系统及业务报表系统的元数据还需要以全手工方式提取,将提取出的元数据填入BIMMS提供的相应模版中,再由BIMMS自动生成XMI文件并导人元数据库中。