数据挖掘系列讲座之二:数据挖掘与数据仓库
薛薇
当今数据容量规模已经达到万亿字节(TB)的水平。过量的数据被人们称为信息爆炸,带来的挑战是:一方面规模庞大、纷繁复杂的数据体系让使用者漫无头绪、无从下手;另一方面在这些大量数据的背后却隐藏着很多具有决策意义的有价值的信息。那么,如何发现这些有用的知识,使之为管理决策和经营战略发展服务?计算机科学给出的最新回答是:数据挖掘(Data
Mining)。
一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。支持大规模数据分析的方法和过程,选择或者建立一种适合数据挖掘应用的数据环境是数据挖掘研究的重要课题之一。
建立适合的数据环境
数据挖掘应建立在联机分析处理(On Line Analytical
Processing,OLAP)的数据环境基础之上。数据挖掘对大量数据的探索式分析的起点是OLAP。数据挖掘需要对大量数据进行反复查询操作,关心数据存取方式的方便性与可操作性。
联机分析处理和传统的联机事务处理(On Line Transaction
Processing,OLTP)是两种性质不同的数据处理方式。OLTP主要用来完成基础业务数据的增、删、改等操作,如民航订票系统、银行储蓄系统等等,对响应时间要求比较高,强调的是密集数据更新处理的性能和系统的可靠性及效率。而OLAP应用是对用户当前及历史数据进行分析、辅助领导决策,主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。
目前,多数企业内部的数据状况是分散的,业务数据往往被存放在缺乏统一设计和管理的异构环境中,不易综合查询访问,而且还有大量的历史数据处于脱机状态,不能在线集中存储查询。数据挖掘在对这些数据进行分析前,必须对这些数据进行不同程度的整合和清理,这是数据挖掘的首要环节,但一般的OLTP系统的数据环境是不具备这种能力的。
因此,合理而科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。它需要支持OLAP数据系统与OLTP数据系统的分离,需要服务于数据挖掘总体目标的数据再组织,需要有单独的数据分析和数据处理环境。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术产品
。
数据仓库技术的引入
数据仓库技术能够满足数据挖掘技术对数据环境的要求。实际上,数据仓库技术所要研究和解决的问题就是从OLTP系统、异构分散的外部数据源、脱机的历史业务数据中获取数据,处理后为数据分析和管理决策提供应用服务。
公认的数据仓库概念是W.H.Inmon在《建立数据仓库》一书中提出的:数据仓库就是面向主题的、集成的、不可更新的(稳定性)随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程。
数据仓库中的数据是面向主题的,它与传统数据库中的面向应用相对应。数据仓库的主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域;数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键步骤。它能够统一原始数据中的矛盾之处,还能够将原始数据结构从面向应用向面向主题转变;数据仓库的稳定性是指数据仓库反映的是历史数据的内容,而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的;数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的时间属性。
需要指出的是,数据仓库中的数据并不是最新的、专有的,而是来源于其它数据库的。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而原有的事务处理数据库在总体数据环境中承担的是日常基础业务的处理任务。数据仓库是数据库技术的一种新的应用,而且到目前为止,数据仓库大部分还是用关系数据库管理系统来管理其中的数据。
与关系数据库不同的是,数据仓库至今并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程特性,因而在技术上可以根据它的工作过程分为:数据的抽取、数据的存储和管理、数据的展现等关键技术。
◆数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面的处理。在数据抽取方面,未来的技术发展将集中在系统功能集成化方面,以适应数据仓库本身或数据源的变化,使系统更便于管理和维护。
◆数据的存储和管理
数据仓库的组织管理方式决定了它有别于传统数据库的特性,也决定了其对外部数据的表现形式。数据仓库管理所涉及的数据量比传统事务处理大得多,且随时间的推移而快速累积。在数据仓库的数据存储和管理中需要解决的是如何管理大量的数据、如何并行处理大量的数据、如何优化查询等。目前,许多数据库厂家提供的技术解决方案是扩展关系型数据库的功能,将普通关系数据库改造成适合担当数据仓库的服务器。
◆数据的展现
在数据展现方面主要的方式有:
查询:实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格、复杂表格、OLAP表格、报告以及各种综合报表;可视化:用易于理解的点线图、直方图、饼图、网状图、交互式可视化、动态模拟、计算机动画技术表现复杂数据及其相互关系;统计:进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法,从数据中得到关于数据关系和模式的知识。
数据挖掘与数据仓库融合发展
数据挖掘和数据仓库的协同工作,一方面,可以迎合和简化数据挖掘过程中的重要步骤,提高数据挖掘的效率和能力,确保数据挖掘中数据来源的广泛性和完整性。另一方面,数据挖掘技术已经成为数据仓库应用中极为重要和相对独立的方面和工具。
数据挖掘和数据仓库是融合与互动发展的,其学术研究价值和应用研究前景将是令人振奋的。它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果,更是广大渴望从数据库“奴隶”到数据库“主人”转变的企业最终用户的通途。
本文原载于中国计算机用户