信息化应用 营销管理 企业管理 业界消息 站内搜索 标签
首页 » 文档中心 » 信息化软件应用 » BI 商务智能 » 在数据仓库中应用SAN的优点

在数据仓库中应用SAN的优点

2003-07-05

摘要:在过去的三、四年中,数据存储行业中的部分企业已悄悄地建立了一种新的存储体系架构,这种体系架构对发展更庞大、更繁忙的数据仓库具有真正潜力。

在过去的三、四年中,数据存储行业中的部分企业已悄悄地建立了一种新的存储体系架构,这种体系架构对发展更庞大、更繁忙的数据仓库具有真正潜力,这种新的架构就是SAN(存储区域网络)。可以这样来想像SAN:所有的磁盘驱动器都从主框架和服务器中剥离出去,并把这些驱动器专门集中到一个地方,然后所有的服务器可对这些服务器的以任意的组合方式同时进行读/写操作。

如果能把所有的存储设备集中到一个地方,并将所有的访问也集中进行处理,就可以带来某些规模效益,与多数现行系统中所采用的传统的“服务器各自控制自己的存贮器”方式相比,还可以去掉冗余成本。

先让我们看一个典型的SAN配置的例子,如图一所示。

图一 一个由服务器、交换机和存储媒体组成的SAN

正如SAN的名字(存储区域网络)所指,SAN自身就是一个网络,几乎总是以光纤通道技术为基础的。光纤通道技术可以有很高的带宽,同时配备了高性能的磁盘驱动器,以便能以其极限速度来传输数据。但与计算机总线和SCSI链不同,光纤可以扩展到很大范围,一个基于9毫米光缆的SAN可以扩展到直径为10公里的范围。

SAN通常包括存储设备、服务器和交换机,服务器可以是任何一种常见的服务器类型,包括在线交易处理(OLTP)服务器、用作数据仓库“后厅”的分段传输服务器、用作数据仓库“前厅”的提交服务器以及其他各种各样的服务器,其他的服务器包括了具有数据经营管理功能(如数据挖掘)的服务器、多媒体服务器、传统文件服务器、以及应用于以Web为中心的数据仓库的“热反应高速缓存”等。

每一个附属于SAN的服务器通常都对内通过一个光纤通道接口与SAN相连,对外通过一个局域网接口与传统局域网(LAN)相连,SAN的交换机能以光纤通道速度将SAN中的任意一台服务器与任意一个存储设备连接起来。

由此可知,SAN对于建立庞大、繁忙的数据仓库具有下述许多优点:

高性能的磁盘存取。首先,SAN为磁盘到服务器或磁盘直接到磁盘的数据传输提供了非常高的速率,SAN的传输速率为100MBps,且在不久的将来会上升到400MBps。SAN当前的100MBps的速度已经可以跟千兆以太网的速度媲美了,其另外还具有局域网望尘莫及的地方:每个服务器都可以快速地对每个存储设备进行存取。

应用程序之间高性能的传输。在典型的数据仓库运作中,其瓶颈一般由两个或三个数据传输步骤组成。OLTP系统必须将主要产品数据传输到数据仓库的分阶段传输区域(后厅),也许这第一步是将数据传输到某个操作数据存贮区,我们也仍然将之看作数据仓库的“后厅”,无论是哪一种情况,都必须将大量的详细数据从一个存储设备复制到另一个存储设备。

一个大型零售商每天要传输5000万条销售事务记录到分阶段传输区域;一个地方贝尔运营公司每天要传输2亿条呼叫详细记录到分段传输区域;一个大型Internet站点,比如AOL或微软,每天要从产品Web服务器传输几十亿条页面事件记录到分段传输区域。要解决这些问题,秘诀就是将产品服务器和数据仓库“后厅”及“前厅”组件置于同一个SAN中。

数据仓库中的第二个传输应该发生在数据通过了数据分段传输区域的所有清理步骤之后,此时,将把一份“权威”数据复制到多个分散的数据集市中去,由于整个企业能够使用同一个SAN,各个数据集市都可以连接到SAN中,从而可以高速地接收到相同的复制数据。这中间还有一个优点:数据仓库仍然可以是高度分布式事务处理的,其分散的数据集市围绕着主要数据源进行组织。建立一个SAN并不意味着要建立一个整体式的、集中化的数据仓库。

第三个数据传输步骤可能发生在某些种类的数据仓库用户身上,比如数据挖掘者,他们需要将很大的“观测值集合”从常规提交服务传输到他们专用的工具中去(比如决策树、神经网络、基于记忆的推理工具等),这些特殊的最终用户也可能在他们完成了如果—怎样情景分析,或是为企业的所有客户计算了行为分后,再将庞大的数据集传回数据仓库。

高性能的磁盘到磁盘直接传输。数据仓库操作中有着各种各样的盘对盘数据复制需求,这类的数据复制与复杂的应用程序无关,也许是要将一组数据库从试验机移植到成品机上,也许是为了满足不断增长的需求而复制整个应用程序(当然也可以在需求高峰过去后缩减应用程序)。

在这种通过复制完成伸缩的情况下,一个值得关注的地方是,数据库管理员可以将基本数据复制到不同的存储设备去,而不一定要复制合计数据。SAN中的各个应用程序服务器可以拥有各自的基本数据,如果有必要,这些数据还可以导航到唯一的数据存储设备的同样的合计表中。根据经验,合计数据的大小与基本数据大概相等,则对于一个并行应用程序来说,在适当条件下,对磁盘的需求就将显著减少。

更高的性能,更少的成本。尽管听上去有点像广告,但将物理存储设备集中到一起时,的确有可能达到这样的效果,特别是采用高性能的磁带备份设备时。对任何一个应用程序来说,一个TB级的磁带备份系统似乎是用不着的,但如果这个设备是由整个企业分享的就另当别论了。高端(昂贵)磁带子系统能够以每小时500GB的传输速度处理20TB的数据。

消除了LAN中密集的数据传输。原先LAN中进行的在数据仓库各阶段的大量数据传输现在可以去掉了。

提高管理人员工作效率。对于存储设施集中化的理论同样适用于对那些管理这些设备人员的集中化,由于担负了对整个企业的全产品级的职责,这些人员可以更高效地工作,他们可以具备更多的技能,当然也可以得到更高的报酬。

为主数据库中的表操作提供了同一个集中化草稿空间。在数据库的表操作中,标准的计划公式是准备一个容量为最大的实际数据表五倍的存储空间,这个存储空间现在可以显著减少了,因为很多的应用程序可以共享一个共同的草稿空间以存放数据表的临时备份。应用程序不必知道其数据的物理位置,SAN在应用程序和物理存储设备之间自动进行协调控制。

开放性,允许多种技术对存贮数据进行访问。典型的数据仓库分段传输区域中,有运行于Unix下的OLTP系统,运行于NT下的数据提取、转换步骤,以及运行于Unix或Windows下的各种数据集市等。在从这些系统中的文件中读出数据或向这些文件写入数据时,数据提取、转换和加载(ETL)工具可以自动控制其流向。

可配置以支持灾难恢复和容错计算。可以扩展SAN,将最远距离达到10公里以外的一个单独的物理存储设备包含进来。

SAN厂商并不是专门为了数据仓库而发展他们的技术的,但对于数据仓库方面的应用却具有上述的诸多优点,当我们正为在数据仓库中管理庞大的数据集而烦恼时,这种新式服务和产品为我们提供了一个不错的选择。

相关链接
挖掘:再造竞争核力_12003-07-10 数据集市:数据库的基础_12003-06-25
企业数据质量的基础2003-07-17 会计决策支持系统和数据仓库2003-07-18
自主计算的发展现状及未来2003-07-18 如何找到适合你的数据仓库?2003-06-17
挖掘:再造竞争核力_22003-06-17 数据挖掘系列讲座之二:数据挖掘与数...2003-06-09
层次存贮管理简介2003-08-01 商业智能初探2003-08-29
信息化软件应用目录
OA 办公自动化系统 CRM 客户关系管理系统 PM 项目管理系统 SCM 供应链管理系统 CC 协同商务系统 BPM 业务流程管理 BI 商务智能 CMS 内容管理系统 KM/KBS 知识管理系统 电子商务系统 HRM 人力资源管理系统 ERP 企业资源计划 EAM 企业资产管理系统
升蓝首页 | 文档首页 | 产品首页 | 服务首页 | English Version | Big5 Version | 联系我们
Copyright © 1999-2008 深圳市升蓝软件开发有限公司  URL: http://www.hi-blue.com