信息化应用 营销管理 企业管理 业界消息 站内搜索 标签
首页 » 文档中心 » 信息化软件应用 » BI 商务智能 » 数据挖掘:扩充信息仓库框架_1

数据挖掘:扩充信息仓库框架_1

2003-05-05

摘要:竞争性商务的压力以及改善现有IT投资的渴望驱动着企业不断尝试数据挖掘技术,这种技术的功能在于帮助企业从数据中找出隐藏模式,这些模式有助于企业对其重要客户的购买行为进行理解,识别信用度或保险欺诈,预测金融市场的可能性变化等等。本文将对数据挖掘进行探讨,其对用户的的潜在利益,以及IBM在此领域的发展,另外也将说明如何把数据挖掘活动集成到一个现存的用户环境中,其中包括那些已经对数据仓库进行利用的活动。

导言

许多公司已经在IT方面进行了耗资巨大的投资,以便更有效地管理企业从而在竞争中占领优势地位。在过去的30年中,企业中不断增长的大量重要数据都已经采用电子方式进行存储,而数据量在将来不短的时间里还将继续增长,然而,如果不对数据的健康性进行考虑的话,企业就不能充分利用其价值,这是因为信息隐藏于数据中,想要洞悉其意义并非易事。例如,一个零售商店可以每天将每位客户的购买信息详细地保存下来,但想明了隐含其中的众多微妙的购买模式却依然困难;同样,一家保险公司可以将索赔的历史资料详细保存下来,但想找出其中欺诈行为的共同特征也仍然很不容易。

幸运的是,数据挖掘领域的进步可帮助客户更有效地改进数据,并从中获取透视信息,使企业在竞争中脱颖而出。简而言之,数据挖掘工具能让客户找出以前无法探知的隐藏于重要业务数据中的信息,这些数据消耗了大量存储空间,可能存贮于文件或数据库管理系统中,也可能存贮于各种操作系统平台中。对于这种数据挖掘工具来说,准确、高效和开放的体系结构是相当重要的。

本文将对成功实施数据挖掘的业务需求及相关技术进行探讨,另外将对IBM对数据挖掘问题的解决方法进行讨论。

数据挖掘:扩充信息仓库框架_1:业务需求

许多行业中的公司,如零售、金融、保健、保险等,一般都要维护大量的客户行为及偏好等方面数据,而隐藏其中的客户行为模式可帮助企业调整营销策略、降低风险并改善营亏情况。

例如,零售商通常想了解商品的共同销售情况,知道了72%的客户在购买某种苏打的同时会购买另一种土豆片,这将有助于商家对商品的陈列进行适当调整,优化利用货柜空间,同时改进销售策略。进行这样的相关度分析的结果是,零售商将不必在销售苏打时对土豆片进行打折,因为这将造成不必要的利润损失。

另一种类似的需求是对某段时间内发生的历史购买模式进行了解。例如,某一种模式可能是这样的:64%的顾客在订购某种睡袋和背包后,随后将订购野营帐篷。了解到这个信息后,邮购公司就可以通过缩小或扩大营销对象范围来获得更高成功率,增加销售收入。

其他行业中,很多也有类似需求,都希望从日常存储的数据中找出隐藏模式以满足业务需要。数据可以是多方面的,比如采油数据、证券市场数据、消费者数据等等,众多公司所面临的问题是怎样在一个合理的时间框架和可接受的成本范围内将这些模式发掘出来,这正是新技术成果(比如IBM解决方案)发挥威力的地方。

数据挖掘:扩充信息仓库框架_1:潜在的行业应用领域

金融和保险行业很久之前就已经意识数据挖掘的好处,但实际上这种技术在许多领域都可以有效应用。本部分将列出一些应用领域的例子,IBM的解决方案可以在这些领域中得出不定的且有益的结果。

数据挖掘:扩充信息仓库框架_1:零售/市场营销

鉴别客户的购买行为模式

找出客户人口统计特征间的联系

预测何种用户将会对邮件产生反应

数据挖掘:扩充信息仓库框架_1:银行业

探测欺骗性信用卡使用行为模式

鉴别“忠诚”客户

预测将改变信用卡隶属关系的客户

测定客户群的信用卡开支

找出不同财务指标间隐藏的相关性

从历史市场数据中找出证券交易规律

数据挖掘:扩充信息仓库框架_1:保险和保健

赔付分析:测定何种医疗程序是共同赔付的

预测何种客户将购买新的保险项目

鉴别风险客户的行为模式

鉴别欺诈行为

运输

在各条路线间确定配送计划

分析装载模式

医药

找出病人行为特征,预测医生工作量

找出各种病的成功医疗方法

数据挖掘:扩充信息仓库框架_1:数据挖掘:证实 vs. 发现

决策支持系统(DSS),执行信息系统,以及查询/报表书写工具可用来生成数据报表,一般可以任意维数的方式进行合计。这些工具的另一种用途是从客户数据中探测趋势和模式,以便找出某些业务问题的答案,在这种应用方式下,将针对所提出问题产生一个查询并对相关记录进行访问,在取得数据后,将对问题结论中的模式或其它有用信息进行检查,这称为证实模式。在这种模式中,DSS用户首先对数据提出一个假设,并进行查询,然后再对查询结果进行检查,以便肯定或否定原假设。如果是肯定结果,则处理流程结束;如果是否定结果,那么将进行新的查询,并一直重复这些步骤,直到结论数据能够证实假设,或是用户确定原假设不符合其数据为止。

考虑这样一个例子:一个销售经理准备用一定的预算对一项新产品开展邮件促销活动,为了有效利用资金,营销经理希望找出新产品的最可能客户的最大集合,并能在预算范围内完成这项任务。

为了找出这些客户并确定该客户集充分与促销预算相符,该经理可对这一潜在客户集作出假设,并向含有历史客户购买数据和人口统计信息的各数据库提交查询,如此可以得到新产品的可能用户集。

进一步,为了将客户数量限制在合理范围之内,该经理可以要求只获取满足如下特征的信息:客户年龄在30~45之间,是一家之主并且收入为25000~50000,居住在某些特定邮政编码的地区。如果查询结果返回的客户数量刚好与邮件促销预算相符,则处理结束;如果返回的客户数量显著多于或少于预算人数,则必须进行新的查询,以便减少或扩充客户集。

在上面的例子中,用于设计查询的假设是很清楚的(比如某个确定金额范围内的收入),就算假设不明确,也仍然可以用上述方法来对找出有用趋势或模式的处理流程进行描述,下面将介绍一个包含有钻取处理的例子。

某公司上个季度的报表显示,其销售额比预期的显著减少,公司财政官员想了解为什么会出现这种情况,于是首先对上季度的销售数字提交一个按地区分类的查询,其结果显示,除了某一特定地区外,其他地区销售额都在增长。财政官开始怀疑问题可能出在该地区的某一个商店,为了对问题作进一步的了解,再提交一个查询,以返回该地区所有城市的销售结果。

如果查询结果显示,其中一个城市的销售额显著低于其余城市,则这个结果将使财政官的猜测得到进一步证实;如果查询结果显示,该所有城市的销售额都一起降低,那么这要求对问题原因的最初假定(不确定的假设)进行修正。为得出结论,接下来再进一步进行钻取,对问题城市按商店进行新的分类查询;如果上一查询的结果与最初假定茅盾,则需要重新设计所有查询。

上面两个例子中用到的这类查询,总是返回满足查询条件的记录,然而,在获取数据的处理中几乎不会产生什么新信息,既不能证实假设,也不能否定,信息发掘的处理过程应该是连续不断地对查询结果进行检查,并将已证实的假设和修正的假设结合起来考虑,这才是证实模式的关键所在。

很多时候,当执行查询时会对待查数据提出计算请求(如统计记录个数、对某一字段求其平均值等),这些操作将会在返回查询结果时产生附加信息,为方便讨论,本文对这些导出性数据将不予考虑。

从用户的角度来看,其关心的是如何找出数据所反映的本质,从数据库中提取数据的查询是一种普通方法,另外还有一些工具(如查询生成器等)可以在上述的证实模式中结合运用。这类工具包括多维分析工具和可视化工具等,多维工具使用户在设计诸如上例中的钻取查询时更为简便;可视化工具的利用,正如其名称所指,是为了以可视方式提交数据,使用户在探索那些隐藏模式时可以更简便地与数据互动,用户对于可视化工具的使用主要是为了利用人类的视觉能力来辨识模式。上述的三种工具(查询、多维分析和可视化)有一个共同特点,那就是在对数据的探测过程中,用户始终处于主导地位。

数据挖掘采用了另一种不同的信息生成模式,称为发现模式。下面部分将讨论通过数据筛选探索习惯性模式的方法,这可用于探测趋势、找出数据共性等。数据挖掘工具可以在几乎没有用户引导的情况下找出这些类型的信息,对于这类信息的发现并不是偶然的结果,正好相反,一个优秀的数据挖掘工具在对数据开采的过程中,可以在最短时间内产生尽可能多的有用信息。

如果把对某一数据集的信息发掘流程看作钻石开采的话,那么“证实”就像是在矿脉上挖了几个洞,希望从中找到钻石。想通过这种方式找到所有的钻石是非常低效的。另一方面,“发现”就像是把矿脉中所有的原料一次性的全部铲起来并将其倾倒在一块平地上,这样,所有闪光的石头都暴露出来了,接下去就可以通过进一步的检查把钻石与石英区别开来。在数据挖掘中,大量的数据将被检查,并将得出许多引起挖掘者关注的结论。与钻石不同,钻石比较容易同石英区别开来,而在区别有用和无用结论的过程中必须作出业务判断,由于这最后的一步与原材料的筛选无关,因此对于找出相关数据的有用结论来说,数据挖掘是一种更有效的方式。

未完待续

浏览:数据挖掘:扩充信息仓库框架(下)

相关链接
出色的竞争情报等于光辉的未来2003-05-05 为“仓库”提供优良原料2003-05-10
Oracle Business Intelligence介绍2003-05-11 推动“知”“行”合一--Teradata华...2003-04-26
实时数据管理:填平数据仓库与实时系...2003-04-17 智能存储综述2003-04-17
数据挖掘系列讲座之二:数据挖掘与数...2003-06-09 如何找到适合你的数据仓库?2003-06-17
挖掘:再造竞争核力_22003-06-17 信息时代的组织智商2003-03-21
信息化软件应用目录
OA 办公自动化系统 CRM 客户关系管理系统 PM 项目管理系统 SCM 供应链管理系统 CC 协同商务系统 BPM 业务流程管理 BI 商务智能 CMS 内容管理系统 KM/KBS 知识管理系统 电子商务系统 HRM 人力资源管理系统 ERP 企业资源计划 EAM 企业资产管理系统
升蓝首页 | 文档首页 | 产品首页 | 服务首页 | English Version | Big5 Version | 联系我们
Copyright © 1999-2008 深圳市升蓝软件开发有限公司  URL: http://www.hi-blue.com