信息化应用 营销管理 企业管理 业界消息 站内搜索 标签
首页 » 文档中心 » 信息化软件应用 » BI 商务智能 » DM的方法论

DM的方法论

2003-09-19

DM的方法论:DM的方法论

匡宏波

五年前,数据挖掘(以下简称DM)带着“啤酒加尿布”的光环来到中国,引起了理论界和市场界的热切关注。经过几年的酝酿,DM开始走向应用和实施阶段。电信、税务、金融等许多行业的DM项目已经或者将要启动。

啤酒不仅有醉人的香味,还有丰富的泡沫。那么,一个DM项目成功的关键是什么?如何准确理解客户的需求、达到并超越客户的期望?DM与传统的系统集成和开发在方法论上有什么区别?一个完整的DM项目应该分哪些阶段实施?

DM的方法论:DM方法论—CRISP-DM

在业界,CRISP-DM(Cross-Industry Standard Process for Data Mining)是公认的、较有影响的方法论。KDnuggets在2002年就DM方法论做了一个调查(见图1)。



图1 数据挖掘方法论调查

抛开样本数量(189)和样本的代表性,结果表明,采用CRISP-DM者还是占绝对优势的。

CRISP-DM起源于1996年,当时NCR、Clementine(1998年为SPSS收购)、OHRA和Daimler-Benz(现为Daimler-Chrysler)的联合项目组正在为Daimler-Benz实施DM项目。一年后,CRISP-DM兴趣小组正式成立。2000年,CRISP-DM 1.0版正式推出,应该说CRISP-DM是实际项目的经验总结和理论抽象。

CRISP-DM强调,DM不单是数据的组织或者呈现,也不仅是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。

CRISP-DM分成如下六个阶段:商业理解(Business Understanding),数据理解(Data Understanding),数据准备(Data Preparation),建模(Modeling),评估(Evaluation)和发布(Deployment)。(见图2)



图2 CRISP-DM的六个阶段

打个比方,譬如炒菜待客,商业理解就是了解顾客的口味;数据理解则是熟悉每一样原料可以炒什么菜;数据准备则是根据顾客的口味和厨师的经验,配菜、择菜和洗菜;而建模就全靠大厨炒菜的水平;到了评估阶段就是顾客品尝;如果满意则到了最后的阶段,作为招牌菜发布推广。DM的过程就是客户空腹而来,满意而归的完整的服务过程。

其实,在实际项目中,CRISP-DM模型中的数据理解、数据准备、建模、评估并不是直线式的,而是多次反复、多次调整、否定之否定的螺旋上升的过程。具体做过数据分析的读者不难理解这一点。

应该说,CRISP-DM并不是什么新观念,许多统计和数据分析人员在分析数据时就是这么做的,是提出问题、分析问题和解决问题的具体版本而已。

CRISP-DM的可贵之处在于提纲挈领,与ISO9000系列异曲同工,非常适合工程管理,当然这也是西方人重标准、重分工、重规范的具体体现,适合大规模定制。“以一流的企业做标准”,对我国企业来说,特别是对我国的DM应用开发商来说,是值得借鉴的。

DM的方法论:DM与数据

MIS、ERP的目标是减少企业的“非生产劳动”,而DM的目标就是发现规律—让数据说话。“巧妇难为无米之炊”,高质量、完整的数据是DM成功的基础。

企业的信息化程度决定了企业各类数据的管理方式。有的企业信息化水平较高,已经建立了业务数据、财务数据和客户数据的收集和存储机制;而有的企业则还停留在“纸和笔”的时代。

对那些没有建立DW(数据仓库)或者正要建立DW的企业来说,我们强调:DW必须在DM的指导下建立。换句话说:就是DW必须满足DM的需要。否则,DW还是DB,只是批上一件时髦的外衣,数据的组织还不是面向主题和面向业务需求的,也无法为DM提供直接的数据支持。这样导致的结果有二:一来数据冗余导致浪费,二是可能有些DM必须的数据在DW中找不到。毕竟,厨师水平再高、缺了虾米,用“肉丝蒜苗”无论如何也整不出个“油焖大虾”来。

对已经建立DW的企业来说,在DM之前必须面向主题进行数据的抽取和整理(ETS),形成供DM使用的数据集市(Data Mart)。

dm与数据分析

如果说MIS、ERP的核心是管理思想,那么DM的核心就是数据分析。这是DM区别于其他管理系统的所在,也是DM项目的技术制高点。

数据分析的方法有很多,既包括传统的统计方法,如描述统计、回归、聚类、时间序列、决策树等,也吸收了人工智能和机器学习中的一些方法,如神经网络等。

桑普拉斯说:统计分析让一切假象原形毕露。但是,统计中也有不少陷阱,蹩脚的数据分析师总是披着统计的外衣有意或无意地制造假象,许多年前的一本著作《How to lie with statistics》就对此有过幽默而深刻的描述,最近有了中译本《统计陷阱》,有兴趣的朋友不妨一睹为快。对于一个成功的DM项目来说,一个真正的统计学家和数据分析专家是必不可少的。他会指引你绕过礁石和旋涡,到达成功的彼岸。

dm与项目管理

如果说成功的DM项目是一串钻石项链,那么数据收集和整理是挑选含有钻石的矿石,统计建模和数据分析则是钻石的开采,而项目管理就是用金线把一颗颗钻石连接起来。

DM指出了企业应用软件的新方向—以企业用户的需求导向,以企业管理思想和业务规律为指导,以数量分析为技术核心,以辅助决策为目标,以实际应用效果和业务问题的解决为试金石。

DM对项目管理人员也提出了新要求:项目管理者不仅需要项目管理能力和软件设计的基础知识,更为重要的是,要具备超强理解力和沟通能力,还要具备相当的数据分析能力。

DM也对系统集成商提出了新的要求,系统集成商集企业的管理咨询和系统实现于一体,以理解力、咨询能力和系统实施水平为核心竞争力。而且,随着越来越多的企业希望培养自己的DM队伍,DM系统集成商的责任就会更多一分。

DM项目的后续维护也同样重要,因为DM总是依赖过去或者当前的数据说明一个事实、揭示一种规律并试图预测未来。但是,市场总是在变,经营方式在变,投资、消费和交易模式也在变,模型不是万能的,规律也不可能是一劳永逸的。因此,DM项目实施者必须不断跟踪环境的变化对模型做相应的调整。当然,高级的一点就是建立自适应模型,但是自适应不是一件容易的事。

其实,DM如此,ERP和CRM也是如此。ERP和CRM如此之低的成功率,不要误导注意力去争论ERP和CRM的本身,也就是说,系统集成商的水平亟待检讨和提高。

在DM的具体实施过程中,ISO9000的八项质量控制原则照样实用:以顾客为中心、领导作用、全员参与、过程方法、系统管理、持续改进、以事实为决策依据、互利的供需方关系等。

其实,CRISP也好,其他方法论也好,提供的只是一个项目管理框架。企业必须根据的自己的实际情况,发现并挖掘企业的业务需求,参考、借鉴同行业乃至竞争对手的成功经验,最后实施适合本企业的DM项目。

关于具体行业的DM解决方案和成功应用,我们在后续的文章中会专门论述。

相关链接
数据仓库2003-09-17 商业智能系统2003-09-21
分析型应用程序的市场趋势2003-09-16 下一代数据仓库2003-09-13
你实现商务智能了吗?2003-09-12 互联网时代的信息情报搜集2003-09-11
CIO调查:数据挖掘遥远吗?2003-09-09 Document Warehousing & Content Mana...2003-09-07
聚合策略中选择OLAP还是聚合表2003-09-05 CRM中的商业智能(BI)系列_2:数据挖掘...2003-10-04
信息化软件应用目录
OA 办公自动化系统 CRM 客户关系管理系统 PM 项目管理系统 SCM 供应链管理系统 CC 协同商务系统 BPM 业务流程管理 BI 商务智能 CMS 内容管理系统 KM/KBS 知识管理系统 电子商务系统 HRM 人力资源管理系统 ERP 企业资源计划 EAM 企业资产管理系统
升蓝首页 | 文档首页 | 产品首页 | 服务首页 | English Version | Big5 Version | 联系我们
Copyright © 1999-2008 深圳市升蓝软件开发有限公司  URL: http://www.hi-blue.com