欢迎投稿

今日深度:

转:数据挖掘流程及主流工具,

转:数据挖掘流程及主流工具,


转:数据挖掘流程及主流工具

 (2010-01-21 15:23:36) 转载
标签: 

sas

 

数据挖掘

 

spss

 

挖掘工具

 

利基

 

商都

 

杂谈

分类: 用户分析定位
数据挖掘流程及主流工具

限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。

Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于200510月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:

l         一个发现过程

l         具有灵活的框架

l         按照清晰定义的策略进行

l         包含多个检查点

l         多次定期的评估

l         允许在反馈环路中对函数进行调整

l         组织为叠代式的架构

很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。

但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。

“工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):

l         数据存取能力:能否访问各种类型的数据,数据接口的效率如何

l         数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等

l         模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署

l         可视化能力:多种图形展示,交互操作

l         性能:软硬件平台支持,并行,多CPU,多线程,分布式架构

l         对各种用户和行业解决方案的支持能力

l         其它能力支持:中文支持,友好界面,批处理,API,元数据管理等

企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括GartnerIDC等等。以下引用Gartner2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。

“最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SASSPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXENPortrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”

“在此项评测中,共有SASSPSSKXENPortrait SoftwareAngoss SoftwareUnicaThinkAnalyticsFair IsaacInfor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SASKXENSPSS。”

2006年第1季度的评估报告中,还曾包含ChordiantTeradata等厂商。

评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。



图: Gartner客户数据挖掘魔力象限(2007年第2季度)

在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SASSPSS分别简要介绍。



 

SAS

 

在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS

SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

SPSS

 

SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS

SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。

 

SAS

 

在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS

SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

SPSS

 

SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS

SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。

www.htsjk.Com true http://www.htsjk.com/teradata/35349.html NewsArticle 转:数据挖掘流程及主流工具, 转:数据挖掘流程及主流工具   (2010-01-21 15:23:36) 转载 ▼ 标签:   sas   数据挖掘   spss   挖掘工具   利基   商都   杂谈 分类:  用户分析定位 数据...
相关文章
    暂无相关文章
评论暂时关闭