关于数据挖掘软件【转】

3/21/2013 2:52:38 PM

国外部分有影响力的数据挖掘软件列表

转载自:http://blogger.org.cn/blog/more.asp?name=DMman&id=24324


以下介绍分别按:公司、数据挖掘工具及其特点、应用行业案例 三个方面。


1、ANGOSS软件公司
http://www.angoss.com/
KnowledgeSTUDIO
平台:NT , Windows 9X
功能:CHAID算法,支持PMML,留有与SAS、S-Plus的接口,能够灵活地导入外部模型和产生规则,包含神经网络建模的能力
优点:响应快,模型、文档易于理解,决策树分析直观/性能良好,SDK中容易加入新的算法
缺点:决策树不能编辑打印,SDK缺乏数据预处理阶段的函数,没有示例代码,不支持AIX
应用行业案例
1. Frost National银行CRM收益率、客户满意度、产品功效
2. SASI公司利用SDK开发行业数据挖掘应用软件(零售行业)
3. Montreal银行客户分片、越区销售模型、市场站的准备、抵押支付的预测、信用风险的分析


2、Business Objects
http://www.businessobjects.com/
BusinessMiner 4.1
平台:Windows 平台,支持多数据源
功能:直观的决策树技术, 提供所有的分类数据挖掘功能,包括:建模、发现、可视化、假设分析和分片。支持RDB、DW、OLAP、文件。
优点:易于使用,价格便宜$495,文档齐全
缺点:只具有决策树功能
应用行业案例:
D&J WADE ASSOCIATES是一个数据仓库和商业智能咨询公司,利用BO公司的产品做商业智能解决方案
国际上大约有7000多公司在使用Business Objects


3、Cognos 公司
http://www.cognos.com/
Cognos Scenario
平台:Windows 平台
功能:Scenario是基于树的高度视图化的数据挖掘工具,决策树的基本功能是创立一系列标准,预测记录中目标市场的价值。Scenario的分类树分阶展现各种因素;最终用户通过挖掘或展开树的分支来探察数据。
特点:Scenario的抽样技术可以用最少的处理开销和最短的响应
应用行业案例:
企业经理们可以利用Scenario的统计方法,深入挖掘影响商务趋势的因素的潜在含义,根据风险特性将个体与群体客户归类;将商务因素分门别类,辨清商务目标所受的主要影响;探察与通常数据模式不符的异常情况等。
Northwood公司利用该产品发现影响树木死亡率的模式和因素。
时间得出最精确的结果。给各种因素定级。


4、Comshare, Inc.
http://www.comshare.com/
Comshare Decision and Decision Web
Commander FDC/EIS Decision
平台:LAN-客户端Windows 9X,服务器NT,Internet-Web服务器
功能:具有强大的分析能力,包括: grids, 钻入, 旋转, 图表, 映射, 特殊计算,等。内置引导分析功能,交互式分析多维数据。
优点:易于使用,安装简单
缺点:ICE (智能组件扩充)按钮在DecisionWeb 中不可用,文档不全面
应用行业案例:
VDK 冷冻食品公司利用 COMSHARE DECISION AND DECISION WEB进行决策分析
Welch Allyn公司利用FDC/EIS Decision进行金融决策分析


5、DataMind Corporation
http://www.datamind.com/
DataCruncher
平台:Pentium PC
功能:特殊的报表
优点:响应时间快,能将数据挖掘报表转化成HTML格式。
缺点:图形界面不友好,难操作
应用行业案例:ADP集团利用Data Cruncher分析客户定单及交易数据,提高客户满意程度。


6、DBStar
http://www.dbstar.com/
DBStar Migration Architect
平台:Sun Sparc 20/Solaris,HP/UX IBM/AIX
功能:数据分析工具,发现数据质量问题以及数据元素和其它内在的数据驱动的商业规则之间互相依赖的关系。在多个源数据与统一的目标数据之间建立映射。(数据仓库的数据抽取和转化功能)
优点:可靠地决定数据质量,实时跟踪数据的改变并维持数据的一致性。不是使用元数据,而是利用实际数据进行细节数据分析。
缺点:Motif用户界面使用不直观
应用行业案例:某零售、投资、以及代理服务的金融服务公司利用DBStar的Migration Architect进行数据仓库项目的开发


7、Group 1 Software
http://www.group1software.com/
MODEL 1
平台:Windows NT,Windows 9X
Indiana大学的Kelley 商学院使用MODEL1作为MBA数据挖掘教学软件。教学生如何分析客户数据库得出新的建议、保留老客户、最
功能:灵活的数据抽取能力,数据编辑器能够创建新的数据变量,扫描无效数据。产生基本的线图、柱状图、稀疏图表、均值、和频率分布、以及lift图表。具有客户分片模型、响应模型、交叉销售分析和客户评估。适合多种预言模型包括:RFM, Bayes, 线性和logistic回归, 神经网络, CHAID and CART 模型。
优点:易于使用,广泛的模型。具有友好的wizard建模过程询问数据的格式和希望分析的层次。可以定制建模过程。非常适合直接市场应用。
缺点:不适合纵向数据的时序分析,不能创建Script自动执行用户经常使用的一系列命令,价格昂贵,用户不能直接编辑报表,数据转化复杂,用户必须将外部数据转换为固定格式的文本文件才能进行挖掘
应用行业案例:
大化客户的生命周期价值,从而作出一对一的市场。学生分析人口统计数据、POS交易数据、商品目录和经常购买的数据。利用MODEL1做客户分片,分析过去推销的商品的有效性,定位将来的市场,增加交叉销售,标记最有价值的客户。
Fort Worth Star-Telegram是新闻单位,利用MODEL1进行数据库营销
DRG集团是出版公司,利用MODEL1进行MAIL战略


8、Hitachi Data Systems (HDS)
http://www.hds.com/
HDS 5780 Nucleus Exploration Series
平台:64-bit UNIX, 32-bit Windows NT,个人版本-Windows 9X
功能:数据仓库建模
优点:简化了数据仓库的逻辑和服务模型设置,性能高,能够查询压缩数据
缺点:1小时装载1.5G数据,速率慢,可能由于压缩的原因
First Citizens Bank利用该产品建设数据仓库
应用行业案例:Canadian National Railway (CN)加拿大国家铁路局利用该软件产品构建数据仓库
H

9、NC Software, Inc.
http://www.hnc.com/
Falcon Retail
平台:IBM mainframe或 UNIX
功能:神经网络
优点: 减少人工分析的劳动力
缺点: 分析过程难以理解
应用行业案例:Sears, Roebuck and Co.公司是大的服饰、家庭和汽车零售商,利用该产品分析其忠诚卡交易的欺诈行为


10、IBM
http://www.software.ibm.com/data/
Intelligent Miner
平台:AIX,Window NT ,OS/390 ,Sun Solaris
功能:自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。具体算法包括:典型数据集自动生成、概念性分类、聚集(人口统计分析demographic、神经网络)、分类(树归纳和神经归纳)、估值、关联规
Decision Edge for Finance——专门为金融行业设计的综合解决方案。Decision Edge for Finance不仅仅是简单的报告工具,它提供了行销经理所需的全部技术,以制定战略业务决策并开展行销活动。
Decision Edge for Insurance——端到端的解决方案,包括硬件、软件、顾问和服务,其设计目的是帮助保险业行销经理制定战略业务决策并开展行销活动。
则、序列模式、预言模型,以及结果可视化呈现。
优点:Intelligent Miner for Text可以提供一定程度的定制,具有可扩展性,索引的速度很快,具有先进的语言分析能力、聚集和过滤能力。Intelligent Miner有强大的API函数库,可以创建定制的模型。能够处理巨大的数据量,同时支持并行处理,查询速度很快。
缺点:Intelligent Miner for Text图形界面GUI不友好,spider和indexing管理需要对UNIX非常熟悉。对一个挖掘对象将多个挖掘操作一起执行(批处理)比较困难。元数据不开放,结构复杂。文档缺乏错误代码的详细解释。没有对算法的详细说明。
IBM Discovery Series for Banking——为满足“客户至上”的银行业需求而设计的应用程序套件。
IBM Discovery for telecommunications——为电信行业提供完美的客户服务的应用程序套件。
Business Analysis Suite for SAP——适用于下列公司:已经安装SAP事务处理系统,并需要建立数据仓库,以充分利用日常运作中收集的所有事务数据。
Surf-Aid——数据采集应用程序,用于分析Web站点利用率。
Info Print Business Intelligence Solution——允许企业将自定义消息、姓名及地址同图形和条形码相结合,向客户提供有独特个性的行销资料。
Global Services BI Offering——包含不同角度(行业、业务功能、技术)的战略和规划功能,以及帮助客户理解和解决业务困难、管理数据仓库项目、开发和实现先进分析功能的方法。
Insurance Underwriting Profitability Analysis-将数据仓库和数据采集技术相结合,帮助保险业执行人员处理保险业过程。


11、Information Discovery, Inc.
http://www.patternwarehouse.com/
http://www.datamining.com/
PatternWarehouse
Retail Sales Forecasting System
平台:Solaris,Retail Sales Forecasting System运行在Intranet的Web服务器上
功能:PatternWarehouse 提供商业用户迅速访问已经获得的模式:客户行为,product usage affinities,生命周期, 等等。PatternWarehouse 提供PQL-模式查询语言,查询模式,就象用SQL语言查询数据一样。操作循环如下:数据挖掘在每周/月定时执行,发现的模式存储在模式库中,模式周期性增加组合和趋势分析,用户查询已经挖掘的模式库,而不是关系数据库。基于Java技术,在、查询通过Intranet的Web浏览器接口。
优点:模式存储起来,对于紧迫的问题不需重新计算。数据挖掘是对整个数据库,不是抽样或抽取部分数据。模式存储在一个中心仓库,确保了统一的视图。报表用浅显的语言和图形自动产生。
缺点:较难向用户解释PatternWarehouse和数据仓库框架的区别,在从事数据挖掘项目没有一个好的顶层的体系结构。
应用行业案例:E*TRADE 是一个网上投资服务公司,随着基于Web的金融服务竞争的加剧,数据挖掘技术构成了制胜的资本,E*TRADE利用patternwarehouse数据发现系统对客户行为进行分析,制定合适的市场策略。
Deere & Company是农业工具零售公司,利用Retail Sales Forecasting System成功地预测了其拖拉机产品的第二年的销售。


12、John Galt Solutions, Inc.
http://www.johngalt.com/
ForecastX Wizard
平台:Windows,UNIX,可以和Microsoft Web solutions, Windows 95, Windows NT and Arbor Essbase, SQL Server, Oracle等集成,开发工具: VB, Java.
功能:ForecastX包括核心的预测技术和统计分析。有广泛的应用:金融计划、风险分析、销售预测、需求计划、生产计划,以及统计建模。ForecastX是一个分布式对象,可以和运行在UNIX或Windows上的应用程序集成。具有强大的预测引擎,包括30多个统计功能。
优点:没有数据量的限制,量的大小处决于运行的计算机。即使没有统计知识也能进行复杂的分析。对象模型易于导航,性能显著。
缺点:产品文献只有HTML格式, 没有易于操作的帮助。对于同一个问题有多种解决方法,很难判断哪一种解决方法好。
应用行业案例:HITechnologies公司是一个市场咨询公司,利用ForecastX的预测控件组件(ActiveX)开发HITools Enterprise Suite, 该软件提供供需链管理,制定供需计划,增加管理one-to-one 市场的能力。
:GTE是一个电信公司,整个市场分为四个部分:无线、ISP、长途和本地电话, GTE利用ForecastX预测各项产品和服务的增长和收入。


13、Magnify.com
http://www.magnify.com/
PATTERN
平台:Windows NT/9X
功能:软件包括:数据预处理、预言建模、以及模型配置和打分。建模组件能够分析T级别的数据和支持多种数据挖掘算法。pattern能够将许多不同的模型的最好的因素连接成一个全体的模型。有特定行业的模型模板。模型配置和打分组件能够对模型进行修改,同时也能配置SAS和其他流行的建模工具构造的模型。
优点:精确性高,能处理T级别的数据。
缺点: GUI不友好,命令行接口比GUI容易使用。目前版本只支持Windows,今后会支持Unix。
应用行业案例:Polk是一个多媒体智能信息解决方案提供商。有超过111 million个家庭的人口统计和生活方式的数据库,利用pattern预言对一个直接MAIL营销的响应。


14、MapInfo Corporation
http://www.mapinfo.com/
TargetPro
平台: Windows NT,Windows 9X
功能:将人口统计(demographic)数据按照地图的格式可视化,
Meineke是一个汽车销售和修理的连锁公司,利用TargetPro分析demographic数据,作市场决策。
能够创建高质量的地图,帮助决策制定和增强报表和表达方式。
优点:能够分析超过600个变量,响应速度很快。
缺点:操作手册不详细。


15、Market Miner (Formerly AbTech Corp.)
http://www.marketminer.com/
ModelQuest Expert
平台:Windows NT.
功能: 用C语言表达预言方程(equation),这些方程能够和数据仓库集成,用于计算预言值,然后用这些预言值来作为数据仓库选择数据的条件。
优点:预言功能可靠性高,模型开发的速度快。
缺点:预言变量类型的转换对用户是非常麻烦的。
应用行业案例:ASC公司为客户提供数据库营销服务。开发和实现客户的预言模型,以提高其营销的效率。ASC公司需要一种快速有效的方式构建预言模型,并且已经运行神经网络很多年,在对ModelQuest Expert测试后,发现它缩短了预言模型开发的速度,并且其有效性在实际的营销策略得到了验证。


16、MathSoft, Inc.
http://www.mathsoft.com/
StatServer
S-PLUS 4.5 Professional for Windows
S-Plus for Unix 5.1
平台:StatServer 只能运行在Windows NT,其它产品能够运行在UNIX、Windows NT/9X
功能:StatServer是一个数据挖掘引擎和事务服务器,用户能够通过多种客户端(浏览器,MS Excel等等)进行统计分析和信息可视化。 对于StatServer 而言,客户统计模型和数据挖掘程序固定在S-PLUS语言内,存储在中心服务器上。分析通过S-PLUS引擎运行在服务器端,结果返回给客户端。StatServer能够通过多个数据源抽取数据,也能通过客户端上载数据。StatServer能够让组织开发、维护、配置定制统计分析和可视化方法。StatServer 适合NT体系结构,提供了一个强壮的报表环境和MS ASP引擎相互补充。服务器端工具的组合 (MS IIS, MS ASP, COM business objects, MS Transaction Server, StatServer,以及关系数据库,比如: MS SQL Server、 Oracle) 和简单的客户端构成了一个灵活的、强壮的、可扩展的远程数据挖掘和图形报表系统。
S-PLUS 是一个包括S语言、SQL和统计包混合的系统,能够用可视化的方式勘探数据。具有import/export的功
Waratah公司提供统计、数据挖掘、数据仓库、以及软件开发服务。在为一个健康中心开发应用的时候,利用StatServer 开发定制的基于浏览器的客户端应用,以分析和可视化病人的数据。另外也为一个制药公司分析其实验数据。Waratah主要利用StatServer 进行二次开发,因为其客户端是浏览器或者MS Excel,用户能够方便地使用。
Federal Communications Commission为了利用信息进行决策分析,该单位的经济学家利用S-Plus解决统计和经济分析问题。
Maple Partners Financial Products 利用S-PLUS 创建和测试定量的贸易模型。
应用行业案例:Cereals是一个食品公司,其基因研究利用S-PLUS软件的数据挖掘功能分析大米基因数据。使用了mapping和 sequencing 技术。
Pillsbury是一个食品公司,利用StatServer和S-PLUS创建基于Web的数据分析环境。
能。S-PLUS既具有基于Windows的图形接口,又有命令行接口。支持多种数据库的数据格式。S语言专门用于向量编程和分析,已经和Windows风格的界面集成。强大的图形功能包括:画刷brushing, 旋转spinning, plotting a matrix of pairs, contour maps, heat maps 、 interpolated surfaces
优点:StatServer COM对象模型是一个很好的编程接口。S-Plus非常精确。图形、数据对象、分析结果都能和微软的程序集成,比如:PowerPoint、Word、Excel。Import/export的功能缩短了数据移动的时间和开销。
缺点:StatServer需要充分的资源和一台专门的服务器。StatServer不是一个service,需要登录进入StatServer这台计算机启动程序,有时会象NT一样出现问题,需要重新启动。
S语言的灵活性使得有时很难指出如何写一个特定的程序。整个系统过于复杂,目前不支持Linux。


17、Maximal Innovative Intelligence Ltd.
http://www.maxsw.com/
Max
平台:Microsoft NT,Microsoft SQL Server 7.0 OLAP Services.
功能:可视化的多维分析功能。具有友好的wizards 导航。
优点:Max自动地汇总数据,易于使用。"Find Similar" 分析特别有用,因为它能迅速地发现异常情况。
缺点:MAX是一个客户端程序,客户端开销很大。报表能力应该被提高,2000年的产品和MS Office能够集成。
应用行业案例:Afek Information System Engineering Ltd是一个计算机咨询公司。提供多方面的解决方案,包括:计算机系统分析,信息系统开发,ERP系统实施,以及物流项目管理和实施。利用Max进行图形化的多维分析,而不需要分析专家 。
Spiritus Trading Ltd.是PC机及外围设备贸易公司。利用Max分析客户和供应商的数据。


18、Megaputer Intelligence, Inc
http://www.megaputer.com/
PolyAnalyst Pro
TextAnalyst
平台:Windows NT
功能:PolyAnalyst提供下列功能:数据访问、数据操纵和清洗、机器学习、可视化和报表。直接访问与ODBC兼容的各种数据源,数据和挖掘结果能够与MS Excel集成。提供构造数据子集和变量转换的功能。数据分析自学习引擎包括: PolyNet预言器, GMDH (Group Method Data Handling) 和神经网络混合的方法,基于演化编程技术-
Wisconsin-Madison大学UW Medical School 和School of Nursing的Research Design and Statistics Unit (RDSU) 为生物医药研究提供高层的统计和设计支持。典型的生物统计技术过于复杂,神经网络难于理解,所以利用PolyAnalyst Pro基于符号知识技术发现规则和结构。目前该软件在肾脏学nephrology,小儿科 pediatrics以及phonology/ communicative disorders运行的非常成功。
Boeing公司是世界最大的航空公司。将多个复杂的系统集成在一起是其成功的基础之一,工程组希望找到一种工具,能够迅速地构建非线性过程的模型作为内置实时系统的一部分。传统的曲线配置curve
发现规律,发现依赖关系的勘探引擎,分类引擎,聚集引擎,以及多参数线性回归以发现数据中的线性关系。PolyAnalyst具有集成的GUI环境。发现规律引擎,利用了符号知识获取技术 (SKAT), 自动化地发现数据中的依赖关系和规则,并且用清晰的数学语言表达。PolyAnalyst是一个多策略的数据挖掘解决方案。能够处理数字、种类、布尔型变量。任何一个引擎都能作为一个单独的COM组件,COM组件能够和其他软件集成。
TextAnalyst在一个知识库上使用,包括问题的文本描述,内容分析、创建语义网络。
优点:图形接口友好,各种建模技术易于掌握。发现的规则用一种标准符号表达,适合在其他平台编程,增加了产品的可用性。
缺点:PolyAnalystPro 3.5缺乏将表达式剪切并且粘贴在其他软件中的能力。打印不方便、不灵活,需要增加数据和模型的编辑以及清洗的功能。基本的统计功能不够强大。TextAnalyst不能和其他软件集成。
fitting和神经网络技术开发需要很多时间,并且代价昂贵。PolyAnalyst的符号知识获取技术发现规律算法提供了一种很好的性能和复杂性的平衡。
LLC 公司的仙人掌策略Cactus Strategies是一个咨询解决方案,该方案集中在创建启发式预言商业工具和模型、商业开发和电子商务解决方案和应用。Cactus Strategies 提供的商业工具最关键的一个特点是能够从通常的人口信息和合同信息以及客户描述信息中精确地选择最有可能响应的客户。PolyAnalyst 是工具启发能力的核心,它能周期性地从数据中建模和给记录打分。
应用行业案例:
BioVisioN是一个生物研发公司,目标是使药物发现和诊断方面的技术商业化,对标识peptides缩氨酸和蛋白质proteins有很高的技术,由研发产生了大量数据。BioVisioN利用PolyAnalyst分析各种疾病在人体血液和尿液中的模型发现疾病的关联,以寻找诊断方法。


19、MIS America (formerly MIS AG)
http://www.mis-ag.com/
MIS Alea and MIS DeltaMiner
平台:Windows
功能:DeltaMiner是一个激活的搜索代理,专门用于异常报告、控制和分析。MIS Alea 是一个多维应用/服务,在Microsoft Excel 的环境内处理商业模型。
优点:维度非常灵活,具有定制的功能。wizard和 menu驱动非常友好。
缺点:需要一定的专业技能才能掌握该工具的各种功能。
应用行业案例:HP公司利用该软件发现对中小企业的销售趋势,发现问题,作出预测。


20、Oracle Corporation
http://www.oracle.com
/datawarehouse/products/datamining
Darwin
平台:Windows NT/95 client/server,UNIX :Sun Solaris, HP-UX 支持单个或多处理器环境
功能:通过ODBC访问ASCII和RDBMS数据。构造模型的过程有wizards引导。Darwin 3.5支持数据挖掘算法:神经网络,分类和回归树,K-最近邻居、遗传算法、基于记
应用行业案例:Two Crows公司是专门的数据挖掘和数据仓库市场分析和咨询公司。Two Crows和财富1000强公司合作,帮助他们开发数据挖掘策略、选择产品和实施数据挖掘解决方案,同时也和数据挖掘软件商合作帮助他们理解客户需求。公司需要理解客户,使得能够有效地获取新的客户、在原有客户上获得更多赢利、防止客户流失。行业研究表明获得一个新的客户必须花费维持一个老客户的5-6倍开销,公司目前都想求助于数据挖掘来提升客户关系管理。海量数据和成百个变量
忆的推理(memory-based reasoning)、聚集和贝叶斯算法。Darwin使用 MS Excel 作为可视化数据挖掘结果和基于MS IE在线帮助。Oracle选择TMC(Thinking Machines Company)最为合作伙伴。Darwin的模型探索器Model Seeker和关键领域导航Key Fields wizards, 交互式的树显示interactive tree display, lift charts, 灵敏度分析sensitivity analysis, ROI和margin graphs, error tables和决策树规则decision tree rules是非常直观和可靠的。模型能够作为C, C++ and Java代码导出,从而将customer scoring, campaign management 和real-time "intelligent agents"与企业其他应用程序集成,比如:Call Center等。模型探索器能自动构建多个模型,并且为用户选择最好的一个。工作流Workflow和scripting的特点提供了一个数据挖掘步骤的可视化描述和自动的数据挖掘过程。
优点:三个关键强势:高度的可扩展性,由于能够使数据挖掘算法并行实现,所以能够挖掘海量数据;第二,模型能够容易导出,和其他应用集成;第三是Windows风格的客户端易于使用。
缺点:缺乏在数据挖掘之前对数据的可视化探索。工作流不能可视化编辑。
对数据挖掘软件是一个挑战。Two Crows公司对Darwin进行测试,结果如左所示。
Cabletron Systems (NYSE:CS)公司是提供基于intranet网络解决方案(LAN、ATM)和软件,SPECTRUM Enterprise Manager是该公司的网络管理平台软件,24小时收集网络数据:事件、警告、统计信息,然后上载到一个离线的数据仓库供分析使用,由于200个左右的应用软件收集数据,所以数据量非常大。利用Darwin发现各个网络端口的相关性以及事件相关性,以发现网络故障诊断模型,提高网络的有效性。
Nautilus Systems, Inc.是数据仓库和数据挖掘咨询公司,构建1:1的市场和客户关系管理解决方案,针对行业包括:医疗健康、金融、电信、政府。应用Darwin作为数据挖掘软件。


21、Pilot Software (acquired by Accrue Software)
http://www.pilotsw.com/
Pilot Decision Support Suite
平台:Windows NT
功能:基于Web的商业智能解决方案。PDSS能够执行时序分析,作假设(what-if)分析,通过建立地区、时间、产品和其他种类的维度获得详细的信息-多维分析工具。
优点:公司不仅在技术上,在商业上也有很深入的理解。报表能够定制。
缺点:多层次功能在第二层次上不能按条件排序。
Combe公司是家用和宠物商品的生产销售商。为了理解客户购买模型,利用PDSS作时序分析。也有利于很好地管理库存,有助于定制生产计划。利用时序分析跟踪每年客户购买模型的改变。


22、Quadstone, Inc.
http://www.quadstone.com/
Decisionhouse
平台:UNIX,NT
功能:Decisionhouse是一个客户行为建模的软件集,能够发现关
Liverpool Victoria Friendly Society是一个金融协会,对2百万个客户提供投资、存款和保险服务。利用Decisionhouse进行客户关系管理,使合适的客户购买他们需要的商品,一个结果是直接MAIL项目响应率比原先提高了35%。
键的特征,比如标记可能有defect的客户、或者哪些客户有较高的可能性购买特定的商品。Decisionhouse是CRM 策略的关键部分。功能包括:查询、报表、数据挖掘、OLAP和可视化。Decisionhouse 将数据转换成易于理解的3-D图形表示。根据目标对象(比如响应率或预言值)可能值标记高的和低响应率的客户分组和客户定级。通过OLAP的功能,Decisionhouse提供一种机制报告在实际的响应之后标记和理解详细的行为模式的成功率和机会。功能还包括客户分片和定位, 客户行为的多维可视化,交叉表格报表cross-tabulated reports ,决策树分片和响应模型, mailing and control cell lists。
优点:实时、高速的客户分片和描述。易于使用的可视化界面。
缺点:没有使用神经网络技术,以避免黑盒问题。没有内置的方法协助执行典型的分析,比如: mailing response,campaign creation. Decisionhouse创建了大量文件,这些文件需要专门培训过的人员才能熟练掌握。
C&A 是欧洲出名的零售商,成立于1841, 公司在12个欧洲国家有579个商店。C&A每年有两个主要的direct mail campaigns。 使用Decisionhouse和Quadstone公司的应用行业案例:咨询,提高响应率。目前,响应率增加2倍左右,赢利率提高了20倍。
California San Francisco的CustomerLinx是一个基于知识的市场服务公司,提供多模式的客户分析,包括: inbound and outbound fax, IVR and Internet response services。基于各个渠道的客户分析,为不同的行业提供以客户为中心的市场解决方案,包括:电信、零售和电子商务。为了定位客户获取和流失问题customer acquisition and churn, CustomerLinx开发了客户中心解决方案。面向客户市场的核心是:the ability to tailor the offer, message or channel to individual customer needs, 这些需要有效的客户分片技术。利用Decisionhouse来解决上述问题,使得CustomerLinx近来campaign response rate从0.8增长到4%。


23、Salford Systems
http://www.salford-systems.com/
CART Decision-Tree Suite
平台:Windows NT,UNIX
功能:桌面型CART和Unix版本两种。都能产生cut-and-paste模型的源代码。CART能够处理脏数据。TreeCoder 自动产生SAS代码。
优点:精确的模型能够迅速地开发和实施。
缺点:分类问题涉及"yes/no"或 "A or B or C"的种类目标变量,回归定位连续型目标变量,比如:花费的金额等。CART或任何其他决策树在回归问题上都处理得不好。为了克服这个缺陷,Salford Systems近来开发了MARS, 一个数据挖掘工具以解决回归问题。
American Express 是全球旅游、金融网络服务提供商。利用CART进行数据分类,构建决策树,以提高赢利。


24、SAS
http://www.sas.com/
Enterprise Miner
平台:Windows NT
功能:Enterprise Miner为所有的模型开发产生全部的记分代码,这些记分代码能够立即应用到新的数据中。一个评
Vermont Country Store是一家面向家庭的零售公司。利用数据挖掘工具EM定位target-mail 和marketing strategy。
估工具将数据挖掘结果转换成商业术语,结果能够通过Web共享。SAS的数据挖掘方法论称作SEMMA (抽样、探索、修改、建模、评估)。SAS/EM集成了:数据获取工具;数据取样工具 ;数据筛选工具 ;数据变量转换工具 ;数据挖掘数据库 ;数据挖掘过程;多种形式的回归工具 ;为建立决策树的数据剖分工具;决策树浏览工具;人工神经元网络;数据挖掘的评价工具 。 可利用SAS/EM中具有明确代表意义的图形化的模块将这些数据挖掘的工具单元组成一个处理流程图,并依此来组织用户的数据挖掘的过程。这一过程在任何时候均可根据具体情况的需要进行修改、更新并将适合用户需要的模式存储起来,以便此后重新调出来使用。
优点:图形化的界面,可视化的操作,可导引即使是数理统计经验不太多的使用者也能按照SEMMA的原则成功的进行数据挖掘。对于有经验的专家,SAS/EM也可让用户一展身手精细的调整分析处理过程。
缺点:临时文件花费了许多空间,打印决策树比较困难。


25、Seagate Software (division of Seagate Technology)
http://www.seagate.com/
Seagate Holos
平台:Unix,Windows,RDB,MDB
功能:将关系数据库中的数据转换成OLAP cubes,然后装载到Seagate Holos客户端分析。可以定制。支持ROLAP和non-ROLAP。数据可以周期性的装载到系统。有自己开发的语言,使得客户能构造和定制复杂的企业商业智能系统。
优点:混合的OLAP结构
缺点:培训该软件需要时间和专业技能
应用行业案例:Charles Schwab利用该软件进行多维分析,创建报表和模型,预测趋势。


26、Search Software America
http://www.searchsoftware.com/
Data Clustering Engine
平台:AIX,Unix
功能:产生ASCII文件, 可以定制开发。将输入文件增加clustering key然后输出, 为其标记打分,然后产生报表。不管数据质量如何,该软件都能将记录分组。
IBM Brazil是一个计算机公司,用IBM的产品构建解决方案。使用Data Clustering Engine 将公司合同的副本转换成外部文件,导入marketing系统的数据库。
优点:易于使用
缺点:不能访问关系数据库,不能执行scrubbing.


27、Silicon Graphics Inc. (SGI)
http://www.sgi.com/
MineSet
平台:Unix,OpenGL
功能:将可视化方法和数据挖掘技术联合起来。有灵活的定制可视化报表的功能,产生预言模型,将结果以可视化方式表示。
优点:数据可视化将数据转换成易于理解的图形。图形用户接口非常优美。
缺点:是一个通用的数据挖掘工具,没有针对特定行业定制的应用。对RAM非常敏感,至少需要1G的内存运行在多线程的模式。
应用行业案例:
Procter & Gamble 是制药企业,用MineSet分析由临床药物试验产生的数据库,以理解药物和人类疾病之间的关系,提高药物试验的有效性。
Incyte是一个生物软件公司,Incyte'的基因数据库、 生物分析软件、生物学试剂和microarray 服务被全世界19家顶尖的制药和生物技术公司使用。为了挖掘基因数据库,以理解基因和疾病的关系,发现新的基因模式和克隆新的基因,将MineSet作为公司开发的LifeTools 3D的一部分。
New York, RGI Informatics specializes使用MineSet分析各种healthcare数据集: claims-based encounter and drug data, hospital discharge data ,data residing in a clinical information database.


28、SLP InfoWare, Inc.
http://www.slp-infoware.com/
Churn/CPS
平台:HP, SUN, IBM RS 6000. OS: Windows 95, Windows NT, UNIX.
功能:对客户分片和记分,构建模型预言客户流失,计算客户生命周期值,推荐最佳解决方法。Churn/CPS自动分析客户行为信息,决定在客户流失背后的原因,分析的结果用来创建最有可能流失的客户的行为模型 。对这些客户提供更经济的服务或者cross-sell和 upsell 这一类附加服务。Churn/CPS标记最有价值的客户,输出有可能流失的客户列表,并说明最有可能的原因。
优点:灵活地创建客户行为模型,易于使用。
缺点:少量的bugse
应用行业案例:
Bouygues Telecom是电信公司,具有超过 300,000 个客户,利用Churn/CPS分析客户流失,作出相应的市场营销策略。
Cellular One是cellular供应商,占有超过50 %的市场。目前还经营: cellular, beeper, long distance, prepaid cellular, prepaid long distance 和 CAP services。Retention部门使用Churn/CPS作客户流失分析,以保留现有客户。


29、Speedware (Visionize.com)
http://www.speedware.com/
Visonyze Televyze
平台:客户端:Win3.11, Win95, NT. 服务器:AIX, HP-UX, Sun, NT.
GTE公司是世界最大的电信公司之一,在28个洲有21 million电话客户。利用Televyze 跟踪从部门到单个员工的(provisioning/maintenance activity)成绩。市场部门利用该软件为特
功能:Televyze的图表和图形的格式称作a briefing board。在这种格式的图表或图形上可以钻入了解更细节的层次(drill-down)。可以定制个人的briefing board(简报板),并且有突出和自己相关的数据和模型的功能。
优点:从多个数据源抽取数据,briefing board格式的结果易读,各种报表有标准的模板,用户可以自己定制简报板。
缺点:遗留文件必须每天装载,不能实时处理。
定的客户分片和区域定制offerings。


30、SPSS, Inc.
http://www.spss.com/
Clementine
SPSS for Windows
平台: Server: Windows NT, Novell, UNIX. Client: Windows 95, Windows NT.
功能:SPSS是数据清洗、数据挖掘、统计分析工具。 Missing Value Analysis分析大数据集内的模式和内部关系,然后估算遗失的值。在SPSS Base中实际的数据挖掘产品: AnswerTree, Clementine and GoldMiner。具体技术: Kohonen神经网络,回归,因子分析,决策树, 聚集,关联规则,规则归纳,单调回归,OLAP环境。SPSS分析也 产生数据库记分database scores。SPSS for Windows将多个数据源的数据迁移到一个通用的数据集用于分析,分析功能包括:basic frequency distributions to correlations, regression和the more advanced econometric modeling。SPSS能够创模型的图形描述,并导出到PowerPoint。Clementine发现的模型能够转换成C语言代码, 方法论-数据挖掘流方法stream approach。
优点:界面友好,不需要编程,统计功能强大。
缺点:有两个环境: "SPSS Data Editor" 是主要分析数据的电子数据表环境;"SPSS Output Navigator" 是所有的输出的仓库。用户很难知道选择存储时存储的是什么信息,即存储输出和存储数据比较容易混淆。
应用行业案例:American Century Investments (ACI) is 多方位的金融服务商。客户数据:交易数据 transactional data,人口统计数据 demographic ,从数据提供商购买的行为数据behavioral data purchased from data providers。 先创建数据仓库,然后利用SPSS软件进行挖掘,分析客户行为,作出智能决策。
Meridian Resource Corporation 是一个多方位的健康咨询公司。利用SPSS分析healthcare 数据。解决以下问题1)确保数据的正确完整; 2) 决定数据中是否存在关系3) 决定这些关系是否有意义。
美国HSBC Bank 有多于1.4 million个人银行客户,另外还有商业和公司客户。使用SPSS 的数据挖掘工具分析客户,发现模型。三年内增加了15%的销售量,50%的客户有cross-selling的机会,留住了更多的客户。
GfK 是欧洲最大的市场研究机构。四个策略商业单元:consumer shopping behavior, consumer media behavior, retail tracking and ad hoc research. 最近提供数据挖掘服务称GfK ConsumerConsult,Clementine是核心软件。
BT,英国电信使用Clementine作客户分析,定位direct mail campaign


31、SRA International
http://www.sra.com/
KDD Explorer
平台:Sun SparcStation workstations.
功能:KDD Explorer工具集提供了一个构建欺诈检测和知识发
纳斯达科 (NASD) NASD Regulation analysts 使用KDD Explorer作为 for 股票市场潜在欺诈的监督软件。
现的环境。欺诈检测通过规则和序列匹配算法,检测数据库中的实例,匹配那些有可能是欺诈的模式。用Java开发,可以定制可视化界面。知识发现组件包括:决策树,关联规则。
优点:在大数据集上高性能、可以定制的数据挖掘和欺诈检测能力。算法能够在并行机上运行。用户接口用Java开发,能够运行在多个平台上,模式用自然语言表达易于理解。
缺点:不能嵌入其他应用程序,没有数据预处理的能力。


32、thinkAnalytics Corporation
http://www.kwizsolutions.com/
K.Wiz
平台:Windows NT 4.0
功能:作为back-office关键工具。定期自动分析客户交易数据构建 预言和商店的概要信息。这些信息和零售报表环境集成。基于Java的 API。
优点:可视化的编程环境,基于java的API。
缺点:由于基于Java的解决方案, GUI响应较慢。
Triversity 公司是brick-and-mortar和 click-and-mortar 零售商,有400员工,32个国家的350个客户, 25,000个商店, 120,000 terminals 和每年1忆笔交易。Retailers公司使用K.wiz理解和管理客户忠诚度程序, 分析客户购买行为和人口统计信息。


33、Unica Corporation
http://www.unicacorp.com/
Affinium Model (formerly Model 1)
平台:Windows 9X/NT
功能:包括4个模块:响应模型,交叉销售,客户评估,分片和概貌。算法的参数能够手工设置也能自动生成。记分wizard自动做所有的数据转换和预处理工作,能够对整个客户数据库迅速并且精确的记分。Model 1是一个为市场营销应用的数据挖掘软件Response Modeler 模块基于客户历史响应结果预言客户响应,;Customer Segmenter将相似客户分成组,并且解释组间的不同; Customer Valuator 预言一个客户的生命周期值; Cross-Seller预言客户可能会购买与定单上相关的商品。Model 1产生模型和分数,能以un-time library或C语言代码输出模型。
优点:运行快速,界面直观,导入数据、建模、报表、和记分的wizards非常友好,易于使用。
缺点:模型不能直接导出到Microsoft Excel。报表标签在系统中不能定制。
Custom Research, Inc. (CRI)为财富500强企业提供市场营销、客户满意程度、和数据库分析服务。利用Model 1提供: 1)统计方法, 2) cross-validation
DMW 是一个 Top Ten Direct Response Agency, 为不同行业的客户开发direct response solutions ,包括:financial services, healthcare, insurance, utilities, telecommunications, business-to-business and not-for-profit. 应用行业案例:DMW Worldwide 使用 Model 1 帮助客户理解他们的顾客数据中的模式。分片和描述分析segmentation and profile analysis 理解各组顾客的属性和区别;响应模型预言市场营销offers的响应; 客户流失模型预言顾客磨损attrition,;cross-sell模型决定什么商品销售给哪些客户;lead conversion models决定公司应该在什么地方追加投资。


34、Urban Science Applications Inc.
http://www.urbanscience.com/
GainSmarts
平台:Windows NT, Sun Solaris, Compaq True64, IBM AIX and HP-UX.
功能:是SAS基础上进行二次开发的数据挖掘软件。能够在一个抽样数据集上构建模型,然后导出scoring code为整个数据库使用。GainSmarts提供的建模方法:binary logistic regression, 神经网络,决策树。在建模前执行变量转换,interaction checking,统计测试。 开放式体系结构,提供基于文本的报表,包括: gains tables 和graphs.
优点:易于使用,可扩展, logistic模型功能强大。
缺点:建模过程没有可视化,不能在一个项目中创建多个模型,不能合并多次运行的结果。
Australia-based Morris International 业务包括: direct marketing, property, manufacturing, information technology ,venture capital. direct marketing 传统的方法是RFM (recency, frequency and monetary),现在利用 GainSmarts 数据挖掘的方法,构建预言模型。


35、Visible Decisions, Inc.
http://www.vdi.com/
In3D, C++ Edition 2.0
平台:最小需求:: Pentium Desktop PC
功能:Visible Decisions In3D是一个创建3维商业可视化解决方案的开发的工具。从多个数据源的数据迅速地映射成直观的3-D可视化表示。能够嵌入其他应用。3-D图形可以和数据进行交互。
优点:3-D图形表示直观,易于理解。
缺点:离散地映射数据,极耗内存。
应用行业案例:SABRE Group is 为旅游和运输行业提供信息技术解决方案,包括:定制软件开发和软件产品,交易处理,咨询和整个信息技术外包。VantagePoint 公司旅游管理的决策支持工具。利用In3D来设计开发VantagePoint的3D图形显示。


36、Visual Insights
http://www.visualinsights.com/
ADVIZOR
平台: Windows NT, Windows 9X,持多个数据源
功能:关联associations (or affinities)被可视化表示。data constellation组件没有使用传统的3-D图表,有效地将线, 点, 稠密度和颜色联合起来,提供用户快速、简单地了解数据之间关系和它们相对的强度。可以和其他数据挖掘软件和应用集成。所有的可视化都和数据有联接,当数据改变时,能自动刷新图形表示。
优点:全面的、强壮的、快速的、通用的应用,数据装载很快。
缺点:可视化组件缺少一个高层的概述和描述。`
应用行业案例:Stores Automated Systems, Inc. (SASI) 集成POS系统、checkout 系统 和定位忠诚度和市场营销程序。SASI的定位客户市场营销商业部门开发完全定制的商业智能系统,使用ADVIZOR在零售行业中发现客户交易数据的趋势和模式。


37、WhiteCross Systems
http://www.whitecross.com/
Call Detail Analysis System
HeatSeeker
WhiteCross Data Exploration Server
平台:WhiteCross Call Detail Analysis System是一个硬件和软件集成的解决方案,支持大规模并行处理服务器和ANSI-标准 SQL数据库,以及其他RDBMS, 分析工具和网络。
功能:分析呼叫细节数据的能力 ,不是依赖数据抽样和其他数据操纵技术(CDR)。抽取CDR 数据直接转换进入WhiteCross Data Exploration Server (WX/DES). 使用第三方的查询工具,分析WX/DES中包括CDR的数据。可以定期抽取数据进行分析。HeatSeeker包括决策树算法;对客户交易历史记录进行,抽取模式,决定哪些客户可能响应特定的商品;对客户分成不同的赢利组;基于以前客户购买模式,发送响应的mail。HeatSeeker提供: segmentation, profiling and predictive mining support for one-to-one marketing initiatives. 另外,HeatSeeker能够评估商业活动是否成功。
优点:最大的强势在于灵活性、可靠性、性能高。HeatSeeker数据分析不是基于抽样数据。
缺点:对数据库的操作是纯SQL,没有类似SYBASE、ORACLE一样的操纵工具。HeatSeeker只能运行在WhiteCross平台。
应用行业案例:Mercury Communications(Cable & Wireless)是一家电信公司,电信公司成功的一个因素是理解你的客户。每个电话呼叫都产生数据 (i.e., the originating and terminating numbers, start time and duration). 客户的记录告诉电信公司客户是如何使用电信的服务的。由于数据库太大,很难对整个数据库进行特殊查询。WhiteCross Call Detail Analysis System能够对一个月的记录进行特殊的调查, identify traffic patterns and devise and test pricing packages based on real-world data.
Telefonica Larga Distancia (TLD) of Puerto Rico 是一个新的电信公司。使用WX/DES分析CDR数据。
ECI包括在西班牙有60个分店的欧洲零售集团; 同时还具有35,000个员工的食品商店、旅游代理和保险集团。ECI每年运行多次专门的promotions和使用direct marketing campaigns 吸引客户。. ECI有海量的客户购买历史数据, HeatSeeker使 ECI能够在几秒内从海量数据中获得查询结果,挖掘整个数据库,发现有价值的模式。


38、WizSoft, Inc.
http://www.wizsoft.com/
WizWhy
平台:Windows NT
功能:发现规则,根据规则制定预言。能够计算每个规则的可能性和有意义的程度。在发现规则的基础上预言新的cases,新case的数据能够手工加入,也能从一个特定的文件读取。输出是规则和包含预言的text文件。整个建模过程:装载数据;选择重要参数;产生规则;存储模型;应用模型到一个确认数据集。数据定期装载,不需要用户干预。标记关键的预言变量用于logistical regression analysis ,发现数据分片。
应用行业案例:ACNielsen是市场研究公司,利用WizWhy来决定区分不同消费者分组的规则,以利于市场调研。
MEDai, 位于Orlando, Florida,使用人工智能和统计分析技术为healthcare行业提供解决方案。解决方案包括:临床决策支持过程;高风险预测和供应商描述provider profiling。也使用人工智能技术预测movement of stocks ,在这个方面取得巨大的成功。MEDai 为了预测stock market,使用chart pattern recognition indicators。神经网络技术不能产生太多的模式,因为they occurred with a very low frequency, the patterns were very subtle and the returns of stocks had such a high standard deviation. 所以使用WizWhy, find these patterns and generate a significant return on our stock portfolio.
优点: 速度,发现所有规则的能力,为规则分配可能性和评估其价值。易于使用,预言结果比神经网络能被解释理解。"then-not"规则很有用。
缺点:不能同时自动执行多个数据挖掘任务,每个二值预言都必须单独执行;软件需要用户自己选择参数值。
Experian Corporation是一个信息咨询公司,提供: direct marketing industry with lists of addresses and phone numbers, and analysis of their direct marketing offerings. 利用WizWhy 发现基于规则的模型。



from:http://www.ieee.org.cn/dispbbs.asp?boardID=69&ID=45951







推荐几个开源的数据挖掘软件

推荐几个开源的数据挖掘软件:

1 weka http://www.cs.waikato.ac.nz/ml/weka/

2 Yale http://rapid-i.com/

3 KNIME http://www.knime.org/index.html

4 R (统计软件) http://www.r-project.org/

5 Rattle(R基础上的GUI) http://rattle.togaware.com/" TARGET=_blank> http://rattle.togaware.com/

5 AlphaMiner(哈工大基于weka内核开发) http://bi.hitsz.edu.cn/AlphaMiner/index.htm

6 在Excel中实现了决策树、神经网络等算法。可惜VBA工程被作者加密了,不能看到源码。

http://www.geocities.com/adotsaha/

7 Apache Lucene是一个开放源程序的搜寻器引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。

http://lucene.apache.org/


from:http://www.ieee.org.cn/dispbbs.asp?boardID=69&ID=45444